CVPR 2019人群分析 ADCrowdNet: An Attention-injective Deformable Convolutional Network for Crowd Understanding

An Attention-injective Deformable Convolutional Network for Crowd Understanding
2019

人群分析任务的第一篇论文阅读,由于相关背景知识的缺失,第一篇一般都会翻的比较细。论文的点在于利用了注意力机制和deformable卷积。

其中介绍了其它问题的获得成功的注意力机制,值得后续阅读。以及Deformable卷积,也有用于目标检测等问题的可能。


1. Introduction

人群分析是一个非常有应用场景的问题,可用于公共安全,拥堵避免和流量分析。其研究趋势从计数演变为通过密度图展现人群分布。由于背景噪音、遮挡和多样的人群分布导致的不同的复杂度,为高度拥挤的场景生成准确的人群密度图和准确的计数提出了挑战。

近期基于DNN的解决方案[32,20,24,14]获得了显著成果,但用于高度拥挤嘈杂场景时,会有性能退化问题。如图一中SOTA的方法[14],仍受到背景噪音、遮挡和不一致的人群分布的严重影响。

图1

本论文的目标是处理人群分析中的高度拥挤嘈杂场景问题。我们提出了一个Attention-injective(内射的)Deformable Convolutional Network, ADCrowdNet,它利用了视觉注意力机制,和一个多尺度deformable卷积scheme。注意力机制被设计以减轻输入中噪音的影响。多尺度deformable卷积scheme则是用于拥挤环境。视觉注意力基本原则是利用有关信息,而不是输入图片的所有信息,计算结果。这一对输入图片的特定部分的关注原则在多个领域得到了成功,如图片分类[10],语义分割[19],图片去模糊[18]和姿态估计[5]。多尺度deformable 卷积scheme把输入当做动态采样位置的信息,而不是均匀分布的位置,有能力为复杂的地理位置变化和不同的人群分布建模。它能很好的适应摄像头透视视角和现实中不同人群分布导致的畸变。

图2

我们的网络架构如图2。第一阶段网络称为AMG(Attention Map Generator),为输入的图像生成注意力图Attention Map。再用AM点乘输入图片,送入第二个网络,称为DME(Density Map Estimator)。AMG为DME网络提供了两类先验:(i)人群区域候选;(ii)人群区域拥挤度。前一个先验使多尺度deformable卷积scheme能让DME将注意力集中于有人群的区域,从而提升了对不同噪音的抵抗能力。后一个先验用拥挤度指示了每个人群区域,从而为后续的DME提供了精细的拥挤上下文先验,提升了在不同人群分布下的性能。

我们的ADCrowdNet超越了SOTA的计数模型CSRNet[14]。而且除了人群,还能泛化到其它技数问题上。

Counting by detection: 早期通过手工特征提取器,检测人体或特定部位。但无法应用于更拥挤的场景

Counting by regression: 根据回归的目标不同,如物体数量[4,3]或物体密度[13],方法也有不同。这类方法避免了解决很难检测的问题。它们用回归模型去学习图片特征(通常是低、中级特征的直方图)与物体数量或密度的映射关系。这些方法直接回归总数,抛弃了物体的位置信息,仅使用1维的物体数量进行训练。因此需要很多标注了数量的图片进行训练。[13]通过为每个像素的人群密度建模,通过将问题转换为估计图片密度,从而对任意区域积分就能得到区域内物体数量,解决了计数问题。由于完美的线性映射难以获得,[17]使用随机森林回归学习非线性映射。

Crowd understanding by CNN: [27]使用了一个layered training结构的CNN。[21]使用了一个端到端的CNN,将图片作为输入,学习图片局部和全局的计数,最终输出人群数量。[1]使用dual-column网络,结合了深浅的层来生成密度图。[32]提出了一个multi-column CNN,通过在不同尺度提取特征来估计密度图。

近期[24]提出了一个称为CP-CNN的multi-column CNN,使用不同等级的上下文提升密度图质量。[14]的CSRNet使用空洞卷积dilated扩大感受野,提取更深的特征。这俩获得了SOTA的性能

3. Attention-injective Deformable Convolu- tional Network

AMG是一个FCN分类网络,用于生成AM。DME是基于deformable卷积的多尺度网络,用于生成密度图。我们先用人群图(正样本)和背景图(负样本)训练AMG。接着我们就能用AMG生成AM。接下来我们用AM与图片的点乘训练DME。

3.1. Attention Map Generator

图3

3.1.1 Attention map

AM的生成流程见图3。b和c分别代表背景和人群。对特征图进行GAP全局平均池化并softmax后,得到P为confidence score,再与特征图点乘后求和即得到AM。归一化为[0,1]

图4是不同拥挤程度下AM的效果。

图4

3.1.2 Architecture of attention map generator

AMG架构如图5。VGG-16的前10层作为front-end,提取低级特征。back-end使用多个有着不同膨胀率的空洞卷积层,架构类似[25]的Inception模块。多个空洞卷积能通过扩大的感受野定位人群。

图5

3.2. Density Map Estimator

图6

DME的架构见图6,front-end与AMG一样,back-end为基于multi-scale deformable convolution的CNN。

deformable卷积最早由[6]提出。受益于适应性的(deformable)采样位置选择机制,它在很多任务都很有效,如野外环境的物体检测。它把采样位置的偏移当做可训练的参数。见图7。

图7

4. Experiments

4.1. Datasets and Settings

这里介绍了一些数据集,ShanghaiTech dataset [32], the UCF CC 50 dataset [11], the WorldExpo’10 dataset [30], and the UCSD dataset [2],具体不赘述了。数据集例子见图8。

图8

4.2 Training

4.2.1 AMG Training

训练二元分类网络AMG需要两类样本,正、负。正样本来自4个人群计数数据集的训练集,负样本为650张从网络下载的背景图。它们包含各种人会出现的户外场景,保证正负之间最大区别是是否有人。使用了Adam作为优化方法。loss为CE,lr为1e-5。直接训练二分类。

4.2.2 DME training

我们从每张图取了9块,每块都为1/4大小,前4块为不重叠的4等份。后5为随机的crop。随后对patch进行镜像。我们按[14]的流程生成GT密度图。使用欧氏距离作为loss。

4.3 Results and Analyses

进行了实验和分析。消融实验说明注意力机制对结构有很大提升,见图9。
图9

同时还实验了ADCrowdNet的几个变种,AMG-bAttn-DME是将AM中连续的[0,1]变为了二元0,1。AMG-attn-DME是改变了AM作用于DME的时机,见图11。这几种模型在各数据集中各有胜场。

图11

References

[1] L. Boominathan, S. S. Kruthiventi, and R. V. Babu. Crowd- net: A deep convolutional network for dense crowd counting. In Proc. ACM MM, pages 640–644, 2016.
[2] A. B. Chan, Z.-S. J. Liang, and N. Vasconcelos. Privacy pre- serving crowd monitoring: Counting people without people models or tracking. In Proc. IEEE CVPR, pages 1–7, 2008.
[3] K. Chen, S. Gong, T. Xiang, and C. C. Loy. Cumulative attribute space for age and crowd density estimation. In Proc. IEEE CVPR, pages 2467–2474, 2013.
[4] K. Chen, C. C. Loy, S. Gong, and T. Xiang. Feature mining for localised crowd counting. In Proc. BMVC, pages 1–11, 2012.
[5] X. Chu, W. Yang, W. Ouyang, C. Ma, A. L. Yuille, and X. Wang. Multi-context attention for human pose estima- tion. In Proc. IEEE CVPR, pages 1831–1840, 2018.
[6] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei. Deformable convolutional networks. CoRR, abs/1703.06211, 1(2):3, 2017.
[7] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Proc. IEEE CVPR, pages 886–893, 2005.
[8] P. Dolla ́r, C. Wojek, B. Schiele, and P. Perona. Pedestrian detection: An evaluation of the state of the art. IEEE Trans. Pattern Anal. Mach. Intell., 34(4):743–761, 2012.
[9] R. Guerrero-Go ́mez-Olmedo, B. Torre-Jime ́nez, R. Lo ́pez- Sastre, S. Maldonado-Basco ́n, and D. Onoro-Rubio. Ex- tremely overlapping vehicle counting. In Proc. Springer IbPRIA, pages 423–431, 2015.
[10] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation net- works. In Proc. IEEE CVPR, 2018.
[11] H. Idrees, I. Saleemi, C. Seibert, and M. Shah. Multi-source multi-scale counting in extremely dense crowd images. In Proc. IEEE CVPR, pages 2547–2554, 2013.
[12] D. P. Kingma and J. Ba. Adam: A method for stochastic optimization. In Proc. ICLR, 2015.
[13] V. Lempitsky and A. Zisserman. Learning to count objects in images. In Proc. NIPS, pages 1324–1332, 2010.
[14] Y. Li, X. Zhang, and D. Chen. Csrnet: Dilated convo- lutional neural networks for understanding the highly con- gested scenes. In Proc. IEEE CVPR, pages 1091–1100, 2018.
[15] M.Marsden,K.McGuinness,S.Little,andN.E.O’Connor. Fully convolutional crowd counting on highly congested scenes. arXiv preprint arXiv:1612.00220, 2016.
[16] D. Onoro-Rubio and R. J. Lo ́pez-Sastre. Towards perspective-free object counting with deep learning. In Proc. Springer ECCV, pages 615–629, 2016.
[17] V.-Q. Pham, T. Kozakaya, O. Yamaguchi, and R. Okada. Count forest: Co-voting uncertain number of targets using random forest for crowd density estimation. In Proc. IEEE ICCV, pages 3253–3261, 2015.
[18] R. Qian, R. T. Tan, W. Yang, J. Su, and J. Liu. Attentive generative adversarial network for raindrop removal from a single image. In Proc. IEEE CVPR, pages 2482–2491, 2018.
[19] M. Ren and R. S. Zemel. End-to-end instance segmentation with recurrent attention. In Proc. IEEE CVPR, pages 21–26, 2017.
[20] D. B. Sam, S. Surya, and R. V. Babu. Switching convolu- tional neural network for crowd counting. In Proc. IEEE CVPR, pages 4031–4039, 2017.
[21] C. Shang, Bo, H. Ai, and Bai. End-to-end crowd counting via joint learning local and global count. In Proc. IEEE ICIP, pages 1215–1219, 2016.
[22] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In Proc. ICLR, 2015.
[23] V. A. Sindagi and V. M. Patel. Cnn-based cascaded multi- task learning of high-level prior and density estimation for crowd counting. In Proc. IEEE AVSS, pages 1–6, 2017.
[24] V.A.SindagiandV.M.Patel.Generatinghigh-qualitycrowd density maps using contextual pyramid cnns. In Proc. IEEE ICCV, pages 1879–1888, 2017.
[25] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In Proc. IEEE CVPR, pages 1–9, 2015.
[26] P. Viola and M. J. Jones. Robust real-time face detection. International journal of computer vision, 57(2):137–154, 2004.
[27] E.WalachandL.Wolf.Learningtocountwithcnnboosting. In Proc. Springer ECCV, pages 660–676, 2016.
[28] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simon- celli. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image process- ing, 13(4):600–612, 2004.
[29] Y.Wei,H.Xiao,H.Shi,Z.Jie,J.Feng,andT.S.Huang.Re- visiting dilated convolution: A simple approach for weakly- and semi-supervised semantic segmentation. In Proc. IEEE CVPR, pages 7268–7277, 2018.
[30] C. Zhang, H. Li, X. Wang, and X. Yang. Cross-scene crowd counting via deep convolutional neural networks. In Proc. IEEE CVPR, pages 833–841, 2015.
[31] S. Zhang, G. Wu, J. P. Costeira, and J. M. Moura. Fcn-rlstm: Deep spatio-temporal neural networks for vehicle countingin city cameras. In Proc. IEEE ICCV, pages 3687–3696,
2017.
[32] Y. Zhang, D. Zhou, S. Chen, S. Gao, and Y. Ma. Single-image crowd counting via multi-column convolutional neu-ral network. In Proc. IEEE CVPR, pages 589–597, 2016.
[33] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Tor- ralba. Learning deep features for discriminative localization.In Proc. IEEE CVPR, pages 2921–2929, 2016