应该是第一篇CNN行人属性论文,发表于2015年,与上一篇17年的Improving Person Re-identification by Attribute and Identity Learning不同之处在于没有应用到Re-ID中。挺简单的一篇论文。
Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios
Dangwei Li, XIaotang Chen, Kaiqi Huang
CRIPAC & NLPR, CASIA
CAS Center for Excellence in Brain Sicence and Intelligence Technology, 2015
1. Introduction
当前属性识别方法主要关注两个应用场景:自然场景和监控场景。许多研究者关注自然场景。如[6]首次提出自然场景的属性识别。该论文提出了概率生成模型,来学习低级视觉特征如“条”或
“点”。[16]显示地为不同查询属性相关性建模,生成了查询列表。[11]探索了可比较的人类属性,并通过二分类器建模,用于人脸验证。[20]提出了姿势对齐神经网络,来在无场景限制的图片识别人类属性。这些方法都关注高质量图片。但监控场景下,图片都模糊且分辨率较低,姿势变化大、光照变化大。故更有挑战。
这一课题也有先驱。[12]首次使用SVM来识别属性(性别、背包等)来辅助Re-ID。为了解决混合场景的属性识别问题,[21]提出了行人数据集APiS,使用boosting来识别属性。[1]构建了最大的行人属性数据集PETA,使用SVM和Markov Random Field来识别属性。但这些方法都使用手工特征,无法有效表达监控场景的图片。而且属性间的关系被忽略了。例如长发使女性的概率更高。
我们提出了两个基于CNN的属性识别方法(DeepSAR和DeepMAR)来鼠标监控场景下的属性。DeepSAR中,每个属性被当做独立部分,训练一个二分网络来识别每个顺序。DeepMAR中,把行人属性识别当做了多标签分类问题。
2. Methods
2.1 Single Attribute Recognition
考虑有N张行人图片,标注了L个属性。每个图片记做$x_i, i \in 1, … , N$。$x_i$相关属性是$y_i$。标签向量$y_i$的每个元素记做$y_{il}, l \in 1, …, L$且$y_{il} \in \{0,1\}$。如果$y_{il} = 1$,则训练样本$x_i$有第l个属性。
DeepSAR方法将属性当做独立元素,它预测每个属性。其基本结构见图2(a)。图2(c)的卷积网络是共享的,包括5个卷积层和3个全连接层。每层后接ReLU单元。前两个ReLU后有max pooling层。第五个ReLU后也有。输入是一个图片和它的一个属性,输出是图片有该属性的概率。
对于每个属性都基于CaffeNet进行独立DeepSAR模型调优。最终分类概率是softmax loss。方程1的$Loss_l$是第l个属性预测模型的loss函数。$\hat p_{i,y_{il}}$是第l个属性的softmax输出概率。
2.2 Multi-attribute Recognition
属性都是有联系的,见图1,但如何利用这些联系仍是挑战。我们提出统一的多属性联合学习模型DeepMAR用于更好地利用属性间关系。
其结构见图2(b)。与DeepSAR不同,输入是图片和它的属性向量,loss函数同时考虑所有属性。采用的是Sigmoid交叉熵loss。
$\hat p_{il}$ 是样本$x_i$第l个属性的输出概率。$y_{il}$代表$x_i$是否有第l个属性。
由于属性分布不一致,存在不平衡的现象。故提出了新的loss函数:
$w_l$是第l个属性的loss权重。$p_l$是第l个属性在训练集中的正样本占比。$\sigma$是一个超参数,我们设为1
3. Experiments
3.1 Experiments on PETA
PETA有19000张行人图片,有61个二元属性和4个多类属性。由于失衡问题,我们只关注占比超过1/20的35个属性。广泛采用的做法是划分为3部分,9500训练,1900验证,7600测试。
为每个属性调优一个DeepSAR模型,由于缺乏正训练样本,仅调优最后一个fc层。为了控制分布失衡,图片被随机复制是正负样本一样。
为了比较,DeepMAR采用与DeepSAR一样的数据分割。通常底层能习得用于同于物体识别的局部颜色和纹理信息,高层能习得高级语义信息。为了了解低、高级特征如何适应监控场景,基于CaffeNet调优所有层。
实验结果见表1。MRFr2是前沿的使用Markov Random Field的算法,使用手工特征。
为了进一步了解结果,见图3。在低比例属性中进步巨大。
3.2 Experiments on APiS
APiS是流行的属性识别数据集,包含3661张图片。有11个二元属性和2个多类属性。通用评价标准是将图片分为5个部分,计算不同属性的receiver operating characteristic curves(ROC)的均值和nAUC得分。
这个数据集图片大小对DeepSAR模型来说过小,容易过拟合。但DeepMAR模型能更灵活的处理小数据集,故仅验证了DeepMAR。
实验结果见图4。
References
[1] Y. Deng, P. Luo, C. C. Loy, and X. Tang. Pedestrian attribute recognitionat far distance. In Proc. ACM Multimedia, 2014. 2, 3
[2] Y. Deng, P. Luo, C. C. Loy, and X. Tang. Learning to recognizepedestrian attribute. arXiv preprint arXiv:1501.00901, 2015. 3
[3] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, andT. Darrell. Decaf: A deep convolutional activation feature for genericvisual recognition. arXiv preprint arXiv:1310.1531, 2013. 2
[4] K. Duan, D. Parikh, D. Crandall, and K. Grauman. Discovering localizedattributes for fine-grained recognition. In Proc. CVPR, 2012.1
[5] A. Farhadi, I. Endres, D. Hoiem, and D. Forsyth. Describing objectsby their attributes. In Proc. CVPR, 2009. 1
[6] V. Ferrari and A. Zisserman. Learning visual attributes. In Proc.NIPS, 2008. 1
[7] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchiesfor accurate object detection and semantic segmentation. InProc. CVPR, 2014. 2
[8] S. Gong, M. Cristani, S. Yan, and C. C. Loy. Person re-identification.Springer, 2014. 1
[9] D. Gray and H. Tao. Viewpoint invariant pedestrian recognition withan ensemble of localized features. In Proc. ECCV. 2008. 3
[10] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classificationwith deep convolutional neural networks. In Proc. NIPS, 2012.2
[11] N. Kumar, A. C. Berg, P. N. Belhumeur, and S. K. Nayar. Describablevisual attributes for face verification and image search. TPAMI,33(10), 2011. 1
[12] R. Layne, T. M. Hospedales, S. Gong, and Q. Mary. Person reidentificationby attributes. In Proc. BMVC, 2012. 1, 2
[13] A. Li, L. Liu, K. Wang, S. Liu, and S. Yan. Clothing attributes assistedperson re-identification. TCSVT, 25, 2015. 1
[14] X. Liu, M. Song, Q. Zhao, D. Tao, C. Chen, and J. Bu. Attributerestrictedlatent topic model for person re-identification. Patternrecognition, 45(12), 2012. 1
[15] C. Shan, F. Porikli, T. Xiang, and S. Gong. Video Analytics for BusinessIntelligence. Springer, 2012. 1
[16] B. Siddiquie, R. S. Feris, and L. S. Davis. Image ranking and retrievalbased on multi-attribute queries. In Proc. CVPR, 2011. 1
[17] Y. Sun, X. Wang, and X. Tang. Deeply learned face representationsare sparse, selective, and robust. arXiv preprint arXiv:1412.1265,2014. 1
[18] Y. Taigman, M. Yang, M. Ranzato, and L. Wolf. Deepface: Closingthe gap to human-level performance in face verification. In Proc.CVPR, 2014. 2
[19] D. A. Vaquero, R. S. Feris, D. Tran, L. Brown, A. Hampapur, andM. Turk. Attribute-based people search in surveillance environments.In Proc. WACV Workshops, 2009. 1
[20] N. Zhang, M. Paluri, M. Ranzato, T. Darrell, and L. Bourdev. Panda:Pose aligned networks for deep attribute modeling. In Proc. CVPR,2014. 1
[21] J. Zhu, S. Liao, Z. Lei, D. Yi, and S. Z. Li. Pedestrian attribute classificationin surveillance: Database and evaluation. In Proc. ICCVWorkshops, 2013. 2, 3, 4