行人重识别 ABD-Net: Attentive but Diverse Person Re-Identification
Tianlong Chen, Shaojin Ding, Jingyi Xie, Ye Yuan , Wuyang Chen, Yang Yang, Zhou Ren, Zhangyang Wang
Texas A&M University, University of Science and Technology of China, Walmart Technology, Wormpex AI Research, 2019
注意力机制已被证明在re-id中是比较有效的。但学到的注意力特征通常不够不互相关和多样性。这篇论文就是从这个角度出发。
图1展示了论文所说的Attentive but Diverse与普通注意力的区别。
Attentive but Diverse Network
Attention: Channel-Wise and Position-Wise
Channel Attention Module
已知CNN分类器的高级卷积核是语义相关且通常对种类有选择性category-selective。我们猜测在行人re-id任务中,高级卷积核也是”grouped”的,即有的核有着相似的语义上下文(如人体、遮挡、背景)且互相更有相关性。CAM就是设计来聚集这些通道的。
图2即是CAM模块的说明。输入为$\mathbf{A} \in \mathbb{R}^{C \times H \times W}$,会先计算通道亲和力affinity矩阵$\mathbf{X} \in \mathbb{R}^{C \times C}$。计算方法是将H和W维度坍缩到N,用得到的矩阵R乘以其转置,再对其行求softmax。R再与X相乘,将结果还原到原维度,与输入A进行逐元素相加即得到了结果E。
Position Attention Module
PAM则是对空间上相关的像素进行聚集。区别是亲和力矩阵的维度是$\mathbf{X} \in \mathbb{R}^{N \times N}$。
Diversity: Orthogonality Regularization
论文使用了正交性来进行正则化。包括对特征的O.F.以及对权重的O.W.。通常做法是使用奇异值分解SVD。但这在高维均值上是很昂贵的操作。这篇论文提出了新的正则化方式。
这章我的数学基础还不足以看懂。
Network Architecture Overview
网络结构见图4。