EANet: Enhancing Alignment for Cross-Domain Person Re-identification
Houjing Huang, Wenjie Yang, Xiaotang Chen, Xin Zhao, Kaiqi Huang, Jinbin Lin, Guan Huang, Dalong Du
中科院,地平线 2018
一篇开源的行人re-id论文,效果不错。目标是解决跨领域re-id问题。提出了PAP(Part Aligned Pooling),显著提升了跨领域测试效果。对ReID特征提出了PS(Part Segmentation)约束,增强了对齐能力,提升了模型泛化性。还尝试了把PS约束应用到目标域图片,进行有效的领域迁移
Introduction
论文灵感来自于SOTA的基于部分的模型PCB(Beyond part models: Person retrieval with refined part pooling, ECCV 2018),其对比见图1。可以看出当检测不那么准确时,PCB就会偏离其初衷。论文借助了关键点检测以进行更好的对齐。
ReID Model with Regional Pooling
PCB的做法,将图片通过CNN获得$C\times H \times W$,将其从上至下等分为P条区域,GAP后就得到p个局部特征,并使用p个n(id数量)分类softmax,CE loss进行训练。
Part Aligned Pooling
PAP借助额外的姿态估计进行分区,根据coco定义的17个关键点,定义9个区域(以成对的肩膀、手肘、臀部、膝盖、脚踝的较小的y坐标进行切分),如图2。1~6类似PCB,而7~9则补偿关键点模型检测失败时的情况。使用$N \times 9 \times H \times W$的01mask作为区域掩码。
当出现遮挡或检测不佳时,某些部分可能会不可见。此时不会提取特征,而是直接返回0向量,并忽略此部分的loss,loss为:
测试时,如果目标图片$I_q$的第i部分不可见,则该部分与所有候选图片的距离都将被忽略。对于图片对$\left\langle I_{q}, I_{g}\right\rangle, g \in\{1, \ldots, N\}$,其距离为:
不过如果目标图的第j部分可见,而候选图不可见,则$e_{j}^{g}=f_{j}(\overrightarrow{\mathbf{0}})$。
Part Segmentation Constraint
因为我们在特征图上的区域池化较精细,我们希望从不同区域提取出的特征应区别明显,只有较少的冗余。区域1、6分别是头和脚,但从图5b、5f中能看出,它们间仍有较大冗余。为此,我们为Conv5的特征图引入了一个部位分割约束PS,强制一个模块基于Conv5特征预测部位标签。出发点就是如果PS能从ReID特征图预测出部位标签,则说明特征图的定位能力(部位观察力)得到了保持。我们将一个步长为2,$3\times3$反卷积和一个$1\times1$卷积连接到Conv5特征图上,进行部位标签预测。反卷积用于上采样,$1\times1$卷积用于像素分类。分割标签来自在COCO Densepose数据集上训练的一个part segmentation模型的预测。图3是COCO的gt标签和模型预测伪标签。
Multi-Task Training
源域的数据集使用ReID loss和PS loss一起训练,对于目标域,我们仅训练PS。