CVPR 2019 无监督行人Re-ID: Unsupervised Person re-identification by Soft Multi-label Learning

Unsupervised Person re-identification by Soft Multi-label Learning
Hong-Xing Yu, Wei-Shi Zheng, Ancong Wu, Xiaowei Guo, Shaogang Gong, Jian-Huang Lai
中山大学,腾讯优图,Queen Mary University of London 2019

利用额外数据集,无监督地训练目标集的re-id方法。将Market-1501的无监督的SOTA结果,rank-1从62.2提升到了67.7,mAP从31.4提升到了40.0。里面的提特征使用的ResNet50,能不能替换为训练好的Aligned Re-ID或更强力的模型,是否会有更好的结果?
Related work介绍了一些Unsupervised RE-ID和Unsupervised domain adaptation的相关工作,有需要的时候可以作为阅读指导。


文章的出发点很简单,如图1。re-id任务的标注过于昂贵,因此本文提出了基于已有数据集,用里面有id的图片(文里称为reference agent)来作为无标注的新领域的soft-label,基于此的无监督re-id训练。

图1

Deep Soft Multilabel Reference Learning

Soft Multilabel-guided hard negative mining

Soft label其实是一串似然值标签,其和为1,每个值代表输入图片与一个reference agent相似度。样本图片和agents图片通过一个ResNet-50,输出的长度为2048的特征,内积后softmax即得到了soft label,其multi label函数为:

soft label还需要转换为re-id类型的标注,即它们两两之间是否为同一个id。论文采用了外观特征+一种称为soft multilabel agreement的机制,划分pos/neg pair,定义如下:

这个机制是通过计算两张图片的multi label的L1距离。对于外观特征相似的两张图,如果它们的agreement程度高,则为positive对,否则为hard negative。

挖掘方式为:

  1. 将未标注数据集里所有图片两两一对,共M对,并按外观特征相似度降序排列
  2. 根据超参数p,取前pM对作为挖掘范围
  3. 对于pM对,其soft multi label agreement值大于某阈值时,为正样本P,否则为负样本N

图2

图3

如图3。这一部分的Loss为:

,其中:

P和N都是对划分后的正负集内所有pair的外观特征L2距离的负数指数,集内的外观特征越相似,距离越小,这个值越大。要优化$L_{MDL}$,则要让对数里的值越大,即让$ \overline P$越大,$ \overline N$越小。也就是在soft label指导划分下,优化re-id特征提取器,让正样本集里特征距离小,负样本集里的特征距离大。

训练时这个P和N都是从mini batch中划分的,因此mini batch需要很大才有效果,导致整个MAR需要很大的显存,4块共计40G+。

Cross-view consistent soft multilabel learning

[52]里提到了,re-id的应用场景主要在于两张跨镜头的人的照片对比。所以Soft label效果需要在跨镜的情况下一样的好。从分布的角度来看,给定reference agents和来自目标领域的未标注目标数据集X,所以可比较特征的分布应只依赖于目标领域的人物外观分布,而与摄像头视角无关。

举个例子就是如果目标领域是寒冷的室外市场且消费者倾向于穿暗色服装,那么softlabel应与那些同样穿暗色服装的agent有更高的似然率,而与目标的摄像头视角无关。

换句话说,每个相机视角下的soft multilabel的分布应与目标领域一致。基于以上的分析,得到了Cross-view consistent soft Multilabel learning loss:

$\mathbb P(y)$是目标集X的soft multilabel分布,$\mathbb P_v(y)$是X中的第v个摄像头的soft label分布。d为分布的距离函数,可选KL或Wasserstein,论文选择了后者。

Reference agent learning

agent之间应该具有互斥的辨识力,同时每一个都能表达所有的对应人的图片。Agent Learning loss如下:

其中$z_k$是额外数据集中第k个人的图片,标签为$w_k$。优化$L_{AL}$即是让对数内的值尽量大,也就是如果对$z_k$生成multi label的话,第k个值越接近1越好。但这个loss仅为额外数据集所优化,为了进一步提升soft multilabel函数对目标集的有效性,我们提出了下面的训练。

Joint embedding learning for reference comparability. 获得引用可比较性的主要挑战在于domain shift,这是两个领域的人物外观差异导致的。我们决定挖掘跨领域的hard negative pair来解决领域间分布差异问题。对每一个agent,我们从目标数据集中找到与之外观相似的图片集,深度网络提取到的特征应能很好的区别开它们。定义Reference agent-based Joint embedding learning loss如下:

其中$M_i = \{ j \ \big| \ | \ a_i-f(x_j) |^2_2 < m \}$指为第i个agent $a_i$挖掘的数据,m=1,这个值出自[44]里的理论。$[\cdot]_+$是hinge函数。The center-pulling term $ | \ a_i-f(z_k) |^2_2$reinforces the repre- sentativeness of the reference agents to improve the validity that ai represents a reference person in the cross-domain pairs $(a_i,f(x_j))$。

Reference Agent Learning loss为: