Invariance Matters: Exemplar Memory for Domain Adaptive Person Re-identification
Zhun Zhong, Liang Zheng, Zhiming Luo, Shaozi Li1, Yi Yang
Cognitive Science Department, Xiamen University
Centre for Artificial Intelligence, University of Technology Sydney
Research School of Computer Science, Australian National University
Baidu Research 5 Postdoc Center of Information and Communication Engineering
Xiamen University, 2019
又一篇领域自适应的行人re-id,有开源代码。主要的点在于提出了exemplar memory
机制,并利用memory
基于3个假设,完成对目标域的自适应。比博主总结的另一篇CVPR2019无监督的re-id MAR报告的性能要好。
Framework
网络结构如图2。网络使用预训练的ResNet-50作为backbone,一直到Pooling-5,而后添加了FC-4096作为特征输出。对于源域分支,再添加一个FC-ID层,Softmax后训练。目标域分支则存储目标域图片的4096特征,并对每个batch与已存储的特征,基于3个假设进行训练。
Supervised Learning for Source Domain
源域有id标注,直接当做分类问题进行训练,Loss如下:
Exemplar Memory
Exemplar Memory其实就是目标域的4096维特征L2-norm后的缓存。目标域的每一张图片独占一个位置,并id恒定。初始时特征全为0,并在训练中的反向传播时迭代更新,公式如下:
Invariance Learning for Target Domain
基于图1的三个假设,完成对目标域的训练。
Exemplar-invariance
第一个假设是每个行人图片外观应该都互相不同,就算属于同一个ID。把Memory里的每个特征都当成一个ID,给定目标图片$x_{t, i}$,将其特征与Memory里所有特征计算余弦相似度,并使用softmax计算其属于i的概率:
,其中$\beta \in (0,1]$用于平衡分布尺度,Loss为:
Camera-invariance
同一个id在不同摄像头下的外观可能有巨大的不同。在源域中,模型可以通过标签学习到摄像头不变性,但在目标域就会变得困难。
因为目标域的摄像头ID是容易获取的。因此我们把每个摄像头当做一个风格领域,使用StarGAN[5]来训练风格迁移模型。对于每个真实的目标域图片,使用迁移模型获得$C-1$张其它摄像头风格的图片,把它们当做一个目标进行训练:
其中$\hat{x}_{t, i}$是$x_{t, i}$的一个随机选择的迁移图片。
Neighborhood-invariance
第三个假设是对于每个目标图片,都可能存在一定数量的正样本。对某个目标域图片$x_{t, i}$,将其特征$f\left(x_{t, i}\right)$与Memory $\mathcal{K}$中存储的特征计算余弦相似度,找到k个最近邻$\mathcal{M}\left(x_{t, i}, k\right)$,其中最近的为i。
基于假设,我们如下地为$x_{t, i}$属于类j赋予权重:
使用如下soft-label loss进行训练:
Overall loss of invariance learning
结合以上三个假设的loss公式如下:
,其中$j \in \mathcal{M}\left(x_{t, i}^{*}, k\right)$。
$x_{t, i}^{*}$是从图片$x_{t, i}$与其风格转移图片的并集里随机采样。
Final Loss for Network
与博主预想的不一样,源域与目标域是同时训练的,总体loss如下:
最终结果: