Viewpoint-aware Attentive Multi-view Inference for Vehicle Re-identification
Yi Zhou Ling Shao
UAE 2019
车辆Re-ID仍是极具挑战的课题。相比行人,同一id的车辆在不同视角下差别极大,而同款车在同一视角下外观及其相似,带来了很大难度。这篇论文提出了一种 Viewpoint-aware Attentive Multi-view Inference (VAMI) 模型,给定任意视角的一张汽车图片,VAMI能提取单视角特征,并转化为全局多视角特征。采用注意力机制选取不同视角所需核心区域,并通过对抗训练实现有效的多视角特征推理。
1. Introduction
图1即是这篇论文的核心思想,通过多视角(粗分为5类:前、后、侧、侧前、侧后)特征的学习,保证距离计算时的视角不变性。
2. 网络结构
网络结构见图2,相对来说比较复杂。
2.1 单视角特征网络
最左边的网络F用于学习单视角特征,以及汽车的固有信息如型号、颜色与类型。同时F也能学习到视角特征,从而可以对数据集的视角特征进行k-means聚类(蓝色块中的聚类图),得到每个视角聚类的聚类特征,以用于注意力训练。F最终输出的是一个视角分类结果(也会送入注意力模型)和多标签分类(型号、颜色与类型)等。卷积的超参数设置请参见论文。
2.2 注意力模型
图2中的绿色部分为注意力模型,输入特征为F网络的第四个卷积层的输出($8\times8\times256$),因为这一层既有高级特征也有较大的空间尺寸(8的尺寸对于视角注意力确实也基本够用了)。另外利用F的视角分类结果,将对应视角的Attention map设为1。模型生成的5个AM与输入特征点乘,就得到了5个视角下的特征图。
图3为注意力机制的详细设计。注意力的行程分为t步,后一步会依赖前一步的结果,可以把这一多步的形式看做多模块。通过以弱监督的形式训练一个context vector以及一些权重,来预测AM。弱监督是指仅定义通过5种视角间的两两重合关系,定义了一个code,代表了6种重合情形,其bit的表见图3的表格。要注意哪个视角的区域,就会利用那个视角的训练集聚类特征,与上一步的context vector $c^{t-1}$相乘,并经过神经元激活。Conv4的特征激活后与其相乘,再次激活并softmax后就得到了注意力权重$\alpha$。$\alpha$在于原始特征图相乘后再求和,就得到了这一阶段的context vector结果$c^t$。并将其与弱标签通过交叉熵loss优化。
有个很有意思的现象是,虽然弱标签定义时仅为3个重合部位(前脸、后尾和侧面)作为位来定义,但最终训练出来的注意力模型对于这3个部位均不重合的情景,会自动注意顶部外观。
2.3 对抗性的多特征学习
与通常的GAN训练生成器和辨别器来生成和辨识样本不同,我们需要的是从单视角特征生成多视角特征。
定义了两个网络,分别是用于假与真的生成。$G_f$的输入为单视角特征的注意力特征后的concat,其噪音以dropout的形式加入。$G_r$的输入为与fake同一id的所有5个视角照片的真实特征的concat。其主要目的是更好地融合和训练一个输入车辆的真实、高级、多视角的特征。
由于无需生成图片,所以无需逐渐扩大特征图面积,我们用残差块替代了逆卷积。
两个网络有完全一样的架构但参数不共享。进行过尝试但无法收敛,因为两种输入的差距过大。
辨别器为FCN。其目的不是最大化地辨识出生成的数据,而是用于优化$G_f$,使其匹配D的一个中间层的特征分布。loss如下:
其中m就是D中的第m层(实验中设置为4)。而且D还用汽车的多属性分类进行了训练,使推理出的多视角特征与汽车本身id具有更好的关联。第二层与原始视角特征(F中的第四层的输出)concat,来更好的优化$G_f$和D(毕竟这才是真实的特征),$G_f$和D是有条件的,对应不同视角的输入不同而不同。
训练时除了$L_{Advers}$,还需要通过另外给定的正和负的样本对(图2中的红色箭头),使用距离度量优化$L_{Reid}$。它的训练是基于从单视角图片推理出的多视角特征,而不是真实的多视角输入。
3. 训练
VAMI的训练共分4步。
- 使用softmax训练F网络得到汽车特征,并对训练集特征进行k-means得到5个视角下的聚类特征。
- $G_r$需要与D一起,使用汽车的5视角输入以及额外的多属性分类进行预训练。否则在早期就一起优化$G_f, G_r, D$的话会使$L_{Advers}$不稳定,因为这时对抗结构中的真实数据分布尚未形成。
- 固定$G_r$,训练各视角条件下的$G_f$和D,学习从单视角下推理多视角特征。
- 最终使用成对图片训练re-id,调优除了F和$G_r$的整个网络。因为早期推理出的多视角特征很差,re-id loss无法用于优化。