行人重识别 HTCNN: Person re-identification using Hybrid Task Convolutional Neural Network in camera sensor networks

文章提出了Weighted Triplet Loss (WTL),并结合了6个水平的局部特征进行CE分类学习。

行人重识别 HTCNN: Person re-identification using Hybrid Task Convolutional Neural Network in camera sensor networks
Shuang Liu, Wenmin Huang, Zhong Zhang
Tianjin Key Laboratory of Wireless Mobile Communications and Power Transmission, Tianjin Normal University, Tianjin 300387, China, 2019


图1

Motivation 图1是一些模型对重识别的图片激活值的可视化。可以看到前景,也就是人体获得了更多的注意力。而re-id常用的Triplet Loss使用的特征是使用GAP将特征图缩减为的特征向量,也就是所有像素都被平均对待,提出的WTL就是从这个思路出发,为特征图上的特征值加入权重。

图2

表1

图2是整体网络结构。表1是修改后的backbone细节。backbone后两个分支分别进行WTL和ID的训练。

Batch Hard Triplet Loss的公式如下:

其中$[\cdot]_{+}=\max (\cdot, 0)$,$ D(u, v)=|u-v|_{2}$。

图3

WTL的出发点是,人体通常在裁出来的图片中间,因此要给中间的特征更大的权重。将特征图T分解为$K \times N \mathrm{C}-\mathrm{dim} $的向量$t_{i, j},(i=1,2, \ldots, K \text { and } j=1,2, \ldots, N)$。为每个$t_{i, j}$计算权重$w_{i, j}$,计算方式如下:

其中$d_{i, j}=\left|t_{i, j}-t_{i, j+1}\right|_{2}$,$\gamma$是超参数,在图像水平边缘处时,$w_{i, j}$初始化为0.1。从公式能看出,权重是从两边往中间计算的,当前点权重与外侧权重值以及当前特征值与上一点特征值的距离相关。看图3能比较好理解。

得到$w_{i, j}$后,进行加权池化:

然后使用卷积层将2048维的G降到1024的g。
最终WTL公式为:

此外论文还对特征图进行了水平的6切分,降维后分别进行CE loss训练。比较常规就不细写了。

以下是本模型在一些数据集上的结果:

Alt text

Alt text