# Person Re-identification: Past, Present and Future

Liang Zheng, Yi Yang, Alexander G. Hauptmann, 2016.10

University of Technology at Sydney, Carnegie Mellon University

## 1. Introduction

“ To re-identify a particular, then, is to identify it as (numerically) the same particular as one encountered on a previous occasion “.

### 1.2 A Brief History of Person Re-ID

Person re-ID的研究始于多摄像头追踪[8]。自那时起已发展处多个重要方向。在本调查中，我们简短介绍了person re-ID的一些里程碑（图2）。

Multi-camera tracking. 在早年，person re-ID这个词还未被正式提出的时候，紧紧地跟多摄像头跟踪一起出现，它将外观模型与不相交的摄像头的几何校正geometry calibration集成。1997年，Huang和Russel[9]提出了一个用于在给与其它摄像头观察证据后，估计它在一个摄像头的后续出现预测的贝叶斯公式。其外观模型包括多个时空spartial-temporal特征如颜色，车长vehicle length，宽高，速度和观测时间。关于这一主题的综合调查见[8]。

Multi-camera tracking with explicit “re-identification”. 据我们所知，最早提出“person re-identification”的关于多摄像头追踪的论文是2005年来自阿姆斯特丹大小的Wojciech Zajdel, Zoran Zivkovic和Ben J.A Krose[10]提出的。在他们的ICRA’05年的“Keeping track of humans: Have I seen this person before?”中，他们的目标是“在一个人离开视野又回来后重识别他”。在他们的方法中，为每个人赋予了一个独特，潜在latent的标签，并定义了一个动态的贝叶斯网络来编码标签和来自踪片（追踪小片段tracklets）的特征（颜色和时空线索）的概率性关系。一个进入的人的ID通过用近似贝叶斯推理算法Bayesian inference algorithm计算的后续标签分布决定。

The independence of re-ID (image-based). 2006年，Gheissari等人[11]在一个用于前景检测的时空分割算法后，仅用了人的视觉线索。基于颜色和显著边缘直方图salient edgel histograms的视觉匹配是通过一个清晰的行人模型或Hessian-Affine interest point operator完成的。实验在一个由3个有适度视野重叠的摄像头捕获的44个人的数据集上进行。值得一提的是尽管它们的时空分段方法使用了视频帧，特征设计和匹配过程都没有使用视频信息，故我们将其分类为基于图片的re-ID。这一论文标志着person re-ID与多摄像头追踪的分离，以及作为独立计算机视觉任务的开始。

Video-based re-ID. 最初用于在视频进行追踪，但大部分re-ID研究着重于图片匹配。在2010年，两个论文提出了multishot re-ID[12, 13]，它们随机选取帧。颜色是两个论文都使用了的特征，而Farenzena等人的[13]额外使用了一个分割模型来检测前景。对于距离测量，两个论文都是计算两个图片集的限位框间最小距离，Bazzani等人[12]进一步对颜色和一般缩影特征generic epitome features使用了巴氏Bhattacharyya距离。证明了对每个人使用多帧比单帧有效，而随着选择的帧数量增加，re-ID准确度会饱和。

Deep learing for re-ID. 2014年，深度学习在图片分类[14]上的成功散布到了re-ID，Yi等人[15]和Li等人[16]都使用一个孪生siamese卷积网络[17]来决定是否一对输入图片属于同一个ID。选择孪生模型的原因也许是各个身份的训练样本数量有限（通常是两个）。除开一些参数设定上的变种，主要区别在于[15]为网络增加了一个额外的cost函数，而[16]使用了更好的身体划分。它们使用的数据集不同，因此两个方法没法直接比较。尽管在小数据集上的性能还未稳定，深度学习方法已成为re-ID的流行选项。

End-to-end image-based re-ID. 尽管大部分研究实验中都使用手工切分的限位框或由固定检测器输出的限位框，研究行人检测器对于re-ID准确度的影响仍有必要。2014年，Xu等人[18]通过结合检测(commonness)和re-ID(uniqueness)得分解决了这一题目。在CAMPUS数据集上发现，联合考虑检测和re-ID得分能比分开使用得到更高的行人检索准确度。

## 2. Image-Based Person Re-ID

### 2.1 Hand-crafted Systems

#### 2.1.2 Distance Metric Learning

global metric learing的大体思想是让相同类的向量更近，不同类的向量更远。最常用的方程基于马氏Mahalanobis距离，通过用特征空间用线性缩放和旋转将欧氏距离泛化而来。两个向量$x_i, x_j$的平方距离可以写作：

## 3. Video-Based Person Re-ID

### 3.1 Hand-crafted Systems

2010的前两个尝试[12, 13]都是手工系统。它们主要使用了基于颜色的描述符并有选择的使用前景分割来检测行人。他们使用了与基于图片的re-ID方法的类似图片特征，主要差别是匹配函数。如章节1.2所提到的，两个方法都计算两个限位框集的特征的最小欧氏距离作为集的相似度。本质上这种方法应被分类到多帧“multi-shot” person re-ID中，其两个帧集合的相似性扮演了关键角色。这一多帧匹配策略被后来的研究[97, 98]所采用。在[86]中，多帧被用于训练一个基于协方差特征集的有辨识力的boosting模型。在[99]中，SURF局部特征被用于检测和描述兴趣点，接着在KD树中建立索引以加速匹配。在[11]中生成了一个时空图来为前景分割辨识时空稳定区域。接着用聚类方法对时间段内计算出局部描述，以提升匹配性能。Cong等人[100]使用来自视频序列的复写地理结构manifold geometric structure来构建基于颜色特征的更紧凑的的空间描述符。Karaman等人[101]提出使用条件随机野conditional random field（CRF）来体现时空领域的约束。在[102]中使用了颜色和选出的图片来构建了对帧的模型，它捕捉其有特点的外表以及随时间变化的变化。Karanam等人[103]使用了一个人的多帧并提出probe特征，表现为同一个人在图集中的线性组合。一个身份的多帧也能被用来增强身体部分的校准。在[85]中寻找部分与部分的精确一致的成果，Cheng等人提出了一个迭代算法，由于身体部分检测器的提升，每次迭代后绘画结构拟合得就越精确。在[104]中，行人姿态被加入估计，有着相同姿态的帧会匹配出更高的信心分。

## 4. Future: Detection, Tracking and Person Re-ID

### 4.2 Future Issues

#### 4.2.1 System Performance Evaluation

AP/MR计算中的重要参数是IoU。如果与gt框的IoU大于阈值，被检查的限位框就被认为是正确的。通常阈值为0.5。KITTI benchmark对于车辆检测要求0.7的IoU，而对行人是0.5。需要注意使用更大的阈值比更小的性能会好。图6提供了在PRW数据集上检测准确率AP与re-ID准确率（rank-1或mAP）之间的关系。显然它们在IoU阈值为0.7时是线性关系。而0.5的IoU下比较离散。这一相关性说明应使用更大的IoU。

#### 4.2.2 The Influence of Detector/Tracker on Re-ID

Person re-ID始自行人追踪[9]，如果认为它们是一个身份，来自多个摄像头的tracklet就会关联起来。这项研究将re-ID当做追踪系统的一部分，并没有评估定位/追踪准确率对re-ID准确率的影响。但是，就算re-ID独立以来，许多研究在手绘图片限位框上进行，而这是离现实很远的理想情况。因此，在端到端re-ID系统中，理解检测/追踪对re-id的影响很关键。

## 5. Future: Person Re-ID in Very Large Galleries

Inverted index-based. 倒排索引是基于Bag-of-Words（BoW）的检索方法[22, 147, 148]实际使用的数据结构。基于局部描述符的数字化结果，倒排索引有k个条目，k指密码本大小。索引结构有k个条目，每个都关联一个倒排列表，局部描述符在那里索引。基本倒排索引结构见图9。许多研究使用一个账本posting记录图片ID以及索引的描述符的词频term frequency(TF)，许多其他元数据也能被存储，比如二元签名binary signature[148]，特征坐标[149]等。关于倒排索引在实体检索的基础知识和前沿进展，我们推荐一个近期的调查[19]。

Hashing-based. 哈希被广泛研究以用于近似最近邻搜索，目标是在图集很大或距离计算花费大时降低准确找到最近邻的成本[23]。自从光谱Spectral Hashing里程碑[150]之后，社区里就开始流行训练hash。它是训练哈希函数，$y=h(x)$将向量x映射到压缩的y，目标是在排名表中找到高排名的真值最近邻true nearest neighbor at high-ranks，同时保持搜索过程的高效。有一些经典哈希训练方法，如乘积量化product quantization(PQ)[117]，递归量化iterative quantization(ITQ)[151]等。这些方法训练都很高效，且有着不错的检索准确率。它们不需要标注数据，故非常适合re-ID任务。

## 6. Other Important Yet Under-Developed Open Issues

### 6.2 Re-ranking Re-ID Results

re-ID过程（图5.b）可被看做一个检索任务，其中re-ranking是提升检索准确率的重要步骤。它是指在能找到re-ranking知识时，为初始排序结果进行重排序。关于re-ranking方法的调查，我们推荐[164]。

[24] D. Gray and H. Tao, "Viewpoint invariant pedestrian recognition with an ensemble of localized features," in European conference on computer vision. Springer, 2008, pp. 262–275.
[34] ——, "Learning mid-level filters for person re-identification," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 144–151.
[34] ——, “Learning mid-level filters for person re-identification,” in Proceedings of the IEEE Conference on Computer Vision and Pattern
[55] M. Kostinger, M. Hirzer, P. Wohlhart, P. M. Roth, and H. Bischof, ¨ “Large scale metric learning from equivalence constraints,” in IEEE
[58] M. Hirzer, P. M. Roth, M. Kostinger, and H. Bischof, "Relaxed pairwise learned metric for person re-identification," in European Conference on Computer Vision. Springer, 2012, pp. 780–793.
[59] S. Liao and S. Z. Li, "Efficient psd constrained asymmetric metric learning for person re-identification," in Proceedings of the IEEE International Conference on Computer Vision, 2015, pp. 3685–3693.
[60] Y. Yang, S. Liao, Z. Lei, and S. Z. Li, "Large scale similarity learning using similar pairs for person verification," in Thirtieth AAAI Conference on Artificial Intelligence, 2016.
[76] T. Xiao, H. Li, W. Ouyang, and X. Wang, “Learning deep feature representations with domain guided dropout for person reidentification,”
[78] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei, “Imagenet: A large-scale hierarchical image database,” in Proceedings
[80] F. Perronnin, J. Sanchez, and T. Mensink, "Improving the fisher kernel for large-scale image classification," in European Conference on Computer Vision, 2010, pp. 143–156.
[85] D. S. Cheng, M. Cristani, M. Stoppa, L. Bazzani, and V. Murino, "Custom pictorial structures for re-identification," in British Machine Vision Conference, 2011.
[86] M. Hirzer, C. Beleznai, P. M. Roth, and H. Bischof, "Person re-identification by descriptive and discriminative classification," in Scandinavian conference on Image analysis, 2011, pp. 91–102.
[89] W. Li and X. Wang, "Locally aligned feature transforms across views," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2013, pp. 3594–3601.
