将移动和外观结合起来的在线实时追踪论文。挺多相关工作不懂,马氏距离、卡尔曼滤波、Hungarian算法、Association等,要停下来看看除了论文的相关知识了。
SIMPLE ONLINE AND REALTIME TRACKING WITH A DEEP ASSOCIATION METRIC
Nicolai Wojke, Alex Bewley, Dietrich Paulus
University of Koblenz-Landau, Queensland University of Technology, 2017
1. Introduction
由于近期物体检测的成果,通过检测来追踪tracking-by-detection变成了流行的多物体追踪方法。这一方法中物体踪迹trajectory常常是全局最优问题,同时处理整批视频常。如flow network formulation和概率图模型都是这类流行框架。但因为批处理,它们无法应用到目标身份在每个time step都available的在线场景。更传统的方法是Multiple Hypothesis Tracking(MHT)和Joint Probabilistic Data Association Filter(JPDAF)。这些方法以frame-by-frame的方式进行数据关联。JPDAF通过为独立测量的相关性似然加权,生成single state hypothesis。MHT跟踪所有可能hypotheses,但因计算量必须进行剪枝。近期的tracking-by-detection都再次使用了这些方法,取得了不错的结果,但性能建立在计算量和实现复杂度的增长上。
简单在线实时追踪SORT是一个简单得多的框架,在图片空间进行卡尔曼Kalman滤波,并使用带一个度量了限位框重叠的关联度量的Hungarian方法进行逐帧数据关联。这一简单方法在高帧率下得到了良好的性能。
尽管获得了整体不错的追踪精度和准确率,SORT的身份交互数相对较多。这是因为使用的关联度量仅在状态估计不确定性低时准确。因此SORT在追踪有遮挡的轨迹时有缺陷,因为它们常出现在frontal-view正面视角场景中。我们把关联度量替换为一个合并了动作和外观信息的度量,克服了这个问题。特别地,我们训练了一个CNN来区分大规模Re-ID数据集中的行人。通过集成这一网络,我们增强了对缺失和遮挡的健壮性,同时保持了系统易实现、高效及能应用到在线场景的特性。
2. Sort With Deep Association Metric
我们采用了传统的单假设追踪方法,加上递归卡尔曼滤波和逐帧数据关联。
2.1 Track Handling and State Estimation
跟踪控制和卡尔曼滤波几乎与原始方法$^{[12]}$一样。我们假定了一个非常通用的追踪场景,摄像头是无标定的,且我们没有运动平台ego-motion信息。这些情况为滤波网络提出了挑战,它主要设置考虑的是近期的多物体追踪benchmark。因此我们跟踪场景定义在八维状态空间($u,v,\gamma,h,\dot x,\dot y,\dot \gamma,\dot h$),其中包含限位框中心位置($u,v$),长宽比$\gamma$,高度h,和它们在图片坐标系中相对速度。我们使用一个带常量速度和线性observation模型的标准卡尔曼滤波器,我们把限位框坐标($u,v,\gamma,h$)作为物体状态的直接observations。
对于每个track k我们统计自最后一次成功关联度量$a_k$的帧数。超过预定义的最大age $A_{max}$的track认为是离开了场景,将从track集移除。对每个检测都不能关联到一个已有track的,初始化一个新的track假设。这些新的track在它们前3帧被分类为暂时性tentative的。在这段时间中我们期望每个time step都有成功的度量关联。前三帧未能成功关联到一个度量的track会被删除。
2.2 Assignment Problem
关联预测的卡尔曼状态和新到达的度量的传统方法是,建立一个能用Hungarian算法解决的assignment问题。在问题方程中我们通过合并两个恰当appropriate度量来集成动作和外观信息。
为了包含动作信息,我们使用了(平方)马氏Mahalanobis距离预测的卡尔曼状态和新到达的度量:
我们把第i个track分布到度量空间的投影记做$(y_i,S_i)$,第j个限位框记做$d_j$。马氏距离通过度量检测与平均track位置有多远的标准差,考虑不确定的状态估计。使用这一度量可以排除不像的管理,通过将马氏距离阈值设在95%,间距计算自inverse $x^2$分布。这一决策通过以下指示器决定。
如果第i个track和第j个检测是可接受的,则值为1。对于我们的4维度量空间,对应马氏距离阈值为$t^{(1)} = 9.4877$。
尽管马氏距离在移动不确定性低时是个合适的关联度量,我们的图片空间问题转换为从卡尔曼滤波框架提供的一个物体位置的粗略估计的状态分布预测问题。特别的,我们未考虑的摄像机运动会在图片平面产生快速移动,让马氏距离对通过遮挡的追踪变成一个无知的度量。因此我们为assignment问题集成了第二个度量。对每个限位框detection $d_j$我们计算一个外观描述符$r_j$,$|r_j| = 1$。不仅如此,我们还维护了一个图集$\mathfrak R_k=\{r_k^{(i)}\}_{k=1}^{L_k}$,对每个track k维护了最后$L_k = 100$相关外观描述符。接着我们使用第二个度量测量第i个track和第j个检测在外观空间中的最小cosine距离:
同样,我们引入了一个二元变量来指示是否一个关联在这一度量下是可接受的:
我们为这一指示器在特定训练集上找到了合适的阈值。实际应用中,我们使用了一个预训练的CNN来计算限位框伟哥描述符。网络结构见章节2.4。
合并后,两个度量都在assignment问题的不同领域互补。马氏距离基于对短期预测有用的移动提供可能的物体位置信息。余弦距离考虑对在长期遮挡后恢复id特别有用的外观信息。我们用一个加权和合并两个度量:
当某个关联满足两个度量时,我们称其可采纳的:
超参数$\lambda$用于控制各度量的影响。实验中我们发现当摄像头移动很大时,$\lambda = 1$是合理选择。这一设定下关联cost仅使用外观信息。不过马氏阈值仍用于丢弃候选。
2.3 Matching Cascade
与其把measurement-to-track关联当做一个global assignment problem,我们采用了瀑布式的子问题集。考虑以下情况:当一个物体被遮挡很长时间,后续的卡尔曼滤波预测与物体位置不确定的关联会增加。相应的,概率质量mass散布于状态空间,observation likelihood就变得不那么陡峭。直觉上讲,关联度量应通过增加measurement-to-track距离来对这一概率质量散布负责。反直觉的是,当两个track为同一个detection竞争时,马氏距离青睐不确定性更大的,因为它能把任何检测对projected track mean的标准差距离有效降低。这是个不需要的特性,增加了track碎片和不稳定的track。所以我们提出了一个匹配级联,给与更近期的物体优先,to encode our notion of probability spread in the association likelihood
Listing 1是我们的匹配算法。输入包括track集合$\mathcal T$和检测索引$\mathcal D$,和最大age$\mathcal A_{\max}$。第1、2行我们计算了关联cost矩阵$\mathcal C$和可采纳的关联的矩阵$\mathcal B$。我们接着遍历track age n来解决一个随age增长的track的linear assignment问题。在第6行我们选择tracks $\mathcal T_n$的一个在过去n帧都没和任意检测关联的track的子集。在第7行,我们解决了$\mathcal T_n$和未匹配的检测集$\mathcal U$间的linear assignment。第8、9行我们更新了匹配了和未匹配的检测集,第11行返回它们。这一算法优先考虑有更小age的track,如更近期的track。
在最终匹配阶段,我们如原始SORT算法$^{[12]}$一样,运行在$age n = 1$的未确认和未匹配的track集的IoU关联。这有助于考虑突然的外观变化,提升对不正确的初始化的健壮性。
2.4 Deep Appearance Descriptor
没有额外度量训练,仅使用简单最近邻查询时,我们的方法应用前需要离线训练一个有识别力的特征集。因此我们使用了一个在大规模person Re-ID数据集(超过1261个行人的1100000张图片)上预训练的CNN。
CNN架构见表1。我们使用了两个卷积层,后跟6个残差块。Dense10层计算了128维的全局特征图。最后一层使用batch和l2归一化将特征投影到unit 超球面hypersphere,来与我们的余弦外观度量兼容。网络共有2800864个参数,一次有32个限位框的前向传播在GTX 1050移动GPU上需30ms。
3. Experiments
我们在MOT16 benchmark上评定了我们的tracker的性能。它在7个有挑战的测试序列上评估追踪性能,包括移动摄像头的正面视角和高角度监控。我们依赖[16]的检测,作为我们tracker的输入。一个在公有和私有数据集上训练的Faster RCNN模型。我们也在同样的检测上运行了SORT作为对比。
测试时参数$\lambda = 0, A_{\max} = 30$。如[16]一样用confidence阈值为0.3过滤检测。测试按如下度量进行:
- Multi-object tracking accuracy(MOTA): 在false positive,false Negative和身份变化上的总体追踪准确率。
- Multi-object tracking precision(MOTP): 报告的位置和gt的限位框重叠总体精度。
- Mostly tracked(MT): 在80%以上的时间都标注为同样标签的gt track。
- Mostly lost(ML): 最多仅track到20%的gt track
- Identify switch(ID): 一个gt track上报的身份变化次数
- Fragmentation(FM): 一个track被依赖检测打断的数量
结果见表2。总的来说由于继承了外观信息,我们成功地在较长的遮挡后保持身份。
References
[1] L. Zhang, Y. Li, and R. Nevatia, “Global data associationfor multi-object tracking using network flows,” inCVPR, 2008, pp. 1–8.
[2] H. Pirsiavash, D. Ramanan, and C. C. Fowlkes,“Globally-optimal greedy algorithms for tracking a variablenumber of objects,” in CVPR, 2011, pp. 1201–1208.
[3] J. Berclaz, F. Fleuret, E. Turetken, and P. Fua, “Multi- ¨ple object tracking using k-shortest paths optimization,”IEEE Trans. Pattern Anal. Mach. Intell., vol. 33, no. 9,pp. 1806–1819, 2011.
[4] B. Yang and R. Nevatia, “An online learned CRF modelfor multi-target tracking,” in CVPR, 2012, pp. 2034–2041.
[5] B. Yang and R. Nevatia, “Multi-target tracking by onlinelearning of non-linear motion patterns and robustappearance models,” in CVPR, 2012, pp. 1918–1925.
[6] A. Andriyenko, K. Schindler, and S. Roth, “Discretecontinuousoptimization for multi-target tracking,” inCVPR, 2012, pp. 1926–1933.
[7] A. Milan, K. Schindler, and S. Roth, “Detection- andtrajectory-level exclusion in multiple object tracking,”in CVPR, 2013, pp. 3682–3689.
[8] D. B. Reid, “An algorithm for tracking multiple targets,”IEEE Trans. Autom. Control, vol. 24, no. 6, pp. 843–854, 1979.
[9] T.E. Fortmann, Y. Bar-Shalom, and M. Scheffe, “Sonartracking of multiple targets using joint probabilistic dataassociation,” IEEE J. Ocean. Eng., vol. 8, no. 3, pp.173–184, 1983.
[10] C. Kim, F. Li, A. Ciptadi, and J. M. Rehg, “Multiplehypothesis tracking revisited,” in ICCV, 2015, pp. 4696–4704.
[11] S.H. Rezatofighi, A. Milan, Z. Zhang, Qi. Shi, An. Dick,and I. Reid, “Joint probabilistic data association revisited,”in ICCV, 2015, pp. 3047–3055.
[12] A. Bewley, G. Zongyuan, F. Ramos, and B. Upcroft,“Simple online and realtime tracking,” in ICIP, 2016,pp. 3464–3468.
[13] L. Leal-Taixe, A. Milan, I. Reid, S. Roth, and ´K. Schindler, “MOTChallenge 2015: Towards a benchmarkfor multi-target tracking,” arXiv:1504.01942 [cs],2015.
[14] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN:Towards real-time object detection with region proposalnetworks,” in NIPS, 2015.
[15] A. Milan, L. Leal-Taixe, I. Reid, S. Roth, and ´K. Schindler, “Mot16: A benchmark for multi-objecttracking,” arXiv preprint arXiv:1603.00831, 2016.
[16] F. Yu, W. Li, Q. Li, Y. Liu, X. Shi, and J. Yan, “Poi:Multiple object tracking with high performance detectionand appearance feature,” in ECCV. Springer, 2016,pp. 36–42.
[17] M. Keuper, S. Tang, Y. Zhongjie, B. Andres, T. Brox,and B. Schiele, “A multi-cut formulation for jointsegmentation and tracking of multiple objects,” arXivpreprint arXiv:1607.06317, 2016.
[18] B. Lee, E. Erdenee, S. Jin, M. Y. Nam, Y. G. Jung, andP. K. Rhee, “Multi-class multi-object tracking usingchanging point detection,” in ECCV. Springer, 2016,pp. 68–83.
[19] W. Choi, “Near-online multi-target tracking with aggregatedlocal flow descriptor,” in ICCV, 2015, pp. 3029–3037.
[20] R. Sanchez-Matilla, F. Poiesi, and A. Cavallaro, “Onlinemulti-target tracking with strong and weak detections,”in European Conference on Computer Vision. Springer,2016, pp. 84–99.
[21] L. Zheng, Z. Bie, Y. Sun, J. Wang, C. Su, S. Wang, andQ. Tian, “MARS: A video benchmark for large-scaleperson re-identification,” in ECCV, 2016.
[22] S. Zagoruyko and N. Komodakis, “Wide residual networks,”in BMVC, 2016, pp. 1–12.
[23] K. Bernardin and R. Stiefelhagen, “Evaluating multipleobject tracking performance: The CLEAR MOTmetrics,” EURASIP J. Image Video Process, vol. 2008,2008.