除夕也得水博客呀,这是最后一天上班时看的论文,发完就去吃年夜饭啦。
本论文提出了简单的姿态估计与追踪的方法,估计模型是ResNet加上deconv,追踪是[11]里的贪心匹配算法,但加入了光流预测作为人体检测器的补充,并用基于流的相似度度量代替了限位框IoU度量。
Simple Baselines for Human Pose Estimation and Tracking
Bin Xiao
Microsoft Research Asia, 2018
1. Introduction
与其它视觉任务一样,在人体姿态估计上的进程极大地被深度学习加速了。从[31, 30]的先驱工作开始,在MPII benchmark
[3]上的性能在3年后达到饱和,PCKH@0.5
从80%
[30]提升到90%
以上[22,8,7,33]。COCO human pose benchmark上这一进程更快了。一年内,mAP
从60.5
提升到72.1
。随着姿态估计的迅速成熟,更有挑战的任务“simultaneous pose detection and tracking in the wild
已被提出。
同时,网络架构与实验操作也越来越复杂。这让算法的分析与对比变得困难。例如MPII
上的领先方法有很多细节差异,但准确率上相差无几,很难判断哪个细节才是关键的。对于姿态追踪,虽然还没有那么多研究,但考虑到问题维度和解空间的增长,系统复杂度肯定会进一步增长。
本论文提出了一个问题 how good could a simple method be? ,为了回答它,为两个任务都提供了基线方法,它们都很简单且高效。
我们的姿态估计是在backbone网络(ResNet)上加入了一些deconvolutional层。这也许是从深而且低分辨率的特征图上估计热图的最简单方法。我们的模型获得了SOTA的结果,COCO的test-dev上mAP为73.7
。
我们的姿态追踪学习了ICCV 17 PoseTrack Challenge
[2]的胜者[11]的流程。单人姿态估计使用了上面描述的模型。tracking则使用了[11]里的贪心匹配方法。我们的修改只有基于pose propagation的光流optical flow,以及相似度度量。我们获得了新的SOTA的结果,mAP为74.6
,MOTA为57.8
。
本论文不是基于任何理论证据,而是基于简单的技术,以及广泛的消融实验的验证。尽管获得了更好的结果,我们并没有宣称相对之前方法的算法先进性。
2. Pose Estimation Using A Deconvolution Head Network
我们的方法在ResNet最后的卷积阶段$C_5$后添加了一些逆卷积层。整个网络结构见图1c。采用这个结构的原因是它是从深而且低分辨率的特征图上估计热图的最简单方法,而且它也被SOTA的Mask R-CNN上使用。
默认情况下,使用了3个带bn和ReLU的逆卷积层。每层有256个$4\times 4$的步长为2的卷积核。使用了一个$1\times 1$卷积输出k个关键点的预测热图$\{H_1 … H_k\}$。
使用了MSE loss。第k个关节的目标热图$\hat H_k$是通过在关节的gt坐标应用2D高斯分布生成。
3. Pose Tracking Based on Optical Flow
视频中多人的姿态tracking首先估计帧里人的姿态,然后为这些姿态分配跨帧的唯一id。我们把人的实例标记为$P=(J,id)$,其中$J=\{j_i\}_{1:N_j}$是$N_j$个关节的坐标集。当处理第k帧$I^k$时,我们已经处理了在$I^{k-1}$里的实例集$\mathcal P^{k-1} = \{P^{k-1}\}_{1:N_{k-1}}$,以及$I^{k}$里的需要分配id实例集$\mathcal P^{k} = \{P^{k}\}_{1:N_{k}}$,其中$N_k$和$N_{k-1}$是$I^k$和$I^{k-1}$里实例的数量。如果当前帧里的实例$P_j^k$关联到了上一帧的$P_i^{k-1}$,则$id_i^{k-1}$传播到$id_j^k$,表明一个新的track。
[11]首先使用Mask R-CNN估计姿态,再使用贪婪二分图匹配算法进行逐帧在线追踪。
该算法反复地找出相似度最高的两个实例$P_j^k$和$P_i^{k-1}$进行关联,并移除。当第$I^{k-1}$中不再有实例为第$I^k$中的一个实例关联时,生成一个新的id。
我们参照了[11]的流程,只有两处修改。其一是我们有两种人体框,一种来自人体检测,另一种来自上一帧生成的光流。其二是进行关联时使用的相似度度量。我们提出了一种基于流的姿势相似度度量。我们提出的方法见图2。
3.1 Joint Propagation using Optical Flow
简单地把设计用于单张图片检测的检测器(如Faster-RCNN),会导致漏检以及视频帧的运动模糊和遮挡导致的误检。如图2c,检测器因为左边黑衣人的快速运动而漏掉了他。时间信息通常对生成更健壮的检测有帮助。
我们提出使用光流表达出的时间信息生成框。给定帧$I^{k-1}$中的一个带关节坐标集$J_i^{k-1}$的人体实例,以及从帧$I^{k-1}$到$I^{k}$的光流域$F_{k-1 \to k}$,我们可以把关节坐标集$J_i^{k-1}$根据$F_{k-1 \to k}$传播,估计在帧$I^k$对应的关节坐标集$\hat J_i^k$。更详细地讲,$J_i^{k-1}$中的每个关节坐标$(x,y)$,传播得到的坐标为$(x+\delta x, y + \delta y )$。其中$(\delta x,\delta y)$是光流域在关节坐标$(x,y)$处的值。接下来为$\hat J_i^k$计算限位框,并一定程度扩大这个框(实验中为15%)作为姿态估计的候选框。
3.2 Flow-based Pose Similarity
当一个实例移动太快而box间没有重叠时,使用限位框IoU作为相似度度量可能会有问题。而且在拥挤场景中,限位框与实例间并没有对应关系。一个更精细的度量可以是使用物体关键点相似度Object Keypoint Similarity(OKS)计算两个实例间的关节距离作为姿态相似度($S_{Pose}$)。这一相似度在不同帧同一人姿态改变时也有问题。我们提出了一种基于流的姿态相似度度量。
帧$I^k$中的一个实例$J_i^k$和$I^l$中的一个实例$J_j^l$,基于流的度量表达为:
其中OKS计算了两个人体姿态间的OKS。$\hat J_i^l$代表了$J_i^k$从$I^k$到$I^l$使用光流$F_{k \to l}$传播得到的关节。
3.3 Flow-based Pose Tracking Algorithm
有了基于光流的关节传播和基于流的姿态相似度,我们提出了基于流的姿态追踪算法,表1总结了算法中的符号。
首先解决姿态估计问题。使用NMS统一两种方法得到的检测框,通过传播得到的框是对检测器的补充。接下来我们使用第二章的网络对从box切出并resize的图片进行姿态估计。
接下来我们解决追踪问题。我们把追踪到的实例储存到固定长度$L_Q$的双端队列中,记做:
其中$\mathcal P_{k-1}$意味着上一帧$I^{k-i}$中追踪到的实例,队列的长度$L_Q$说明了在进行匹配时考虑多少过往帧。
Q可用于捕捉过往多帧的连接关系,在视频的第一帧初始化。对于第k帧$I^k$,我们能计算未跟踪的实例的关节集$J^k$(没有id)与Q中的之前的实例计算基于流的姿态相似度矩阵$M_{sim}$。接下来我们把id分配到每个$J^k$中的身体关节实例J,来通过使用贪心匹配和$M_{sim}$,得到分配的实例集$\mathcal P^k$。最终,我们通过把第k帧的实例进行合计add up得到实例集$P^k$
4. Experiment
实验结果不详述了,参见论文。
References
- Deformable-ConvNet. https://github.com/msracver/Deformable-ConvNets
- Andriluka, M., Iqbal, U., Milan, A., Insafutdinov, E., Pishchulin, L., Gall, J.,Schiele, B.: Posetrack: A benchmark for human pose estimation and tracking. In:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.pp. 5167–5176 (2018)
- Andriluka, M., Pishchulin, L., Gehler, P., Schiele, B.: 2d human pose estimation:New benchmark and state of the art analysis. In: IEEE Conference on ComputerVision and Pattern Recognition (CVPR) (June 2014)
- Bernardin, K., Stiefelhagen, R.: Evaluating multiple object tracking performance:the clear mot metrics. Journal on Image and Video Processing 2008, 1 (2008)
- Cao, Z., Simon, T., Wei, S.E., Sheikh, Y.: Realtime multi-person 2d pose estimationusing part affinity fields. In: CVPR (2017)
- Chen, Y., Wang, Z., Peng, Y., Zhang, Z., Yu, G., Sun, J.: Cascaded pyramidnetwork for multi-person pose estimation. In: CVPR (2018)
- Chen, Y., Shen, C., Wei, X.S., Liu, L., Yang, J.: Adversarial posenet: A structureaware convolutional network for human pose estimation. In: IEEE InternationalConference on Computer Vision. pp. 1212–1221 (2017)
- Chu, X., Yang, W., Ouyang, W., Ma, C., Yuille, A.L., Wang, X.: Multi-contextattention for human pose estimation. In: Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. pp. 1831–1840 (2017)
- COCO: COCO Leader Board. http://cocodataset.org
- Dai, J., Qi, H., Xiong, Y., Li, Y., Zhang, G., Hu, H., Wei, Y.: Deformable convolutional networks. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 764–773 (2017)
- Girdhar, R., Gkioxari, G., Torresani, L., Paluri, M., Tran, D.: Detect-and-track:Efficient pose estimation in videos. In: Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition. pp. 350–359 (2018)
- He, K., Gkioxari, G., Doll´ar, P., Girshick, R.: Mask r-cnn. In: Computer Vision(ICCV), 2017 IEEE International Conference on. pp. 2980–2988. IEEE (2017)
- He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In:Proceedings of the IEEE conference on computer vision and pattern recognition.pp. 770–778 (2016)
- Ilg, E., Mayer, N., Saikia, T., Keuper, M., Dosovitskiy, A., Brox, T.: Flownet 2.0:Evolution of optical flow estimation with deep networks. In: IEEE Conference onComputer Vision and Pattern Recognition (CVPR). vol. 2 (2017)
- Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training byreducing internal covariate shift. In: International conference on machine learning.pp. 448–456 (2015)
- Jifeng Dai, Yi Li, K.H., Sun, J.: R-FCN: Object detection via region-based fullyconvolutional networks. In: NIPS (2016)
- Jin, S., Ma, X., Han, Z., Wu, Y., Yang, W., Liu, W., Qian, C., Ouyang, W.:Towards multi-person pose tracking: Bottom-up and top-down methods. In: ICCVPoseTrack Workshop (2017)
- Kingma, D.P., Ba, J.: Adam: A method for stochastic optimization. ICLR (2015)
- Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: Advances in neural information processing systems.pp. 1097–1105 (2012)
- Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll´ar, P.,Zitnick, C.L.: Microsoft coco: Common objects in context. In: European conferenceon computer vision. pp. 740–755. Springer (2014)
- Newell, A., Huang, Z., Deng, J.: Associative embedding: End-to-end learning forjoint detection and grouping. In: Advances in Neural Information Processing Systems. pp. 2274–2284 (2017)
- Newell, A., Yang, K., Deng, J.: Stacked hourglass networks for human pose estimation. In: European Conference on Computer Vision. pp. 483–499. Springer(2016)
- NVIDIA: flownet2-pytorch. https://github.com/NVIDIA/flownet2-pytorch(2018), [Online; accessed March-2018]
- Papandreou, G., Zhu, T., Kanazawa, N., Toshev, A., Tompson, J., Bregler, C.,Murphy, K.: Towards accurate multi-person pose estimation in the wild. In: Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on. pp.3711–3719. IEEE (2017)
- Pishchulin, L., Insafutdinov, E., Tang, S., Andres, B., Andriluka, M., Gehler, P.V.,Schiele, B.: Deepcut: Joint subset partition and labeling for multi person pose estimation. In: Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. pp. 4929–4937 (2016)
- PoseTrack: PoseTrack Leader Board. https://posetrack.net/leaderboard.php
- Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detection with region proposal networks. In: Advances in neural information processingsystems. pp. 91–99 (2015)
- Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z.,Karpathy, A., Khosla, A., Bernstein, M., et al.: Imagenet large scale visual recognition challenge. International Journal of Computer Vision 115(3), 211–252 (2015)
- Szegedy, C., Ioffe, S., Vanhoucke, V., Alemi, A.A.: Inception-v4, inception-resnetand the impact of residual connections on learning. In: AAAI. vol. 4, p. 12 (2017)
- Tompson, J.J., Jain, A., LeCun, Y., Bregler, C.: Joint training of a convolutionalnetwork and a graphical model for human pose estimation. In: Advances in neuralinformation processing systems. pp. 1799–1807 (2014)
- Toshev, A., Szegedy, C.: Deeppose: Human pose estimation via deep neural networks. In: Proceedings of the IEEE Conference on Computer Vision and PatternRecognition. pp. 1653–1660 (2014)
- Xiu, Y., Li, J., Wang, H., Fang, Y., Lu, C.: Pose flow: Efficient online pose tracking.arXiv preprint arXiv:1802.00977 (2018)
- Yang, W., Li, S., Ouyang, W., Li, H., Wang, X.: Learning feature pyramids forhuman pose estimation. In: IEEE International Conference on Computer Vision(2017)
- Zhu, X., Jiang, Y., Luo, Z.: Multi-person pose estimation for posetrack with enhanced part affinity fields. In: ICCV PoseTrack Workshop (2017)
- Zhu, X., Wang, Y., Dai, J., Yuan, L., Wei, Y.: Flow-guided feature aggregationfor video object detection. In: 2017 IEEE International Conference on ComputerVision (ICCV). pp. 408–417. IEEE (2017)
- Zhu, X., Xiong, Y., Dai, J., Yuan, L., Wei, Y.: Deep feature flow for video recognition. In: Proc. CVPR. vol. 2, p. 7 (2017)