远距离行人检测:从标注方式出发

前沿论文阅读名字都不好取。。。

行人检测的一个关键问题是小物体引入的微小对比和视频中移动导致的模糊。本文提出了一个集成了somatic躯干 topological line location TLL和时间特征的用于检测多尺度行人的方法,对于离摄像头远的小物体效果很好。还引入了基于Markov Random Field MRF的后处理流程来消除遮挡导致的模糊。

论文很多地方讲解的不是很细,理解得比较困难,可能是没有接触到之前常用做法。比如4.1部分有点模糊,没能完全理解怎么实现的,网上有人推荐阅读CornerNet进行理解。公式5则是通过这篇论文阅读人体姿态估计,理解了其意义。

Small-scale Pedestrian Detection Based on Somatic Topology Localization and Temporal Feature Aggregation

Tao Song
Hikvision Research Institute

行人检测的一个关键问题是小物体引入的微小对比和视频中移动导致的模糊。本文提出了一个集成了somatic躯干 topological line location TLL和时间特征的用于检测多尺度行人的方法,对于离摄像头远的小物体效果很好。还引入了基于Markov Random Field MRF的后处理流程来消除遮挡导致的模糊。

论文很多地方讲解的不是很细,理解得比较困难,可能是没有接触到之前常用做法。比如4.1部分有点模糊,没能完全理解怎么实现的,网上有人推荐阅读CornerNet进行理解。公式5则是通过这篇论文阅读,理解了其意义。

Introduction

行人检测一大瓶颈就是较远的行人的检测。模糊、遮挡、较少的信息都是原因。近期的方法都诉诸于卷积的感受野,但我们决定从更早阶段入手:标注。

图1

我们仅仅标注行人躯干解剖学线,如图1。采用这个方法有3个原因:

  1. 高斯分布拟合得不错,尤其是远距离的小人
  2. 骨骼标注是很好,但是将限位框标注转换过去需要人力
  3. 躯干线标注在不同标注员间具有良好的一致性。

基于解剖线标注,我们设计了一个FCN接收多尺度特征表达的输入,回归两个顶点和之间连线。我们通过基于MRF的后处理,将每个预测实体其余有着不同选定对象的实体区分开。此外还使用了通过集成相邻帧的特征来利用时间信息。

Annotation

为了验证标注人体中轴线的优越性,作者采取了人工对照实验:两组实验人员分别采用框和中轴线对测试集中的行人目标进行标注,并采用官方评估协议进行评估,如下图2所示:1、中轴线标注所取得的结果明显优于框标注;2、这种优势在小目标上更为明显。因此,采用人体中轴线标注会给检测器的训练带来更少的bias。

图2

TTL Detection Methodology

Alt text

TTL检测使用了Res-50作为基础网络。通过一系列卷积扩大、去卷积、skip connection方法,扩展为全卷积版本,能接受任意尺寸的图片输入。原网络特征步长为32,对于小尺度行人太大了。因此我们移除了Conv5x中的下采样,并扩大了卷积来保持感受野,使最终特征图为输入大小的1/16。根据表示理论,高层的特征信息更全局性、语义性,对外观变化健壮,底层输出能提供更精确的定位。网络架构如上图3所示:基础网络为ResNet-50,将conv3/4/5的最后一层经过deconv后拼接起来作为多尺度特征表示,分辨率为原图的1/4,在此特征图上接3个1x1conv分别得到三个输出:上顶点置信图、下顶点置信图以及中轴线置信图。

每个顶点都通过一个高斯分布顶点建模。设$p_k$是图片中第i个行人的gt顶点,则GT信心图D(x)由图片中所有$N_k$个行人顶点的max aggregation形成:

其中$x \in R^2$是信息分地图中的一个像素点位置。$d(x;p_k,\sigma)$是一个二维高斯分布,$\sigma$值通过经验选取。

行人连线$l(x)$建模为两点的连线,宽度通过高度缩放。像素值为从顶点至底部点的单位向量v。故GT中轴线置信图L(x)为图中所有$N_k$个行人连线均值。

l(x)定义如下:

训练中使用均方差度量距离,loss函数为:

其中$\tilde D_t$和$\tilde D_b$代表预测的顶点信心图,L代表预测连接图。

推理时,给定一个图片I,候选的上下顶点$\tilde t_i$和$\tilde b_j$,可以通过在顶点信心图$\tilde D_t$和$\tilde D_b$进行非极大值抑制NMS获得。每个候选边(候选顶点两两相连)的分通过度量预测的边$\tilde L$与候选点相连对齐程度。

其中p(u)是沿着候选边的采样点。基于各候选边的最大信心分,找到顶点对即是一个二分图匹配问题(bipartite graph matching, BGM)。可以通过匈牙利算法求解。该对的连线就是一个行人的解剖学线,得分为顶点和连线信心分乘积。

译者注:
一开始感觉公式5很难理解,尤其是p(u)和对u积分。但完成了人体姿态估计这篇论文阅读后豁然开朗了,其实就是简单的在线段上均匀地采样,以均值来近似这个线段积分。具体见该论文2.3

大小尺度行人间的视觉和内在特征区别很大。对一个网络来说,不同尺度的行人也会得到不同的响应。为了找到最优的短路连接开始的层,我们可视化了各层对不同尺度行人输入的响应,见图4。

图4

小尺度的行人通常在较低层有较强的反应,而大尺度通常在更高的层。

BGM通过候选顶点间最大连接得分获得检测结果,在拥挤区域行人聚集,互相遮挡,这会使TTL网络输出非常近的顶点,且他们间的连接分都很高。

图5

基于MRF的后处理方法见图5。对每个候选上顶点$t_i$,都有许多(如$N_i$)个候选下顶点,由于遮挡,它们的连接分都很高且很接近,记做$B_i = \{ b_n ^i\}^{N_i} _{n=1}$。候选上顶点和对应下顶点集构成一个子集,分别设计为观察observed节点和隐藏hidden节点。$t_i$和$B_i$间的连接得分$E_i=\{e^i_n\}^{N_i}_{n=1}$设为联合兼容度joint compatibility $\phi (t_i, B_i)$。对每个候选对$]\{ t_i,b_n^i\}$自动生成一个固定宽高比限位框$VB_i$。那么来自两个不同子集的每两个框都能计算IoU。两个子集间的IoU代表了它们之间邻近程度。两个相邻子集i,j的距离设置为邻居兼容性,其中$\alpha$是归一化参数:

最大乘积算法用于优化目标函数:

其中Z是归一化常量。几次迭代后MRF将收敛,可以获得隐藏点$B_i$的优化后的信心分$C_i = \{ c^i_n \}^{N_i}_{n=1}$。候选点对$\{t_i,b_i\}$的连接分更新为:

最后使用BGM基于更新后的连接分生成检测结果。MRF为顶点对增加了额外的约束,将它们推开。

论文还使用了Conv-LSTM利用时间信息。

Experiment

论文给出的实验效果非常惊人,见下图,50米开外的人也可以被检出。
Alt text

参考文献

ECCV 2018 | 行人检测全新视角:从人体中轴线标注出发
海康行人检测论文简单记录