CVPR2017 用额外特征提升行人检测 HyperLearner: What can help pedestrain detection

HyperLearner: What can help pedestrian detection
JiaYuan Mao, Tete Xiao
Megvii, 2017

本文研究了许多额外特征对行人检测的作用,并提出了一种新的网络架构,以多任务训练的方式。并提出了HyperLearner,将Channel feature作为训练目标之一,从而在测试时无需额外的输入。在输入分辨率较低时相比baseline Faster R-CNN有比较大的提升,分辨率较高时也有1~2个点的提升,值得尝试。


1. Introduction

相比通常的物体,行人与背景的区分度更低。也就是说区分更依赖于语义上下文。从图1a中可以看出,行人常常以低分辨率出现(低于$20 \times 40 $),与杂乱的背景一起,带来了很多困难负样本,如信号灯,邮筒,橱窗模特等,它们与行人都有很相似的外观特征。没有额外的语义上下文的话,检测器很难在这样的低分辨率下区分它们,造成召回率的降低和误检的上升。

图1

正确定位行人是另一个挑战。图1b是一个实际应用场景,行人们都站得很拥挤。检测器很难定位每个个体,从而产生许多误检。这个问题对CNN检测器来说更加严重,因为卷积和池化都会产生高级的语义激活图,同时也在模糊了邻近实体的边界。一个直觉性的修改是利用额外的低级外观特征(如边界)。

图2

3. Channel features for pedestrian detection

3.2 Introduction to channel features

Channel features可以分为3类,apparent-to-semantic channels,temporal(临时的) channels和depth channels。图2是所有channel的展示。

Apparent-to-semantic channels 这类通道包括ICF,edge,segmentation和heatmap。

ICF是由LUV色彩通道、梯度量级gradient magnitude通道和HOG通道组成的手工特征,曾广泛应用于基于decision-forest的检测器。它只包含局部块的颜色和梯度,表达了图片最低级但细节的信息。

edge通道是从HED网络的第二、三层提取的。与传统edge检测器如Canny不同,HED能产生更有语义意义的edge map。这个通道可以认为是中级的特征通道,既有细节外观,也有高级语义。

在语义分割网络中,FCN在COCO上训练来生成segmentation channel,每个像素表达其属于某类的概率。它携带着高级的语义信息,同时还保留了一些细节的外观特征,如不同类的两个物体边界。但没有每个实体的轮廓的话,同一类的两个实体很难从segmentation channel中区分开。

为了仅获取高级语义特征通道,我们将segmentation channel blur为heatmap。从而移除了两类不同物体间的边界,仅保留了高级语义信息。

Temporal channels temporal特征如光流optical flow和motion对基于视频的传统行人检测器很有用。

Depth channels 我们没有使用激光雷达生成的离散点云。我们从立体stereo照片利用DispNet生成disparity(差距、距离) channel

3.3 Integration techniques

基于FRCNN,我们在主干旁增加了新的枝干,见图3。它由多个卷积层(3的卷积核,1的步长和padding)和max pooling层(核和步长为2),输出一个128通道的尺寸为原图1/8的特征图。与conv4-3输出的特征图cat后,送入RPN和FR-CNN进行检测。

图3

测试结果(表3)显示,原图和ICF对于准确率没有帮助。edge有一定帮助,segmentation的帮助最大。

表3

4. Jointly learn the channel features

提出了新的网络HyperLearner,训练时接收额外特征作为监督,从而在测试时不需要额外特征输入。结构见图5。增加了额外的loss,训练支网从骨干网得到的特征预测channel feature。

图5

测试结果见表4。
表4