Automatic adaptation of object detectors to new domains using self-training
Aruni RoyChowdhury, Prithvijit Chakrabarty, Ashish Singh, SouYoung Jin, Huaizu Jiang, Liangliang Cao, Erik Learned-Miller
College of Information and Computer Sciences University of Massachusetts Amherst, 2019
无监督的目标检测领域适应方法。代码与模型已开源。创新点主要在于使用目标追踪方法来补充已训练好的检测器在目标域生成的伪标签,以及多种softlabel方案。从文中数据来看效果很不错
Automatic Labeling of the Target Domain
目标域的伪标签通过在源域训练好的检测器和追踪器得到。
检测器在目标域视频上逐帧检测,得到的大于$\theta$的检测都作为微表情。用于人脸时为0.5,行人时0.8。
利用视频的视觉连续性,可以用被检测器漏掉的物体伪标签扩充数据集。使用了MD-Net追踪器。给与一个视频序列中持续被追踪的目标,当某些困难帧中检测器没能检出该目标时,追踪器能够正确预测那个物体(图2a)。这些”tracker-only”是困难样本。小于10帧的踪迹被移除以避免误检的影响。
Training on pseudo-labels
使用检测器和追踪器得到的伪标签进行训练,loss很简单,就是CE loss。
Distillation loss with soft labels
伪标签有可能是噪音,因此soft label相比$\{0,1\}$有利于缓和误标的数据风险。而且Label smoothing已证明有助于泛化性,降低错误训练标签的影响。首先对伪标签生成一个soft score $s_i$。
检测器检测到的都保留其信心分,因为高信心的得分都能比较好的度量其可靠性。而追踪器得到的标签在检测器那里都是低于阈值$\theta$的,因此将其提高到$\theta$。
soft label可以对原始的hard label $y_i$和soft score $s_i$通过如下公式得到,$\lambda \in[0,1]$是一个超参数。
本论文研究了两种方案,可以避免显式地依赖$\lambda$超参数。
- Constrained hard examples
给简单和困难样本(即高信心检测和仅被追踪到的)都分配1的标签是给它们赋予了相同的重要性。而仅仅使用困难样本训练无法得到最优结果,它可能会降低模型在它最开始能正确识别的物体上的效果。因此理想情况是强调困难样本,同时约束模型在它最开始能正确识别的物体保持性能。将公式3、4中的$\theta$和$\lambda$均设为1可以获得此效果。 - Cross-domain score mapping
这个方法基于一个假设:因为没有目标域的信息,在目标域上的检测得分分布应该与源域相同。得到两个域上得分分布的概率密度函数p.d.f. ,目标域$f(x)$和源域$g(x)$,得到它们的累积分布函数c.d.f. cumulative distribution function,$F(x)=\int_{0}^{x} f(t) d t$和$G(x)=\int_{0}^{x} g(r) d r$。目标是将目标域上的检测得分分布映射到匹配源域得分分布。将目标域得分x替换为$G^{-1}(F(x))$。图3是映射效果。
这里的$G^{-1}$应该是ICDF,逆累积分布函数,可以用于算满足中位、四分位概率的值。
Experiment
效果见图4。
在人脸上效果见表3,将迁移后的AP提升了5个点。
在行人上效果见表4,提升了13个点。