强力基础网络 SENet: Squeeze-and-Excitation Networks

SENet: Squeeze-and-Excitation Networks
Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Enhua Wu
Momenta, 2017

SENet赢得了ImageNet最后一届(ImageNet 2017)的图像识别冠军。论文提出的Squeeze和Excitation可以集成到很多网络结构中,用少量的计算量提升换取更强劲的网络。


很多网络结构是从空间维度提升性能, 如Inception结构中的多尺度信息,Inside-Outside 网络中考虑了空间中的上下文信息,以及Attention引入到空间维度中等。SENet则是从其他角度出发,思考特征通道间的关系。通过SqueezeExcitation两个操作,学习到不同通道的重要程度,并以此提升有用特征、抑制无用特征。

Squeeze和Excitation的结构如下图

Alt text

Squeeze: Global Information Embedding

每个卷积核都只在局部感受野上操作,所以卷积输出的每个单元都无法利用区域外的上下文信息。Squeeze即是使用GAP沿通道维度进行压缩,变为实数。这个实数一定程度上具有全局的感受野,表征了特征通道相应的全局分布,使较低的层也能获得全局感受野。

Excitation: Adaptive Recalibration

有了通道的信息,还需要建立通道间的相关性。这个函数需要满足两个条件:

  1. 要足够灵活,并能学到通道间非线性的相互作用。
  2. 能学习到非互斥的关系,因为不希望它把多通道变成一个独热激活。

因此选择了Sigmoid函数:

其中$\sigma$指Sigmoid函数,$\mathbf{W}_{1} \in \mathbb{R}^{\frac{C}{r}} \times C$,$\mathbf{W}_{2} \in \mathbb{R}^{C \times \frac{C}{r}}$。为了控制模型复杂度,使用了两个FC层作为非线性的bottleneck,进行降维和升维。最终乘回特征图完成rescale。

图2、3为一些常见结构的SE集成方式:

Alt text

Alt text

各种网络结构使用SE结构与否的性能比较。

Alt text

论文还研究了SE-ResNet-50的Excitation激活情况。可以看出在较低的层不同的类的分布几乎一致。说明低层特征更通用,高层的更特异。但在深层开始饱和,比如5-2时,大部分都为1,少量为0,为1时SE模块退化为了残差块。在5-3时,各类的激活值不同,但分布近似,仅仅是尺度不同,这一不同在分类时会被调谐。这说明最后两个SE不那么重要,实验也确实如此,参数量明显减少时,top1错误率仅大了0.1%。

Alt text