当前位置: 首页 > >

DetNet: A Backbone network for Object Detection论文阅读记录

发布时间:

概述:

DetNet: A Backbone network for Object Detection是ECCV2018收录的旷视的一篇物体检测的论文,其设计灵感源自图像分类与物体检测任务之间存在的落差。详细讲,DetNet 针对不同大小和尺度的物体而像 FPN 一样使用了更多的 stage;即便如此,在保留更大的特征图分辨率方面,它依然优于 ImageNet 预训练模型。但是,这会增加神经网络的计算和内存成本。为保证效率,旷视研究员又引入低复杂度的 Dilated Bottleneck,兼得较高的分辨率和较大的感受野。DetNet 不仅针对分类任务做了优化,对定位也很友好,并在 COCO 上的物体检测和实例分割任务中展现了出色的结果。


Motivation:

目前的目标检测网络,不论是one-stage的YOLO、SSD还是two-stage的Faster-RCNN、FPN等都是直接从ImageNet图像分类的预训练上进行finetune。物体分类和目标检测有一些差异,最重要的差异就是目标检测不仅不仅要识别物体的类别,还要确定物体在图像中精准的位置。较大的下采样会增大感受野的大小,这有利于物体的分类识别,但是降低了精准定位的能力。虽然有些技巧被应用,例如FPN和dilated convolution ,但是依然存在一些问题:


    物体检测网络backbone network的stages数量不同一。如下图B所示,典型的物体分类网络包含5个阶段,实现32倍的下采样。而用于物体检测的网络,常常包含其他的阶段,比如FPN为处理更大的物体增加了P6,RetinaNet则增加了P6/P7连个阶段,然而这些新增加的阶段不能从pre-trained模型中进行finetune。32X的下采样不利于物体定位,在deeper层预测的大物体的边界太模糊以至于不能准确定位。小物体的漏检。FPN预测在浅层预测小物体,但是浅层包含的语义信息太少,不利于物体的识别。虽然FPN采用bottom-up的信息传递path去融合浅层位置信息和高层语义信息,但是如果在高层小物体消失,浅层的位置信息也就随之消失。


因此,作者特定地为物体检测设计一种新颖的特征提取的backbone,DetNet。一方面相对于物体分类网络包含了确定数量的额外的模块,可以在ImageNet上进行预训练;另一方面通过dilated bootleneck结构在更深的层也保持较大的feature map的resolution。


Net Design:

作者选用ResNet-50作为baseline设计检测网络的backbone,其中保留ResNet-50的前4个stages。DetNet的设计精髓从第5stage开始,如下图所示:



    将用于检测模块的额外阶段如stage5和6,与stage4保持同样的分辨率‘;在stage5和6的开始阶段,为增大网络的感受野和表达能力,使用带有dilated convolution的bottleneck以及1X1的卷积映射;为降低计算量,stage5和6的通道数与stage4保持相同,而不是像分类网络double。

Training and Inference

首先在ImageNet上训练DetNet,按照ResNet的训练策略,在8块TITIAN XP上以256的batchsize进行,得到pre-trained。在FPN上使用DetNet,following Detecron的训练策略,8块TITIAN XP上batchsize为16,shorter 边800,longer 边限制在1333,lr为0.02,开始500次用0.02*0.3去warm-up,并固定stage1和所有BN层的参数。对比结果如下图所示:



从average precision和average recall两个角度分析,DetNet-FPN对于大物体的定位精度更高,因为下采样的程度小;其次对于小物体的recall提升明显,同样因为在deeper层保持较大的resolution。


白话总结:

说白了,本文就是设计了一个固定卷积阶段的的backbone,并根据物体检测的特殊性,降低下采样的程度,在deeper层保持较大的resolution,以提高大物体的定位精度和小物体的recall,并在ImageNet上进行训练得到pre-trained,之后再用到固定的目标检测框架下。



友情链接: year2525网 工作范文网 QS-ISP 138资料网 528200 工作范文网 baothai 表格模版