从2016年9月18日开始,朱梦龙所在的谷歌G-RMI团队一直占据COCO物体检测的榜首。根据COCO网站上的资料,朱梦龙所在的G-RMI团队集成了5个Faster R-CNN的模型,由纯Tensorflow接口与可微分的ROI剪裁进行端对端的训练,使用了Inception-Resnet和(stride 8)Resnet-101的组合做特征提取器的基础。所有模型都基于train+val (minus minival)训练,并且,他们在测试时使用了多剪裁推理。
这一成果的论文《Speed/accuracy trade-offs for modern convolutional objectdetectors》已于四月发布在arxiv,同时即将在今年的CVPR发表。
下面是论文的主要内容:
注:小编水平有限,翻译仅供参考,如有错误欢迎指正。
本文的目的是作为一种指导,对于给定的应用和平台选择一种能够实现正确的速度、内存、准确率平衡的检测架构。为此,研究了各种方法去权衡现代卷积目标检测系统中准确率和速度以及内存使用。一些成功系统在最近几年已经提出,但由于不同的基础特征提取器(如
VGG
,剩余网络),不同默认图像分辨率,以及不同的硬件和软件平台,同类比较是困难的。并且提出了一个
Faster r-cnn
,
r-fcn
和
SSD
系统的统一实现,将它们看作“元结构”,并通过使用其他的特征提取器和不同的其他关键参数,例如这些元体系结构中的图像大小来画出速度
/
准确率权衡曲线。
在速度和内存至关重要的范围的一个末端,提出一个可以实现实时速度和能够在移动设备上展开的检测器。在相反的准确率是至关重要的一个末端,提出一个关于
COCO
检测任务可以实现最先进性能的检测器。
由于卷积神经网络的使用,近些年在目标检测方面取得了很大进展。现代的目标检测器基于这些网络如
Faster R-CNN
、
R-FCN
、
Multibox
、
SSD
和
YOLO
,这些足以应用在消费产品上(例如,谷歌照片,
Pinterest
的视觉搜索),一些足够快速能在移动设备上运行。
然而,对于从业者来说很难决定
什么样的架构最适合于他们的应用程序。标准准确度度量例如平均精度(
mAP
)
,
说明不了全部,因为对于计算机视觉系统的真正部署,运行时间和内存使用也是至关重要的。例如,移动设备经常要求一个小的内存封装,自动车辆驾驶要求实时性能。服务器端的生产系统,如在谷歌、
Facebook
或
Snapchat(
照片分享平台
)
,有更多的余地来优化精度,但仍然受制于吞吐量限制。当赢得比赛(例如
COCO
挑战)的方法对准确率进行优化时,其经常依赖于模型整体和那些对于实际使用太慢的多部分方法。
可惜的是,论文中只有一个小子集
(
例
RFCN
,
SSD
,
YOLO)
详细讨论了运行时间。此外,这些论文只典型的陈述了其达到了一定的帧速率,但没有给出整个速度准确率权衡的图,这取决于许多其他因素,如使用哪种特征提取器,输入图像大小等。
在本文中,开始详细和公平寻求探索现代检测系统的速度准确率权衡问题。虽然整个图像分类问题已经被研究,但是检测模型往往更加复杂。我们主要研究单个模型
/
单次检测器,意思是模型不使用整体的、多部分的方法或其他
“
技巧
”
,如水平翻转。
换句话说,只是通过单个网络传递单个图像。
为简单起见
(
因为对于这项技术的用户来说,它更重要
)
,我们只关注测试时的性能而不是这些模型训练需要多长时间。
尽管比较最近提出的每个检测系统是不切实际的,但幸运的是,目前许多先进方法都已经融合于共同的方法论
(
至少在高层次上
)
。这使我们可以以统一的方式实现和比较大量的检测系统。特别是,
Faster R-CNN,R-FCN,SSD
的元体系结构,在一个高层次上包括了单卷积网络,用回归和分类目标混合训练,使用滑动窗口式的预测。