基于视觉的BEV(Bird-Eye-View)3D目标检测在自动驾驶领域最近变得非常流行。
然而,从摄像头的角度来看,与背景具有高度相似性的物体无法被现有方法很好地检测到。
在本文中,作者提出了一种基于BEV(Bird-Eye-View)的3D目标检测网络(ROA-BEV),该网络可以使 Backbone 更多地关注物体的特征学习。
此外,作者的方法通过多尺度结构增加了ROA的信息内容。
此外,ROA中的每个块都使用了一个大的核,以确保接收域足够大,可以捕获大型物体的信息。
在nuScenes上的实验表明,ROA-BEV在基于BEVDet和BEVDepth的基础上提高了性能。代码将很快发布。
I Introduction
3D目标检测是自动驾驶感知任务的一个重要组成部分。该任务的输入数据来源于各种传感器,输出为坐标和大小等属性。多摄像头系统近年来已成为基于视觉的自动驾驶解决方案中最受欢迎的传感器系统之一。对于仅使用视觉的系统,基于BEV的方法已经提出。典型的基于BEV的3D目标检测模型包括图像 Backbone 、视图转换模块(VTM)和3D目标检测Head。具体而言, Backbone 包含特征提取模块,如ResNet[1],以及特征融合模块,如特征金字塔网络(FPN)[2]。VTM主要用于将多视图摄像头的特征投影到BEV平面上。
在以前的方法中, Backbone 网络提取的图像特征直接用于视角转换。图像中的所有特征信息都将映射到BEV视角进行最终预测。然而,极端天气、变化的光线或噪声会混淆物体和背景,从而影响网络的感知能力。这激励作者有意将2D输入中的检测引入,以1)影响图像 Backbone 网络中的特征提取和2)为3D检测提供先验。
因此,在这项工作中,作者提出了一种名为2D区域导向注意力(ROA-BEV)的基于BEV的3D目标检测网络方法,旨在使网络的图像特征提取器更专注于学习物体的存在位置,从而减少其他背景信息的干扰。为了生成更准确的区域,作者直接使用特征提取器的多尺度特征并融合生成的结果。同时,每个尺度的网络使用大核卷积进行信息捕捉。大感受野卷积 Kernel 更好地平衡了学习背景和前景,以及前景中的物体之间的关系。总之,本文的主要贡献是:
为了使网络能够专注于提取物体的区域特征并将其与背景区分开来,作者提出ROA-BEV,该方法可以应用于之前的BEV方法。
作者提出了一种名为ROA(Region-of-Objects Aggregation)的方法,用于在相机视图中生成物体的区域,该方法融合了图像骨架的多尺度特征。在每一个尺度上,都使用大的核来捕获更多的信息,尤其是在大型物体上。
II Related Work
Vision-based 3D Object Detection
基于视觉的3D目标检测旨在预测物体的3D边界框,由于从单目图像中估计物体深度存在固有的歧义,这是一个具有挑战性的任务。然而,通过各种方法,作者已经取得了显著的进展。
主要研究方向之一是利用2D图像特征预测3D边界框。早期工作,如CenterNet [5],表明2D检测器可以通过最小的修改适应3D检测。最近,如M3D-RPN [6]和D4LCN [7]分别引入了深度感知层和深度映射引导的动态 Kernel 学习,以增强空间感知。FCOS3D [1]将3D目标转换到图像域,用于预测2D和3D属性。DD3D [2]进一步强调了深度预训练的优势。
另一项活跃的研究线关注于将2D图像特征映射到3D空间。LSS首创了视图变换方法,预测深度分布并将其特征映射到鸟瞰视角(BEV),这已经成为了3D检测的流行方法。BEVDet [11]利用BEV特征空间进行3D检测。DETR3D [10]和BEVFormer [11]利用目标 Query 和可变形注意力生成BEV特征,而BEVDepth [12]应用显式深度监督来提高准确性。
BEVStereo [13]通过在关键帧上应用多视图立体来增强深度质量。PolarFormer [14]代表了一种利用特定坐标系统进行更精确定位的趋势。PETR [15]进一步改进了DETR3D [10],通过结合3D位置感知表示,而PETRv2 [16]集成时间信息。然而,图像特征提取器的的研究也需要引起关注。本文提出了ROA-BEV,可以用于之前基于BEV的方法中生成区域的注意力。
Large Kernel Network
在计算机视觉领域,基于Transformer的模型,包括视觉Transformer(ViT)[17],Swin Transformer[18]和金字塔Transformer[19],已经引起了广泛关注。他们的成功可以归因于它们的广泛感受野,这在许多研究中得到了证明。最近,具有精心设计的大感受野卷积网络作为Transformer基础模型的有力竞争对手出现。
例如,ConvNeXt[20]利用7x7的逐点卷积,在下游任务上实现了显著的性能提升。同样,RepLKNet[11]利用31x31卷积核,展示了惊人的结果。SLAK[21]通过创新的技术如核分解和稀疏组,将核大小扩展到51x51,实现了进一步的突破。在本论文中,作者利用大核来增加感受野,以生成准确的目标区域,特别是对于大型目标,如卡车。
2D Auxiliary Tasks for 3D Detection
深度MANTA [22]提出了一种从粗糙到精细的架构,使用2D目标标签作为中间监督。单PSR [23]利用成熟2D目标检测器的检测结果,通过针孔相机模型的基本关系为每个场景中的目标生成一个3D Proposal 。
GUPNet [24]使用ROIAlign从2D检测器生成的结果中获取ROI特征,同时通过分层任务学习策略将2D检测器的预测和3D检测器的预测汇集起来,为其分配适当的权重。Far3D [25]生成可靠的2D边界 Proposal 及其对应的深度,然后将它们拼接并投影到3D空间。在本文中,作者使用2D标签作为区域注意力形式的区域,以应用于图像特征提取器。此外,作者考虑目标之间的重叠。
III Method
Overall Architecture
大多数网络在特征提取层采用了经典的特征提取器如ResNet [1]。然而,网络的整体监督仅由3D目标检测中的稀疏标签提供,这阻止了特征提取网络有效地关注物体区域。如图2所示,2D ROA-BEV将多视图图像作为输入。输入首先通过 Backbone 网络进行处理以提取特征,然后通过特征金字塔网络(FPN) [11]将不同尺度的特征融合。为了生成区域导向的注意力图,作者设计了ROA模块。这个模块接收来自不同尺度的特征,而不是融合的特征 Backbone 网络FPN。
然后,由ROA预测的区域导向图与图像特征注意力相乘,再加上FPN网络的特征,以产生更专注于潜在物体区域的特征。随后,类似于BEVDepth,这些图像特征用于视角转换和随后的3D目标检测。
Multi-scale 2D Region Oriented Attention
为了识别潜在的目标区域,作者开发了一个ROA网络。作者观察到,该网络提取的特征在大尺度上需要更多的丰富性,以防止输入-输出映射关系的有效学习。在小尺度上,小目标(在摄像机平面上占据最小像素)往往由于特征维数减少而在网络前向传播过程中信息损失,阻碍了有效特征的学习。
因此,不同尺度的特征对从摄像机视角学习的二维物体区域的学习做出了贡献。ROA的详细信息如图2中的红色虚线框所示。作者利用 Backbone 网络中的四个尺度特征,并将每个特征输入到LKB网络。随后,这四个尺度特征要么被上采样,要么被下采样以匹配FPN网络的输出尺度,然后进行求和。
Large Kernel Basic Module
如图3所示,大核基本(LKB)模块包含Squeeze-and-Excitation(SE)[26],基本块,空洞空间金字塔池化(ASPP)[27],以及可变形卷积网络(DCN)[28]。具体来说,每个基本块和DCN的核大小为
。
SE模块重新校准输入数据的特征,增强了模型对显著特征的关注。随后,有两个基本模块,每个模块都包含大型核卷积。详细信息如图所示的绿色虚线框。这些大型核卷积,具有扩展的响应域,使模型能够捕获输入数据中的更广泛上下文和空间关系,从而增强了特征提取能力。在基本模块之后,模型进入一个ASPP模块[27]。
此外,DCN紧跟其后。尽管这一层引入了形变以适应输入形状的变化,但之前在模型中使用的大型核卷积的好处仍然明显,因为它们有助于提高模型的整体鲁棒性和特征判别性。将ASPP和DCN模块集成到网络中,增强了其捕捉多尺度上下文信息并适应几何变化的能力。这种组合利用了两种模块的优势,以实现更优越的特征提取。
2D ROA Label Generation
如图2底部的蓝色方框所示,作者在自坐标系中将目标的三维坐标转换为摄像机坐标系中的二维坐标,使用摄像机的内外参数。然后,作者初始化六个矩阵为零,每个摄像机一个,并在这些矩阵中根据二维标签绘制帧。框内的区域被赋予值为1。如果同一像素被不同 Box 包围多次,该像素的值累积相加。
Training Loss
这一部分介绍了作者方法训练过程中的损失函数。如图2所示,作者的方法需要接受三个主要分支的监督:深度网络、ROA和检测Head。
首先,作者定义了三个函数来最小化:
、
和
。
和