越来越多的研究将激光雷达(LiDAR)和相机信息融合,以提高自动驾驶系统的3D目标检测。最近,一种简单而有效的融合框架已经实现了出色的检测性能,将激光雷达和相机的特征融合到统一的鸟瞰视角(BEV)空间中。
在本文中,作者提出了一种名为SimpleBEV的激光雷达-相机融合框架,用于精确的3D目标检测,该框架遵循基于BEV的融合框架,并分别改进了相机和激光雷达编码器。
具体而言,作者使用级联网络进行基于相机的深度估计,并将激光雷达点提供的深度信息用于校正深度结果。同时,作者还引入了一个辅助分支,该分支仅使用相机-BEV特征实现3D目标检测,以在训练阶段利用相机信息。
此外,作者还通过将多尺度稀疏卷积特征进行融合,改进了激光雷达特征提取器。
实验结果证明了作者提出的方法的有效性。作者的方法在nuScenes数据集上实现了77.6% NDS精度,展示了在3D目标检测方面的优越性能。
1 Introduction
3D目标检测在自动驾驶感知系统中起着不可或缺的作用,该系统能够识别并定位3D交通环境中的物体。自动驾驶车辆上配备了多种传感器,以获得足够的和准确的环境感知结果。在车载传感器中,摄像头和激光雷达传感器受到了广泛的关注。激光雷达点提供了精确的定位和几何信息,而摄像头[14, 35, 7]提供了丰富的语义信息。由于这两种传感器提供了互补的特征,许多研究将激光雷达和摄像头数据融合,以提高3D目标检测性能。
最近,基于BEV的感知方法受到了广泛关注,因为它能直观地表示驾驶场景[3, 21],并且对于多视图摄像头和不同类型的传感器具有融合友好性。一系列方法利用基于 Transformer 的架构,通过在LiDAR特征和图像特征上进行交叉注意力来融合LiDAR和摄像头信息。相反,一些工作基于对齐的BEV特征图实现LiDAR-摄像头融合。尽管简单,基于BEV的融合框架实现了出色的检测性能。在本论文中,作者通过进一步利用摄像头信息和改进LiDAR特征提取器,基于BEVFusion构建了一个LiDAR-摄像头融合框架。
为了利用摄像头信息,作者增强了深度估计模块并引入了辅助检测分支。深度估计模块在基于相机的3D目标检测中起着关键作用。精确的深度结果在融合激光雷达和摄像头BEV特征图时,有助于特征对齐。因此,作者引入了两个阶段的级联网络进行更好的基于图像的深度估计,并使用从激光雷达点衍生出的深度信息校正估计的深度图。激光雷达模式在整合激光雷达和摄像头数据时,相对于摄像头模式起着重要作用。为了在整体模型联合训练过程中进一步利用摄像头信息,作者引入了一个辅助分支,该分支仅利用摄像头BEV特征实现3D目标检测。
此外,作者通过融合多尺度稀疏卷积特征,改进了LiDAR特征提取器。为了减少计算和内存成本,首先将3D Voxel 特征编码到BEV空间。然后,将多尺度LiDAR-BEV特征图融合生成一个表达式丰富的BEV特征图。
实验结果表明,所引入的辅助分支和优化的摄像头/LiDAR特征提取器可以有效提高3D目标检测性能。此外,通过模型集成和测试时增强,作者的模型在nuScenes排行榜上实现了最佳NDS评分。
作者的工作贡献可以总结如下:
-
作者构建了一个多模态检测模型,用于3D目标检测。它遵循BEVFusion[16]的框架,但在训练阶段增加了一个辅助分支,用于利用相机信息。此外,作者还改进了基于相机的深度估计器和基于LiDAR的特征编码器,以提供更多有效的特征,用于多模态融合。
-
提出的SimpleBEV方法在nuScenes数据集上实现了最先进的3D目标检测性能。
2 Related Works
基于相机的3D目标检测。早期工作[11, 35]提出了单目3D目标检测。通常,它们基于图像实现2D目标检测,然后使用第二阶段将2D结果投影到3D空间。然而,这种直观的检测策略在处理周围相机的输入时,需要进行复杂的后处理才能实现鲁棒的结果。最近,视觉BEV感知方法在工业和学术界引起了巨大的关注。这些架构将来自多个图像的特征转换为统一的BEV帧[10]。BEV特征可以直接用于许多下游任务,并且是融合友好的。这些方法可以根据转换模式[21]分为两类:"基于几何的转换"和"基于网络的转换"。代表性的"基于几何的方法"[7, 12, 25]采用显式深度估计,并根据物理原理将提取的特征投影到3D空间。[12]应用激光雷达数据来监督深度预测训练,[6]引入时间线索以提高3D目标检测性能。而"基于网络的方法"使用神经网络将图像特征隐式映射到BEV空间。许多工作[8, 14, 17]使用变形器将图像特征转换到BEV空间。它们都使用变形器[43]来减少计算和内存成本。
基于LiDAR的三维目标检测。主流的三维目标检测方法可分为基于点的[27, 28]和基于体的[4, 38, 41]方法。基于点的方法[27, 28]直接操作不规则的LiDAR点并利用空间信息。相反,基于体的方法[4, 38, 41]首先将无序的LiDAR点转换为具有预定义网格大小的体模式,然后将2D/3D CNN应用于规则 Voxel 以获得检测结果。近年来,一些方法[23, 29]将三维 Voxel 网络和基于点网络集成在一起,以实现更具有代表性的特征。
为了实现自动驾驶车辆的准确三维目标检测,许多研究行人致力于有效地融合摄像头和激光雷达的信息。根据融合操作,摄像头-激光雷达融合方法可以分为三类:“早期融合”、“中期融合”和“晚期融合”。
“早期融合”方法主要首先实现图像信息(特征[34],语义标签[33],或边界框[26])并将其结果输入到激光雷达分支以实现最终检测。这些方法需要额外的复杂2D网络,并遭受具有少量激光雷达点目标的检测。
“晚期融合”方法将来自独立摄像头和激光雷达分支的结果进行融合。尽管其效率高,但这种方法限制了从不同模态中丰富而互补信息的开发利用。
“中期融合”方法在业界和学术界受到最多关注。早期的研究工作[3, 9]基于激光雷达或激光雷达-摄像头信息生成三维物体 Proposal ,并融合基于物体 Proposal 提取的激光雷达和摄像头特征。近年来,许多与BEV相关的融合方法[1, 16, 13, 19]被提出,灵感来自于视觉BEV表示。这些方法使用LSS[25]提取摄像头BEV特征,并将其与激光雷达BEV特征进行融合。使用激光雷达特征作为 Query ,融合图像和激光雷达特征。构建一个两阶段的流水线,第一阶段产生初始三维边界框,第二阶段将物体 Query 与图像特征进行关联和融合,以获得更好的检测结果。将图像和激光雷达特征视为 Token ,并直接使用 Transformer 实现三维目标检测。为了在融合过程中进一步开发利用摄像头信息,[39]应用两个独立的分支进行表示交互和顺序模块进行预测交互。
作者的方法基于BEVFusion[16]方法,并加强摄像头和激光雷达分支,以实现更好的三维目标检测性能。
3 Method
作者设计了一个基于摄像头和激光雷达数据的跨模态3D目标检测器SimpleBEV,其框架如图1所示。作者首先介绍了与摄像头相关的分支和激光雷达分支。与摄像头相关的分支包括一个摄像头分支,用于提取图像特征并将其投影到BEV空间,以及一个辅助分支,在训练阶段更好地利用摄像头信息。然后,作者提出了BEV编码器和解检测Head,用于最终检测任务。
Camera related branches
相机分支。输入的多视图图像首先通过一个共享的图像编码器进行深度特征提取,该编码器包括一个图像 Backbone 网络用于特征提取和一个简单的FPN颈用于融合多尺度特征。具体而言,作者采用ConvXt-Tiny [18]作为图像 Backbone 网络来提取代表性的图像特征。图像 Backbone 网络不同阶段的特征图被输入到FPN颈中,以利用尺度变量的表示。然后,指定层的特征图被用于生成相机BEV特征图。
在给定第i张图像特征图
的情况下,作者遵循LSS [25]中类似的工作流程,将图像特征转换到BEV空间。首先,利用图像特征估计每个像素的深度分布
,其中
表示离散化的深度bin数量。然后,每个图像特征根据不同深度bin的概率进行加权,并将其投影到3D坐标以形成frustum特征。多个摄像头的3D特征都转换为LiDAR坐标,并通过voxelization和沿高度的sum pooling形成相机-BEV特征图
。
和
分别表示BEV坐标中x轴和y轴的网格大小。
上述特征变换过程中的深度估计在基于相机的3D目标检测中起着关键作用。一个更好的深度预测器有利于摄像机BEV和激光雷达BEV特征的对齐。为了提高深度估计的精度,作者修改了深度估计网络,并引入激光雷达数据生成精确深度。
构建了一个两阶段的级联结构,以获取基于摄像机的深度图
。第一阶段的输出深度图与第一阶段特征图拼接,然后将融合特征图输入到第二阶段。同时,激光雷达点被转换为第i个摄像机坐标并投影到图像坐标,形成深度图
。由于特征图上的投影点稀疏,作者引入了一个二进制 Mask 图
,以表示特征图上的像素是否被激光雷达点 Token ( Token 为1)或未被 Token ( Token 为0)。
最终深度图