多模态三维目标检测在近年来已经取得了显著的进展。然而,由于大多数现有方法依赖于密集的3D特征,它们很难扩展到长距离场景,这大大增加了计算需求和内存使用。在本文中,作者介绍了SparseFusion,一个全新的多模态融合框架,完全建立在稀疏3D特征之上,以促进高效的长距离感知。
作者方法的核心是Sparse View Transformer模块,它有选择地将2D图像空间中的感兴趣区域提升到统一的3D空间。所提出的模块从语义和几何方面引入了稀疏性,只填充前景目标可能存在的网格。
全面实验验证了作者的框架在长距离3D感知中的高效性和有效性。值得注意的是,在长距离Argoverse2数据集上,SparseFusion与密集检测器相比,减少了内存占用并加快了大约两倍的推理速度。
它还使用mAP 41.2%和CDS 32.1%的成绩达到了最先进的表现。SparseFusion的通用性也在时间目标检测任务和3D车道线检测任务中得到了验证。
1 Introduction
三维目标检测是自动驾驶的关键组成部分,旨在精确识别和分类三维环境中的物体。近期该领域的进展[9, 19, 27, 35, 50, 52, 55, 58]通常采用周围图像、稀疏点云或多模态数据作为输入,这显著提高了目标定位和分类的准确性。然而,这些方法大多是为短距离感知而定制的(例如,在nuScenes[2]中为0-50米,在Waymo[46]中为0-75米)。这种局限性在实际应用中变得明显,尤其是在大型和高速度的自动驾驶车辆(如卡车)需要更广阔的感知范围时。因此,对长距离感知的探索变得日益重要,并越来越多地受到领域的关注。
近期,对长距离感知的探索[6, 8, 9]主要集中在了激光雷达点云上。这种偏好源于激光雷达在远距离上的固有的稀疏性,以及其准确定位远处物体的能力。为了克服在长距离场景中创建密集的鸟瞰图(BEV)特征所相关的计算和内存负担,这些基于激光雷达的3D检测器[6, 7, 8, 9, 40]通常首先将点云转换成稀疏 Voxel 特征[64, 65],然后采用稀疏卷积[12, 59]或Transformer[36, 37, 49]来提取特征。然而,这些方法可能由于在远距离处缺乏语义信息以及点密度的降低,特别是在对小物体进行检测时,性能可能会下降。
与稀疏点云数据相比,视觉数据可以提供丰富且密集的语义信息。近年来,基于相机的3D检测受到了越来越多的关注,主要焦点是基于多视角相机的工作。这些多视角3D检测器可以根据它们是否生成鸟瞰图(BEV)特征表示分为两类:基于BEV和无BEV方法。基于BEV的方法[19, 25, 26, 27, 57, 60]明确生成密集的BEV特征,并在这些特征上进行3D检测。尽管基于相机的BEV方法为多模态特征的融合提供了一个统一的表示空间,但它们遇到了与基于密集BEV的激光雷达方法类似的挑战,特别是在感知范围增加时内存和计算需求急剧增加的问题。相反,由DETR3D[54]开创的无BEV方法采取了另一种方法。利用稀疏 Query 来聚合图像特征[21, 30, 32, 53, 55],它们避免了对密集BEV特征的需求,从而容易扩展感知范围。然而,与激光雷达基于的检测器相比,纯基于相机的检测方法在定位精度上仍然存在明显的差距。
为了充分利用不同传感器的优势,已经出现了许多采用多模态传感器进行3D检测的方法[1, 11, 28, 35, 50, 52, 58]。这些方法旨在将相机提供的丰富语义信息与LiDAR的精确定位能力相结合。通过融合这些不同的数据源,多模态3D检测器可以实现更准确、更可靠的目标检测性能。然而,目前流行的多模态融合方法,如BEVFusion[28, 35],在很大程度上依赖于密集的鸟瞰图(BEV)特征表示,这在将这些方法扩展到长距离感知时带来了重大挑战。探索如何让这些基于BEV的多模态融合方法在长距离场景中有效工作,是一个值得研究的课题。
在本文中,作者提出了一种高效的框架,名为SparseFusion,它将基于鸟瞰图(BEV)的方法扩展到长距离感知。从点云固有的稀疏性中汲取灵感,作者将注意力集中在三维环境中的特定元素上,如物体或车道线。通过将计算努力专门用于这些关键元素,作者的框架旨在最小化计算开销,同时实现扩展范围内的有效感知。为此,作者提出了一个Sparse View Transformer模块。它通过从2D感知任务预测的语义和几何先验,有选择地将感兴趣的2D信息提升到3D空间,从而产生稀疏的3D特征。具体来说,作者预测前景物体的边界框或 Mask 以及深度分布,并且只填充那些可能存在物体的BEV网格。然后,这些特征与来自点云的稀疏特征融合,形成如图1所示的稀疏多模态3D特征。最后,作者使用精心设计的稀疏特征编码器和 Head 来生成检测结果。此外,作者还扩展了作者的方法以验证其在时序检测和3D车道线检测上的多功能性。
在Sparse View Transformer的帮助下,作者的SparseFusion在长距离检测数据集Argoverse2 [56]上取得了最新的领先性能,同时它在nuScenes数据集上也展示了具有竞争力的结果。作者的主要贡献如下:
作者提出了一种新颖的多模态稀疏融合三维检测框架,它扩展了基于鸟瞰图(BEV)方法在远程感知方面的能力。特别是,它借助来自二维感知任务的语义和几何先验信息来稀疏化三维特征。
在长距离感知数据集Argoverse2上,作者的模型取得了最先进的性能,同时显著降低了计算和内存占用。作者还展示了所提方法在时间目标检测任务和3D车道线检测任务上的通用性。
2 Related Work
LiDAR-based 3D Object Detection
基于LiDAR的三维目标检测方法[22, 62, 64]通常涉及将不规则的点云划分为规则的 Voxel 或柱状体[64, 65],然后使用PointNet[43]方法进行特征提取。这些特征一旦重新映射到密集的特征空间,就会使用密集卷积进行处理,以进行后续的三维感知任务。然而,这些依赖于密集特征的检测器受到特征空间大小的限制,这是由于计算资源的有限性。当试图将它们的有效性扩展到长距离感知时,这个限制成为一个重大挑战,因为这需要大幅增加密集特征空间的大小。
针对这一挑战,SECOND [59] 提出了用于特征提取的稀疏卷积,有效地减少了内存和时间上的开销。随后基于稀疏特征[22, 40, 62]的检测器进一步验证了稀疏卷积在涉及点云的三维检测任务中的优势。与基于稀疏卷积的方法相比,点云 Transformer [7, 36, 49]通过将不规则的稀疏点云分组到规则窗口中,并在窗口内执行自注意力,从而在数据内部捕捉长距离依赖关系。
为了进一步降低计算开销,最近的工作集中在移除密集检测 Head 。FSD [8]首次提出了一个完全稀疏结构,用于基于激光雷达的3D检测,该方法通过分割-聚类-细化流程。VoxelNext [6]通过提出一种全新的标签分配策略,改进了这一方法,实现了一种完全端到端的架构。最近,FSDv2 [9]提出了一种简单但有效的方法,通过引入“虚拟 Voxel ”的概念。所有这些方法都极大地促进了基于激光雷达方法的远距离感知。
Multi-View 3D Object Detection
多视角3D目标检测领域的最新进展主要集中在直接在3D空间内检测目标。这些多视角3D检测方法大致可以分为两类:基于鸟瞰图(BEV)的方法和无需鸟瞰图的方法。基于鸟瞰图的方法[19, 23, 25, 27, 31, 57, 63]通过技术如LSS[19, 25, 57, 63]或可变形注意力[27, 60, 67]明确创建密集的BEV特征,并在这些特征上进行检测。然而,随着感知距离的增加,生成额外BEV网格的必要性导致内存和计算开销的二次增长。这一挑战使得基于BEV的模型难以扩展用于长距离感知。
无BEV方法避免了显式生成BEV特征。相反,它们引入了一套稀疏的目标 Query 集用于特征聚合和目标预测[21, 30, 32, 33, 54, 55]。作为这一领域的先驱,DETR3D [54] 从目标 Query 生成3D参考点,利用固有参数和外在参数将其投影到图像上,从而促进了多视角特征获取和聚合。PETR [32, 33] 引入了一种新颖的3D位置感知特征表示,使目标 Query 能够通过交叉注意力直接与密集图像特征交互。MV2D [55] 利用2D检测器的高召回特性生成动态目标 Query ,从而通过较少的目标 Query 提高了性能。这些方法不生成密集的BEV特征,减轻了远程感知的计算负担。
Multi-modal based 3D Detection
多模态输入提供了关于周围环境的互补信息,使得基于多模态的方法能够比仅使用激光雷达或仅使用视觉的方法实现更优的性能。最近的多模态3D检测方法主要依赖于鸟瞰图(BEV)特征表示进行检测[1, 5, 11, 15, 16, 35, 52]。BEVFusion [35]采用LSS [42]操作将图像特征投影到BEV空间,然后通过简单的拼接方式与激光雷达特征融合。TransFusion [1]和FUTR3D [5]生成稀疏的全局 Query ,并通过与来自激光雷达和图像的特征进行交叉注意力细化它们。所有这些方法都是建立在密集的特征表示之上的。随着感知距离的增加,模型的计算负载和内存需求显著增加,限制了这些模型在长距离场景中的实际应用。
3 Method
作者提出的SparseFusion的整体架构如图2所示。作者使用两个独立的网络作为相机和LiDAR输入的特征提取器。LiDAR分支采用一个稀疏 Voxel 编码器[64]来获取稀疏特征
,其中
和
分别表示 Voxel 数量和特征维度。相机分支接收
个环视图像作为输入,表示为
,其中
。然后采用一个图像 Backbone 网络(例如,ResNet [14],Swin [34])以及一个 Neck 结构(例如,FPN [29])来提取多视图图像特征,表示为
,其中
是从图像
中提取的特征。
在获得图像特征后,最近的基于鸟瞰图(BEV)的方法[19, 25, 27]使用如LSS[42]或可变形注意力[67]的技术将2D特征转换为密集的BEV特征。然而,这些方法随着感知范围的扩大,会导致计算负载和内存需求大幅增加。为了有效应对这一挑战,作者引入了稀疏视角 Transformer 模块,它有选择地将感兴趣的前景信息提升到3D空间,从而生成稀疏特征,表示为
,其中
是前景 Voxel 的数量。
一旦作者从图像中提取出稀疏特征,作者可以将它们与稀疏激光雷达(LiDAR)特征进行融合。这一融合过程之后,会通过稀疏编码器和稀疏 Head 来获取最终的感知结果。
Sparse View Transformer
在深入探讨作者提出的稀疏视图 Transformer (Sparse View Transformer)之前,作者首先简要概述了LSS [42]方法,作者的方法是基于此构建的。LSS的核心思想是明确预测每个图像像素的深度分布,然后通过预测的深度将2D像素提升到3D空间。对于每个图像像素,LSS预测一个上下文向量
和一个深度分布
,其中
是一组离散深度,如图2(a)所示。随后,上下文向量
通过
加权,将每个2D像素提升到3D空间,从而得到图像的特征分布张量,记作