多模态传感器融合在鸟瞰视角(BEV)表示中已成为3D目标检测的主导方法。然而,现有方法通常依赖于深度估计器或 Transformer 编码器进行视图转换,导致巨大的计算开销。
此外,2D和3D空间之间缺乏精确几何对应关系,导致空间和方向性偏移,限制了BEV表示的有效性。
为解决这些挑战,作者提出了一种新颖的3D目标检测器,通过高效的视图转换(EVT)实现,利用结构良好的BEV表示提高准确性和效率。EVT主要关注两个领域。
首先,它采用自适应采样和自适应投影(ASAP),利用激光雷达指导生成3D采样点和自适应核。然后,生成的点与核用于将图像特征转换到BEV空间并优化BEV特征。
其次,EVT包括一个改进的基于 Transformer 的检测框架,其中包含一组 Query 初始化方法和增强的 Query 更新框架。它旨在有效地在 Transformer 解码器中利用获得的多种模态BEV特征。
通过利用目标 Query 的几何属性,该框架在多层 Transformer 解码器结构中显著提高了检测性能。EVT在nuScenes测试集上实现了最先进的性能,同时保持了实时推理速度。
1 Introduction
在3D目标检测领域,LiDAR-摄像头融合是一种关键方法,用于增强感知系统。LiDAR传感器提供精确的深度信息,这对准确的目标定位至关重要。相比之下,摄像头传感器捕捉颜色和纹理,提供丰富的语义上下文。通过结合这两种传感器的互补优势,即使在复杂的环境中也能实现强大和可靠的3D目标检测。这种能力在自动驾驶中尤为重要,其中一致和可靠的感知是必需的。
在多模态3D目标检测中,最常用的方法是使用以自我为中心的鸟瞰视角(BEV)表示空间。早期的研究采用2D到3D投影方法,该方法利用估计的深度分布将视角图像转换为BEV空间。虽然这种方法通过像素化的深度分布利用了空间信息,但其对深度估计器性能的高度依赖限制了其整体鲁棒性。此外,将投影的3D点在BEV网格上进行栅格的频繁的空间错位。
相比之下,一种从3D到2D的方法被提出,其中预定义的3D点被投影到图像平面上,并通过变形注意力[49]采样特征。然而,这些预定义的点很难有效地捕捉感兴趣区域(ROIs)的特征。此外,转换后图像的BEV特征无法完全解决射线方向上的错位。
为了解决这些挑战,作者提出了一种新颖的3D目标检测器,名为高效视角转换(EVT),它利用结构良好的BEV表示来提高准确性和效率。
EVT主要关注两个领域:
(1)自适应采样和自适应投影(ASAP)框架,这是一种基于投影的3D到2D视角转换方法;
(2)改进的Transformer检测框架,包括Transformer解码器的群组 Query 初始化方法和增强的 Query 更新框架。
ASAP框架通过利用激光雷达引导,从图像ROIs中转换为BEV空间的高质量BEV特征图,无需额外的网络,如深度估计器或 Transformer 编码器。ASAP包括两个主要模块。自适应采样(AS)模块生成3D点,将图像中的ROIs中的特征转换为BEV空间。然后,自适应投影(AP)模块使用自适应核函数对从AS模块获得的BEV特征进行细化,从而提高特征表示并解决射线方向错位问题。
对于改进的基于 Transformer 检测框架, Query 初始化方法使用群组可学习参数,与现有通过特征采样[1, 47]初始化 Query 的方法相比,在多层解码器架构中实现了显著的性能提升。增强的 Query 更新框架进一步通过集成角感知采样和位置嵌入特征混合来优化变形交叉注意力[49]。角感知采样通过利用目标 Query 的几何属性来改进变形交叉注意力中的特征采样。随后,位置嵌入特征混合通过明确嵌入采样特征的空间位置来提供更详细的表示。
提出的EVT方法相对于现有方法具有几个优势。首先,在BEV空间中进行多模态融合,无需深度估计器或 Transformer 进行视图转换,在计算时间和内存使用方面具有高效性。其次,利用类群特性和物体几何属性的改进基于 Transformer 的检测框架提供了一个简单而强大的解决方案,可以轻松地与其他基于 Transformer 的算法集成。如图1所示,提出的EVT在ResNet-50 [10]上实现了73.7% NDS和8.3 FPS,在V2-99 [15]上实现了74.6% NDS和4.9 FPS,在仅使用LiDAR的模型EVT-L在nuScenes验证集上实现了71.7% NDS和12.1 FPS,在准确性和推理时间方面均优于其他方法。在nuScenes测试集上,EVT实现了75.3% NDS和72.5% mAP,无需模型集成或测试时增强,超越了以前最先进的方法。
总之,本文的主要贡献如下:
提出的EVT是一种新颖的3D目标检测器,它利用结构良好的BEV表示来提高准确性和效率。
提出的ASAP框架利用激光雷达引导生成高质量BEV特征图,同时不增加显著的计算开销。
改进的基于 Transformer 的检测框架提高了整体检测性能,并可以轻松扩展到其他基于 Transformer 的检测方法。
EVT在nuScenes测试集上实现了最先进的性能,NDS达到了75.3%,mAP达到了72.6%。
2 Related Work
Multi-modal Fusion in Transformer
受到DETR [5]的开创性工作的启发,许多基于 Transformer 的检测方法已经提出。同时,在多模态3D目标检测中,从多个传感器中提取特征仍然是一个关键挑战。捕捉不同传感器数据之间的互补关系会导致收敛速度变慢,且计算复杂度较高。为了解决这个问题,FUTR3D [6]提出了一种模态无关的特征采样器,通过变形交叉注意力[49]将来自不同传感器的特征聚合在一起。DeepInteraction [43]通过使用模态交互策略保留模态特定的信息。CMT [40]通过在传感器数据中添加3D位置嵌入,并将它们 ConCat 起来来构造 Transformer 解码器的输入 Token 。尽管最近取得了进步,但这些方法在多个层中采用迭代特征融合,导致巨大的计算开销,而缺乏相机参数利用则限制了几何信息的有效使用。
Multi-modal Fusion in BEV Space
视角下的目标检测利用鸟瞰图(BEV)表示主要关注将2D图像特征转换为BEV空间。在进行视角转换时,2D到3D投影方法通过预测像素级深度分布 将多视图像特征映射到BEV空间。这些方法由于能够通过深度估计整合空间先验信息而得到了广泛研究。BEV-Fusion [26] 在BEV空间中融合激光雷达(LiDAR)和相机的特征以提供互补和可靠的结果。相比之下,3D到2D投影方法将3D点映射到图像平面上进行视角转换,而没有利用深度信息 [19, 20, 42]。BEVFormer [20] 通过变形交叉注意力将预定义的BEV Query 投影到图像上并细化 Query 特征。BEVFusion4D [3] 通过将激光雷达(LiDAR)和图像BEV特征连接来增强BEV Query 。
然而,依赖于不准确的深度估计或者在没有充分利用几何属性的情况下使用 Transformer 编码器,都给准确捕捉2D和3D空间之间的相关性带来了显著的挑战。此外,使用额外的网络会导致巨大的计算开销。
Query for Transformer-based Detection
Query 初始化在基于 Transformer 的目标检测模型设计中至关重要,以提高性能。通常, Query 初始化涉及根据热力图采样 Query ,以表示潜在的物体中心。CenterFormer [47] 识别热力图中的高分数关键点,并从输入数据中相应位置的特征中采样,以初始化 Query 。TransFusion [1] 进一步将类别嵌入集成到采样特征中,用于 Query 初始化,并将这些 Query 与 Transformer 层中的图像特征融合。然而,这种采样策略引入了歧义,因为它捕获了物体的一部分或包括多个物体实例,正如DINO [45] 所指出的那样。
此外,在 Transformer 解码器中有效更新 Query 对于提高目标检测的准确性至关重要。DETR3D [38] 将3D可学习的 Query 投影到图像平面上,直接采样相应的特征。BEVFormer [20] 为每个 Query 在BEV平面上分配一组预定义的 Anchor 高,以创建3D参考点,然后预测在投影后的图像平面上进行2D采样偏移。SparseBEV [23] 通过将边界框大小和旋转应用于每个 Query ,生成3D采样偏移,从而形成3D采样点,并在多个帧之间根据目标和自车的运动补偿采样点。尽管现有方法取得了显著进展,但利用几何属性进一步改进3D目标检测仍具有巨大潜力。
3 Methodology
提出的EVT是一种具有有效多模态融合和改进的基于Transformer的检测框架的3D目标检测新颖方法。整体流程如图2所示。首先,从单个 Backbone 网络中提取
-scale视角视图图像特征
和鸟瞰视图(BEV)LiDAR特征
。其中,
是特征维度,
是BEV特征图的大小。接下来,使用提出的自适应采样和自适应投影(ASAP)模块在BEV空间中融合多模态特征(见3.1节)。然后,在BEV空间中使用热力图头初始化群组 Query (见3.2节),并在基于3D边界框几何属性的Transformer解码器中更新(见3.3节)。
Adaptive Sampling and Adaptive Projection
提出的ASAP模块有效利用激光雷达引导,将多尺度视图图像特征转换为BEV空间。该模块的结构如图3所示。
自适应取样(AS)模块通过预测BEV平面上的每个取样点的身高,并将预测的身高和图像尺度分配权重,将多尺度图像特征自适应地采样到BEV空间。
首先,从激光雷达特征中生成每个网格单元的高度:
表示 BEV 空间中一个网格单元的坐标,
表示生成的高度数量。因此,3D 自适应采样点
定义为使用实际坐标
对应网格单元
和高度集合
生成的。
接下来,生成的点P被投影到图像平面上。每个投影点在降采样字符串{Sj}的第j个图像尺度上采样多尺度特征{PVj}的第j个特征,其中Ns为不同的图像尺度。因此,Nh×Ns的投影点(xi^j,yi^j)和采样特征fi^j)通过投影获得:
其中,
表示将 3D 点投影到图像平面上,
表示双线性插值。
将所有
采样特征
的自适应采样权重
从
中获得。
决定了每个网格单元的高度和图像特征尺度的权重。在BEV空间中,多尺度图像特征的获得如下:
其中,σ(·)表示对所有Ns×Nh元素应用的softmax函数。
表示图像BEV特征图,通过利用LiDAR指导从BEV空间中的图像ROIs的特征。
自适应投影(Adaptive Projection,AP)模块使用自适应核为每个网格单元对BEV特征
进行细化,从而提高BEV特征的质量。整个过程可以用以下方程来表示:
首先,从激光雷达生成的自适应核
。这个核被生成用于每个激光雷达网格单元,以实现详细的特征表示。随后,通过应用
进行通道线性投影,得到图像激光雷达特征图
。
这激光引导的细粒度改进提高了特征表示,并解决了3D到2D投影方法中固有的径向偏移问题,这些方法在存在遮挡或空洞的3D空间时会出现这种问题。
多模态融合在BEV空间中
多模态BEV特征图
是通过将图像和激光雷达BEV特征图以通道方式拼接,然后进行卷积操作获得的:
denotes the channel-wise concatenation.
Group-wise Query Initialization
提出的群组 Query 初始化方法有效地为基于 Transformer 的检测框架生成 Query 。首先,从多模态BEV特征图
中预测群组 Heatmap 。群组是预定义的,每个群组包含大小相似的类别。预测的 Heatmap 分数范围为0到1,表示每个BEV像素对应于物体中心的可能性。 Heatmap 头由每个物体位置为中心的2D高斯分布监督。接下来,从每个 Heatmap 组中选择前k个关键点。这些关键点的位置作为BEV空间中 Query 的参考点。
该方法使用分组的可学习参数初始化每个 Query 特征。同一组内的 Query 共享这些参数,使得它们能够有效地捕获组的特征。这使得在多层Transformer解码器中的性能优于直接从输入特征图采样特征的传统 Query 初始化方法[1, 47]。有关详细信息,请参见第4.4节。
Enhanced Query Update Framework
为了在基于变形注意力的Transformer解码器中实现更有效的 Query 更新,作者提出了角感知取样和位置嵌入特征混合方法。
注意角落的采样方法。
所提出的注意角落的采样方法将采样参考从物体中心转移到每个角落,并根据物体的朝向旋转采样偏移量。这种方法解决了现有基于中心采样方法的局限性,这些方法生成的采样偏移量围绕物体中心,导致难以捕捉物体的完整空间范围和形状。
首先,初始点