专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

MV2DFusion: 基于Query的多模态融合框架提升无人驾驶车辆3D目标检测！

智驾实验室 · 公众号 · · 2024-08-22 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

无人驾驶车辆的崛起极大地增加了对强大3D目标检测系统的需求。虽然摄像头和LiDAR传感器各自具有一定的优势——摄像头提供丰富的纹理信息，LiDAR提供精确的3D空间数据——但过分依赖单一模式往往会导致性能受限。

本文介绍了MV2DFusion，这是一个集成两者优势的多元化检测框架，通过先进的基于 Query 的融合机制实现多模态融合。

通过引入图像 Query 生成器和点云 Query 生成器，MV2DFusion在保持对单一模态的偏见的同时，有效地结合了模态特定的物体语义。

然后，根据有价值的物体语义可以实现稀疏融合过程，确保在不同场景下实现高效、准确的目标检测。作者的框架的灵活性和扩展性使其能够与任何基于图像和点云的检测器集成，展现其适应性和未来发展的潜力。

在nuScenes和Argoverse2数据集上的广泛评估表明，MV2DFusion实现了最先进的性能，特别是在远程检测场景中表现出色。

1 Introduction

自动驾驶车辆的出现提高了对3D目标检测的需求。传感器（如相机和激光雷达）不同的成像原理允许相应数据模态捕获现实世界物体的不同属性。不同模态固有的特性使它们在从不同角度区别物体方面具有优势。例如，在图像中物体被呈现为纹理丰富的像素区域，而在点云中物体被呈现为一组3D点。近年来，基于相机的检测和激光雷达的检测[5, 6, 7, 8]取得了巨大进步。然而，依赖单一模态的检测有其缺陷。例如，图像缺乏深度信息来表示3D位置，而点云缺乏丰富的语义信息且由于稀疏性难以捕捉远处物体。

为了发挥两种模态的优势，多模态融合方法被提出，有望在两者之间实现最佳平衡。当前多模态融合方法可以广泛地分为两个主要策略：特征 Level 融合和 Proposal Level 融合。特征 Level 融合方法构建一个统一的特征空间（典型的是激光雷达帧），其中不同模态特征被提取以形成多模态特征体积。DeepFusion 和 AutoAlign 使用点云特征来 Query 图像特征来增强点云特征表示。BEVFusion [12, 13] 将图像和点云特征转换为BEV空间并将其融合在一起。CMT [14] 不构建一个统一的特征空间但采用图像和点云特征的统一特征聚合方法，其中注意力[15]被采用来 Query 图像和点云特征。虽然特征 Level 融合方法可方便地实现物体识别和定位，但它们并没有充分利用原始模态数据中嵌入的目标先验知识。

另一方面， Proposal Level 融合方法利用特定模态的 Proposal 以充分利用模态数据。F-PointNet [17] 将检测到的图像边界框转换为frustums以从点云中检索物体。FSF [18] 和 SparseFusion [19] 首先分别从每个模态中生成图像和点云的 Proposal ，然后将其统一为基于点云实例表示的多模态交互。然而，在这两种方法中，表示都趋向于偏向于一个模态。例如，在前者中，摄像头 Proposal 主导多模态融合过程，而在后者中，图像 Proposal 本质上被转换为点云 Proposal 的同一种表示。

为了解决上述挑战，作者提出了一种名为MV2DFusion的多模态检测框架，该框架扩展了MV2D [20]，并纳入了多模态检测，以便在物体的 Query 设计上实现向多模态设置的自然扩展。作者 Reshape 了图像 Query 生成器，使其更符合图像模态，并在其中引入了由 uncertainty-aware 图像 Query ，以保留图像目标的语义，并从中继承丰富的语义信息，如投影视图。通过引入一个新的点云 Query 生成器，作者还可以从点云中获取物体的语义信息，并将其与图像 Query 相结合。然后，融合过程可以很容易地进行，采用基于注意力的格式。

在故意设计的 Query 生成器的支持下，作者可以充分挖掘和使用特定模态的目标语义，而不会被某个特定表示空间所束缚。此外，它还允许作者集成任何类型的图像检测器和点云检测器，展现出该框架的灵活性和在不断发展中的检测模型的改进能力。由于融合策略的稀疏性，作者的框架也可以在不需要 quadratically 增加内存消耗和计算成本的较长范围内部署，并且可以通过最小的修改轻松合并任何基于 Query 的方法以有效利用历史信息（例如，StreamPETR [21]）。

作者将在 nuScenes 和 Argoverse 2 [23]（AV2）等大规模3D检测基准测试中评估作者提出的方法，并将其实现最先进的结果。作者的贡献可以总结如下：

作者提出一个框架，可以充分利用特定模态的目标语义进行全面的多模态检测。作者的框架的有效性和效率在 nuScenes 和 AV2 数据集上得到了验证。
该框架可以灵活地与任何模态检测器实现，这取决于部署环境和可用用于改进性能的持续发展的检测模型。
由于融合策略的稀疏性，作者的框架可以提供在长期范围内的解决方案，同时还可以集成任何类型的图像检测器和点云检测器。

总之，作者的方法在多模态3D检测方面取得了进步，并提供了一个强大和多功能的解决方案，利用了相机的优势，并且可以轻松地利用LiDAR的优点。

2 Related Work

LiDAR-based 3D Detection

基于LiDAR的3D检测在自动驾驶领域受到广泛关注，因为它能提供准确的深度和结构信息。目前的方法主要可以分为基于点的、 Voxel 基于、桩基于[7]以及基于范围的方法[31、32]。基于点的方法直接使用原始点云不进行量化。点RCNN [24]采用两阶段网络，第一阶段从原始点云中直接创建3D候选目标，第二阶段通过合并语义特征和局部空间特征来优化候选目标。3DSSD [25]通过采用一种基于3D欧几里得距离和特征距离的新颖采样策略，构建了一个轻量级和高效率的基于点的三维单阶段目标检测框架。FSD [26]引入了一个基于点的模块，来解决全稀疏 Pipeline 中缺少中心特征的问题。Voxel 化的方法将原始点云量化为 Voxel 。由于 Voxel 空间的稀疏性，SECOND [28]引入了稀疏卷积来处理 Voxel 表示，从而在训练和推理过程中极大地降低了成本。基于 Voxel 空间，CenterPoint [29]提出了一种强大的中心基础的无需 Anchor 框的三维检测器，成为3D目标检测的广泛使用的基本方法。Transfusion-L [30]将Transformer [15]引入到检测 Head 以提高性能。范围based方法[31、32]和桩based方法[7]分别从不同的角度将原始点云转换为2D表示，并使用2D网络进行特征提取。

在本文中，作者提出的框架的LiDAR分支可以应用于主流的LiDAR检测器，如FSD [26]，VoxelNeXt [33]，和TransFusion-L [30]。当使用全稀疏检测器时，作者整个框架保持其全稀疏特性。

Camera-based 3D Detection

由于相机传感器的低成本，基于相机的3D检测也引起了人们的广泛关注。多年来已经开发了许多2D检测器，直接的方法是将2D检测器提升为3D检测器。遵循这种方法，CenterNet [34]和FCOS3D [35]将3D目标转换为图像域进行监督，以便在俯视图直接预测3D框。一些方法明确构建了一个BEV空间进行预测，它们将图像特征映射到BEV空间，使用深度估计 [36] 的深度信息，或者直接使用3D-2D交叉注意力技术 Query 2D图像特征。BEVDet [1]，BEVDet4D [37]和BEVDepth [38]利用LSS [39]模块通过利用预测的深度分布将来自多个相机的特征映射到一个BEV表示。BEVFormer [2]使用空间交叉注意力进行2D到3D转换，并利用时间自注意力通过结合历史BEV特征来表示当前环境。PolarFormer [40]倡导利用极坐标系统并提出了一个新的Polar Transformer，以在BEV中更准确地检测3D目标。尽管这些3D空间表示对于统一多视图像有益，但随着3D空间检测范围的扩大，内存消耗和计算成本增加。

一些方法遵循DETR [41]的使用 Query 聚合图像特征进行预测。DETR3D [3]利用一组稀疏3D目标 Query 索引这些2D特征，而不估计密集3D场景几何。PETR [4，42]直接将3D位置嵌入 [42]分配到2D图像。Sparse4D [43, 44, 45]利用4D参考点在多个帧上跨采样特征，而不依赖于密集视图转换。值得注意的是，上述方法采用可学习的目标 Query ，需要将密集物体 Query 分布在3D空间中以确保足够的召回率。MV2D [20]提出了一种2D目标指导的框架，该框架利用动态 Query 召回目标并消除噪声和干扰。在本论文中，作者将MV2D [20]扩展为结合多模态检测，并且作者的框架在避免平方大小内内存消耗和计算成本方面的可行性。此外，作者的框架可以轻松地集成任何基于 Query 的时间建模方法，如StreamPETR [21]，以有效地利用历史信息。

Fusion-based 3D Detection

相机和激光雷达互补。相机包含密集的色彩和纹理信息，而激光雷达提供精確的深度和結構信息，它們可以相互合作以實現更高的精度。因此，多模态融合成为了提升感知系统性能和鲁棒性的关键问题。当前的多模态融合方法主要分为特征级融合和 Proposal 级融合。特征级融合方法旨在构建一个统一的特征空间。早期的方法将点云投影到图像，并在投影位置周围附加语义标签到3D点。更多的方法，如SD-Fusion [50]和AutoAlign [10, 11]，使用点云特征 Query 图像特征，从而增强点云特征的表达。BEVFusion [12, 13]将图像和点云特征转换为BEV空间并融合它们。CMT [14]将3D坐标集成到图像和点云标记中，使DETR [41] Pipeline 在多模态融合和端到端学习方面有效使用。另一方面，SparseFusion [51]专注于将BEV特征稀疏化以提高融合过程的效率。Proposal 级融合方法利用特定模态的 Proposal 以最大限度地发挥模态数据的效用。F-PointNet [17]将检测到的图像边界框转换为截面以从点云中提取物体。FSF [18]和SparseFusion [19]先分别从图像和点云中生成 Proposal ，然后将它们统一为点云基础的实例表示进行多模态交互。然而，这些方法通常偏袒一种模态，这使得这些方法无法充分利用融合的优势。在本文中，作者提出一种 Proposal 级方法，利用特定模态的目标语义来解决模态偏差的问题。

3 Methodology

Overview

MV2DFusion 整体流水线如图1所示。给定多视图图像和点云作为输入，模型首先通过独立的图像背平和点云背提取特定的模态特征。然后应用基于图像的 2D 检测器和基于点云的 3D 检测器对模态特征进行处理并输出相应的检测结果。接下来，根据模态特征和检测结果由相应的 Query 生成器生成图像 Query 和点云 Query 。最后，将模态 Query 和特征输入融合解码器中， Query 聚合两者模态的信息，并在 Query 更新后进行 3D 预测。作者将在以下部分详细阐述每个部分的设计细节和原则。

Exploiting Modality-Specific Object Semantics

作者提出了一种融合策略，可以通过挖掘原始模态中的信息，而不偏袒一种模态而损害另一种模态。特别是，在作者用3D空间表示和融合完整的场景时，作者采用利用和融合每个模态特定的物语义的多模态3D检测。这种融合策略保留了每个模态的独特特征，同时提供了稀疏性以减少计算成本和内存使用。

3.2.1 Object Proposals from Modality-Specific Experts

首先，作者采用独立的backbone进行模态特征提取。图像backbone具有FPN [52]颈，从多视图图像中提取图像特征。LiDARbackbone从点云中提取 Voxel 特征。在特征提取过程中，这两个分支不互相交互，以维持每个模态的独立信息。

根据模态特征，作者利用_模态特定专家_发现每个模态内的物体提出了物品。每个专家可以探索每个模态的特性以获得更好的性能。例如，图基于2D检测主要依赖于像素上的丰富纹理，而点云基3D检测则关注物体的形状诱导。

具体而言，对于图基于2D检测，作者可以使用任何2D检测器，限制检测器的结构，例如基于 Anchor 的[53]或 Anchor-Free 式[54]，两阶段[52]或一阶段[55]。2D检测为每个图像产生个2D边界框，每个框由表示。整个2D检测结果可以表示为

。

由于提出的稀疏融合策略，对于基于点云的3D检测，作者可以在 Voxel 上直接操作稀疏检测器，使得整个模型_完全稀疏_[26]。1由于完全稀疏模型不构建密集BEV特征，它们在减少内存使用和计算成本方面具有显著优势，特别是在长程场景下[26]。3D检测包括个3D边界框，每个框的表示为。整个3D检测结果可以用表示。

3.2.2从专家中获得物体 Level 的语义

尽管检测结果都为识别物体提供了有价值的线索，但它们的表示本质上不同。基于点云的3D检测以3D空间的形式呈现，而基于图像的2D检测在投影的2D空间中呈现。这种大的领域差距使得将信息融合在一起充满困难。在本论文中，作者提出从检测中推导物体 Level 的语义，而不是直接将原始检测结果进行融合。

与点云相比，物体的3D姿态无法直接从图像中推理。另一方面，图像平面中物体的分布可以作为3D定位的线索，考虑投影原理。另一方面，像素可以描述具有丰富纹理的目标，即使超过稀疏点云可能无法捕获的目标。

考虑到不同的特性，作者采用目标 Query 的形式编码每个模态的物体 Level 语义，然后多个模态的信息可以无缝集成。在现代基于transformer的检测框架[56,57,58]中，每个目标 Query 通常由两部分组成：内容部分和位置部分。从图像基于的检测结果和点云基于的检测结果得到检测结果后，作者根据边界框#和相应的模态特征构建目标 Query 。作者将详细说明每个模态的目标 Query 生成过程。

3.2.3 Point Cloud Object Query Generation

由于基于点云的3D检测器直接输出的位置在3D空间中，作者采用表示呈现目标实际位置的目标中心点。对于内容部分，作者将其内容部分集成外观和几何特征。因此，点云 Query 表示为：

点云 Query 生成的详细信息如图2所示。值得注意的是，外观特征取决于检测器类型。例如，在一种基于中心的检测器中，外观特征是每个BEV网格中的值。在一种两阶段的检测器中，外观特征是RoI特征。在作者的实现中，作者使用了稀疏点云3D检测器。因此，是从预测中提取的 Voxel 特征。作者将几何特征视为目标的物理属性，如大小和朝向，它们明确地表示在检测结果中。因此，内容部分可以简要表示为：

=MLP( +MLP( 。（2）

图3：图像 Query 生成示意图。省略了某些上标和下标。

where 表示将低维向量转换为高维特征的余弦位置编码（[15]）。

3.2.4 图像目标 Query 生成

生成图像 Query 的直观方法是应用图像基础3D检测器并将其检测到的实例转换为图像 Query 。这样，作者可以在 Query 格式的相同形式下轻松地获取图像 Query ，从而促进 Query 的模型融合。然而，由于图像和3D模态固有的差异，强制将不同模态 Query 的相同格式将损害图像 Query 的性能。由于图像深度估计问题的不完美，3D预测受到大量错误，这将阻碍图像 Query 的特征质量和定位质量。

：

≤ ≤ 。

对于这种带有不确定性的图像 Query ，作者首先可以给出目标的初步估计位置 [20, 59]，并通过世界坐标系到相机的投影来减轻这种投影带来的不准确性。详细的过程见图3。

给定第v张图像的2D目标检测结果和图像特征图，图像 Query 生成器首先通过RoI-Align [60]从图像中提取目标的外观特征：

除了外观特征，作者还向图像 Query 生成器输入等效的相机内参矩阵来弥补在RoI-Align [20]过程中丢失的几何信息。相机原始内参矩阵，那么等效的相机内参矩阵，它定义了从相机坐标系到第i个2D边界框的投影，可以表示为：

其中。

因此，图像 Query 的内容部分由外观特征和几何信息参数化：

其中表示连接运算，而 Flat 表示将张量尾数维度进行扁平化。

至于位置部分，作者在预定的深度范围内随机选择个值，形成深度集。然后作者预测一组2D采样位置和相应的概率，这里省略了下标v的表示：

有了2D采样位置和深度值，作者就可以通过相机坐标系到世界坐标的投影得到3D采样位置。

请注意，分布基础的公式与LSS [39]部分相似，但它并未实际上将 Query 特征编码到3D空间。这种编码格式不仅节省了LSS所需的计算资源和内存，而且在深度预测错误时提高了鲁棒性。

Fusing Modality Information

受到检测 Transformer [41]的启发，作者利用类似于解码器的结构 [15]来融合模态信息并预测最终结果。解码器包含个解码层，由自注意层、交叉注意层、层归一化、前馈网络和 Query 校准层组成。点云 Query 和图像 Query 作为解码器的输入。这些组合的输入 Query 用表示， while 在第层的 Query 用表示。

3.3.1 Self-Attention

正如公式1和公式3所指出的，模态 Query 有不同的表述，即和。为了使它们与典型的自注意力层[15]兼容，保留内容部分，并将位置部分转换为一致的表示。

作者使用位置编码方法(PE)和不确定性感知的位置编码方法(U-PE)为每个模态创建位置编码和：

在PE中，是由中心点生成的：

其中，SinPos 表示正弦位置编码。

在 U-PE 中，首先将转换为基本位置编码，然后通过关注操作将概率注入中：

其中，Flat 表示扁平操作，表示逐元素乘法，表示 sigmoid 函数。

给定多头注意力的一般定义，自注意力可以写为：

其中表示和的连接位置编码，所以有

MV2DFusion: 基于Query的多模态融合框架提升无人驾驶车辆3D目标检测 ！

正文