北邮提出 FGU3R：统一3D表示用于多模态3D目标检测！

自动驾驶之心 · 公众号 · · 2025-02-23 00:00

正文

作者 | AI 驾驶员编辑 | 智驾实验室

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

>>点击进入→ 自动驾驶之心 『3D目标检测』技术交流群

本文只做学术分享，如有侵权，联系删文

多模态3D目标检测在自动驾驶领域引起了广泛关注。然而，多模态检测器由于将3D点和2D像素粗略融合而存在维度不匹配问题，这导致了融合性能欠佳。

在本文中，作者提出了一种名为FGU3R的多模态框架来解决上述问题，通过统一的3D表示和精细融合来实现，该框架包含两个重要组成部分。

首先，作者提出了一种用于原始点和伪点的有效特征提取器，称为伪原始卷积（PRConv），它同步调节多模态特征，并基于多模态交互在关键点上聚合不同类型点的特征。

其次，设计了一种交叉注意力自适应融合（CAAF），通过交叉注意力变体以精细的方式自适应地融合同质3D RoI（兴趣区域）特征。这两个部分共同实现了在统一3D表示上的精细融合。

在KITTI和nuScenes数据集上进行的实验表明，作者提出的方法是有效的。

引言

3D目标检测，旨在智能预测3D空间中物体的类别、位置和尺寸，在许多领域发挥着至关重要的作用，例如机器人视觉和自动驾驶。在过去几年中，尽管基于LiDAR的检测器[4]-[8]取得了巨大成就，但由于LiDAR点云固有的缺陷，如稀疏性和语义贫乏，其性能仍然不尽如人意。最近的研究尝试引入多模态数据以克服基于LiDAR检测器的局限性。[9]-[11]利用成熟的二维检测器精确地捕捉3D空间中的锥体，以去除冗余的背景点。然而，它们的性能受到二维检测器的限制。旨在将点云转换为二维表示，通过视角变换与二维图像进行维度匹配，从而允许二维卷积提取特征。PointPainting[19]通过传感器校准投影将语义分割生成的语义分数附加到相应的原始点上。[20]-[22]建立了点云特征与RGB图像之间的联系，以探索细粒度的融合。[23]、[24]引入了注意力机制，在特征 Level 融合点与RGB像素。[25]利用多个相关任务来补充3D任务的特性。FUTR3D[26]利用Transformer对模态无关的隐式特征进行编码。

图1（a）由于三维点和二维图像之间的差异，维数不匹配的特征难以高效融合和校准，导致集成性能不佳。（b）作者采用的统一三维表示可以轻松实现细粒度融合，同时保持语义相邻性。

尽管先前的方法取得了令人印象深刻的改进，但它们存在两个主要问题。首先，许多方法将3D点和2D像素——来自不同维度的特征——结合在一起，从而引发了维度不匹配问题，如图1a所示。其次，先前的方法通过逐元素相加或拼接简单融合多模态特征，这是一种粗粒度融合，会降低检测性能。

为了应对上述挑战，作者提出了一种多模态3D检测框架，该框架利用显式统一的3D表示来进行细粒度融合。首先，作者通过提供显式统一的3D表示来克服维度不匹配问题，如图1b所示。具体来说，作者采用一个预训练的深度补全网络来补充2D图像的深度，生成可靠的3D伪点云。其次，作者提出了一种多模态 Backbone 网络，即伪原始卷积（PRConv），以从伪点和原始点中提取特征，同时充分实现各种元素的交互。最后，作者提出了一种交叉注意力自适应融合（CAAF），它通过交叉注意力变体自适应地融合多模态特征，并在模态之间构建关联信息，这是一种更细粒度的融合策略。

H. 提出的方法

FGU3R的整体框架如图2所示。首先，通过深度补全将原始点和图像生成伪点，并通过采样原始点生成关键点。其次，原始点和伪点被 Voxel 化。原始 Voxel 和伪 Voxel 被输入到PRConv中提取细粒度特征。最后，由RPN（区域建议网络）生成的异构Rol特征通过CAAF（详见第二节C部分）融合，并进行最终的回归。

初步的

要将图像转换为伪点云，需要像素级深度信息。通常，对于单目相机，通过深度估计或深度补全来获得像素级深度。在此，作者采用深度补全方法以获取更可靠的深度信息。给定一个原始点集的帧和RGB图像，其中为点云中的点数，和分别为图像的宽度和高度。作者可以利用LiDAR相对于相机参考系的旋转矩阵和平移矩阵，将投影到图像平面上，从而获取一个稀疏深度图，具体如下：

表示相机内参；表示像素坐标；为深度值。作者定义这种可逆投影操作为。将和输入到深度补全网络中，以获得密集的深度图，具体如下：

最后，作者通过反向投影获得一个伪点帧。

在实践中，这个过程产生了不错的伪点。伪点的定义将在第二部分的第二节中描述。

伪原始卷积（Pseudo-RawConvolution）

伪点与原始点相比，伪点是一种更为密集的表示，其中包含了丰富的语义信息。具体来说，图像中的每个像素都会生成一个相应的伪点，它包括深度、颜色以及像素坐标。PRConvPointnet [29] 是一种提取点特征的原生方法。然而，由于伪点的数量庞大，它将导致通过球 Query 算子 [29] 进行大量计算。为了利用多模态点之间的互补性，作者提出了一种基于点- Voxel 的主干伪原始卷积（PRConv）。对于原始点分支，使用稀疏3D卷积来提取原始 Voxel 特征。与作者的 Baseline [5] 类似，通过通道变换将原始 Voxel 特征转换为2D鸟瞰图（BEV）特征，并用于获取候选框。对于伪点分支，作者首先将其 Voxel 化以生成伪 Voxel ，并将它们输入到3D稀疏卷积中以获得伪 Voxel 特征。

在此，作者分别获取了异质体的 Voxel 特征。尽管基于 Voxel 的特征效率较高，但不可避免的信息损失降低了细粒度定位的准确性。

另一方面，基于点的特征虽然能够提供细粒度信息，但计算量巨大。因此，作者的目标是有效地结合两种方法的优势。受[5]的启发，作者在共享点云空间中通过最远点采样（FPS）进行关键点采样，以获取低噪声的全局关键点。如图2所示，在关键点周围，通过球 Query [29]或 Voxel Query [6]对异构特征进行聚合，以实现特征间的交互。最后，第个关键点特征可以表示如下：

代表级多模态语义特征，而则结合了原始点和伪点。表示多层感知器，而则分别指最大池化或平均池化。

C. 跨注意力自适应融合

激光雷达和相机的特性导致了一个固有难题——维度不匹配，这很大程度上限制了多模态检测器的性能。尽管之前的方法[19]、[20]、[23]、[24]已经提出直接融合异构特征，但它们未能解决这一关键问题。得益于上述提到的伪点生成，维度可以在三维空间中得到很好的匹配。尽管伪点可以缓解维度不匹配的问题，但在对齐方面仍是一个关键挑战。根据作者的可视化分析，伪点的坐标和数据与关键点不同，这导致它们的对应关系复杂，而不是一对一的对齐。

为了实现关键点和伪关键点的自适应集成，作者通过引入一个交叉注意力变体动态捕捉这种对应关系。具体来说，作者在细化阶段使用CAAF融合RoI的异构特征。给定一对RoI特征

北邮提出 FGU3R：统一3D表示用于多模态3D目标检测 ！

正文

引言

H. 提出的方法

初步的

伪原始卷积（Pseudo-RawConvolution）

C. 跨注意力自适应融合

请到「今天看啥」查看全文

北邮提出 FGU3R：统一3D表示用于多模态3D目标检测！