专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

地平线提出ContrastAlign | 利用对比学习增强跨模态对齐问题，比BEVFusion提升7.3%

智驾实验室 · 公众号 · · 2024-06-04 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

扫描上方二维码，加入【 智驾实验室 】交流群，

获取更多内容和资料

在3D目标检测任务领域，将来自激光雷达和相机传感器的异质特征融合到一个统一的鸟瞰图（BEV）表示中是一种广泛采用的方法。然而，现有方法常常受到传感器标定不精确的影响，导致激光雷达-相机BEV融合中的特征错位。

此外，这种不准确导致相机分支的深度估计错误，最终造成激光雷达和相机BEV特征之间的不对齐。在这项工作中，作者提出了一种新颖的对齐方法，该方法利用对比学习来增强异质模态的对齐，从而提高融合过程的鲁棒性。

具体来说，作者的方法包括L-Instance模块，它直接在激光雷达BEV特征内输出激光雷达实例特征。然后，作者引入C-Instance模块，通过在相机BEV特征上进行RoI（感兴趣区域）池化来预测相机实例特征。

作者提出InstanceFusion模块，利用对比学习生成跨异质模态的相似实例特征。接下来，作者使用图匹配计算相邻相机实例特征与相似实例特征之间的相似性，以完成实例特征的对齐。

作者的方法在nuScenes验证集上取得了最先进的性能，mAP达到70.3%，比BEVFusion提高了1.8%。重要的是，在存在错位噪声的情况下，作者的方法比BEVFusion提高了7.3%。

1 Introduction

三维目标检测是实现在自动驾驶任务中可靠环境感知的基本任务之一[44; 70]。该任务旨在准确识别和定位汽车和行人等障碍物，为自动驾驶系统提供精确和实时的数据，以作出正确的驾驶决策。目前实现安全、鲁棒和高精度检测的标准可能需要融合异质模态：由于点云固有的稀疏性，仅使用激光雷达的方法[23; 62; 71; 12; 41; 35; 40; 55; 46]在检测小型或远距离物体时存在困难，这使得它们在鲁棒三维检测方面不够充分。相比之下，这些物体在高分辨率图像中仍然清晰且易于区分，包含丰富的语义表示[56]。点云和图像的互补作用促使研究行人利用异质模态的优势来设计检测器。

根据不同的融合策略，异质三维目标检测主要可以分为点 Level [42; 52; 18; 33; 53]、特征 Level [1; 27; 64; 10; 45; 43; 49; 48]的方法以及目前占主导地位的基于鸟瞰视图（BEV）的方法[34; 29]。基于BEV的方法将激光雷达和相机模态集成到共享的BEV表示空间中。尽管基于BEV的方法[34; 29]已经显示出有希望的性能，但它们仍然存在 BEV特征对齐 问题。这个问题主要有两个原因，包括传感器对齐偏差（见图1（a））和深度不准确（见图1（b））。首先，对于传感器对齐偏差，正如BEVDepth [28]，GraphBEV [47]，ObjectFusion [4]所指出的，激光雷达和相机传感器之间的校准矩阵误差可能导致特征对齐不良。其次，它们的融合过程在很大程度上依赖于从相机到BEV的深度估计的准确性（例如，LSS[38]），而深度不准确会进一步导致特征对齐不良。

实现自动驾驶中特征对齐的关键在于投影矩阵（标定矩阵）的偏差，这在现实世界中提出了挑战。一些特征级方法通过交叉注意力机制，用点云特征 Query 图像特征来实现特征融合，无需投影矩阵，但计算开销很大。

其他特征级方法试图通过可变形注意力[73]和邻域投影，在投影矩阵的帮助下减轻特征对齐引起的对齐误差。

如BEVFusion[34]所述，尽管LiDAR BEV特征和相机BEV特征处于同一空间，但由于视角 Transformer 深度不准确，它们在一定程度上仍然可能存在空间上的不对齐。到目前为止，只有少数基于BEV的工作[4; 47]解决了BEV空间特征不对齐的问题。

其中ObjectFusion[4]提出了一种新颖的以目标为中心的融合方法，对齐不同模态的目标中心特征；GraphBEV[47]通过图匹配匹配邻域深度特征，减轻了不对齐问题。特征对齐问题不仅存在于多模态3D目标检测中，也存在于涉及文本和图像的多模态任务中。随着多模态基础模型的发展，更多的研究者关注异质模态对齐，以达到模态一致性的目的。对比对齐[20; 68; 60]可以被看作是一种相互精炼的过程，每个模态都为知识交换做出贡献并从中受益。通过对比学习，异质模态之间的迭代互动不断演进，增强了单一模型内的通用理解能力，解决了异质模态的对齐问题[20]。因此，受上述思想的启发，作者将这一概念应用于3D目标检测任务，解决LiDAR和相机BEV特征之间的特征不对齐问题[34; 29]。

在本工作中，作者提出了 对比对齐（ContrastAlign） 方法，它利用对比学习来增强异构模态之间的对齐，从而提高激光雷达-相机BEV特征融合的鲁棒性，如图1（c）所示。

具体来说，作者提出了L-Instance模块，它直接在激光雷达BEV特征内输出激光雷达实例特征。接着，作者引入了C-Instance模块，它通过在相机BEV特征上进行RoI（感兴趣区域）池化来预测相机实例特征。然后，将激光雷达实例特征投影到图像实例特征上，并采用对比学习来生成激光雷达和相机之间相似的实例特征。随后，通过图匹配，将相邻的相机实例特征进行匹配以计算相似性，并构建正负样本。在推理过程中，选择相邻相机实例特征中相似性高的对齐特征作为对齐特征，以实现BEV特征对齐。大量实验已证明作者的对比对齐方法的有效性，在nuScenes [3] 数据集上取得了显著性能提升，尤其是在对齐噪声设置[13]下。

2 Related Work

Multi-modal 3D Object Detection

多模态3D目标检测在KITTI、nuScenes等数据集上通过利用来自异构传感器（激光雷达和相机）的数据特征并将它们整合以增强3D目标的检测，已经取得了最先进的性能[44; 56]。多模态3D目标检测器可以广泛分为三种融合方法，包括点 Level 、特征 Level 和基于BEV的方法。点 Level 方法[42; 52; 53; 18; 33; 67; 61]旨在用图像特征增强原始激光雷达点，然后通过仅激光雷达的3D检测器传递它们以产生3D检测结果。特征 Level 方法[8; 48; 11; 10; 45; 43; 1; 64; 2]主要关注在特征提取阶段将点云特征与图像特征整合。在特征 Level 方法中，代表性工作如HMFI[25]、GraphAlign[45]和GraphAlign++[43]利用投影校准矩阵的先验知识，通过局部图建模将点云投影到相应的图像上，以解决特征对齐问题。基于BEV的方法[34; 29; 4; 47; 65]将激光雷达和相机表示高效地合并到鸟瞰图（BEV）空间中。尽管先驱BEVFusion[34]已经在像nuScenes这样的原始数据集上展示了高性能，但它忽略了现实世界的复杂性，特别是特征错位问题，这为其实际应用设置了障碍[44; 13]。因此，对于未来多模态3D目标检测的研究来说，解决特征错位等问题，确保在现实场景中的鲁棒性能是至关重要的。

Contrastive Learning

对比学习旨在通过将语义上接近的邻居拉在一起，将非邻居推开的方式来学习有效的表示[15]。在这种范式下，模型力求将相似样本映射到表示空间中的邻近区域，同时将不相似样本映射到远端区域[19; 51]。目前，对比学习已在自然语言处理[69]和计算机视觉[24; 39; 20; 14; 59; 58]中得到了广泛研究。特别是，CLIP [39]利用对比学习进行大规模文本和图像数据之间的多模态预训练。T-Rex2 [20]通过对比学习在目标检测模型中整合文本和视觉提示。WCL [14]采用对比学习来增强深度预测过程。ReSim [59]从同一图像的不同滑动窗口学习区域表示。DenseCL [58]优化了两幅不同图像之间的像素级对比损失。总的来说，对比学习在跨模态特征相似性的学习以及单模态特征的不变性方面表现出色。

在这项工作中，为了解决激光雷达和相机在鸟瞰图（BEV）特征上的错位问题，作者提出了一个名为 ContrastAlign 的新颖多模态框架。它借鉴了对比学习的思想来增强异质模态之间的对齐。

3 Method

为了解决 特征错位 问题，作者提出了一种名为 对比对齐 的健壮融合框架。作者框架的概览在图2中给出。在以下各节中，作者首先在3.1节介绍所提出的对比对齐的总体概述。随后，在3.2节中，作者深入探讨C-实例和L-实例模块的细节。之后，在3.3节中，作者将详细阐述InstanceFusion模块的关键设计步骤。

Overall Framework of ContrastAlign

整个框架，如所示图2所述，主要包含四个模块：多模态编码器、C-实例和L-实例模块、实例融合（InstanceFusion）以及检测Head（Detection Head）。

多模态编码器。 ContrastAlign基于BEVFusion [34]构建。在相机分支中，作者采用Swim Transformer [31]作为多相机设置下的特征提取器，遵循LSS [38]以获得相机的BEV特征，定义为，其中表示批大小，表示特征通道数，和分别表示特征的高度和宽度。在激光雷达分支中，作者采用TransFusion-L [1]输出激光雷达BEV特征，定义为，其中表示特征通道数。

C-实例和L-实例模块。 之前的方法如BEVFusion [34; 29] 直接连接和。这种操作不能在BEV空间中区分实例特征和背景特征。与背景特征相比，如汽车和行人等实例特征对于3D检测更为重要。为了获得激光雷达和相机的实例特征，作者引入了C-实例和L-实例模块，通过分数过滤和ROI池化预测实例特征，具体细节见第3.2节。

实例融合。 作者引入了 InstanceFusion 模块，以在激光雷达和相机BEV融合时实现跨模态对齐。这个模块，详细在第3.3节中描述，代表作者的核心创新。它利用C-实例和L-实例模块提供激光雷达和相机实例特征，然后将其对齐到BEV空间。

检测Head。 作者遵循TransFusion [1]生成最终的3D检测结果。在训练过程中，作者结合了如第3.3节所述的InfoNCE损失。同时，作者使用Focal损失[30]和L1损失分别用于分类和3D边界框回归。

C-Instance and L-Instance Modules

如图3所示，C-Instance和L-Instance模块旨在从激光雷达和相机的鸟瞰图（BEV）特征中提取实例特征。对于相机BEV特征，作者遵循BEVDet [17]的方法，采用CenterPoint Head [66]生成 Proposal 。对于激光雷达BEV特征，作者采用VoxelNeXt Head [9]生成 Proposal 。在推理过程中，采用稀疏最大池化[8]对选定的 Proposal 进行评分。激光雷达和相机 Proposal 和包含以下特征：位置，高度，尺寸，方向角，以及 Proposal 得分和标签。

随后，作者采用特征采样[66]从和生成RoI特征和。具体来说，对于任意的 Proposal 或，作者选择其位置并在边界框每条边的中心采样点。每个 Proposal 生成一组采样点，其中表示其位置。除了，其他采样点使用插值算法[66]在激光雷达和相机BEV特征上产生采样结果。最后，激光雷达和相机的RoI特征和通过拼接所有采样特征形成，其中表示批大小，和分别表示激光雷达和相机RoI特征的数量，5表示的数量，而表示和的通道数。

InstanceFusion

作者提出了 InstanceFusion 模块，以实现实例特征的跨模态对齐。对于正样本，作者将激光雷达实例特征投影到相机鸟瞰（BEV）空间，并将匹配的相机实例特征视为正样本。对于负样本，作者在相机正样本周围的