专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

激光雷达与相机动态调整融合框架在3D目标检测中的应用!

智驾实验室  · 公众号  ·  · 2024-07-29 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

相机和激光雷达作为信息丰富的传感器,对于实现准确且鲁棒的自动驾驶系统至关重要。然而,这些传感器通常表现出异质性质,导致分布式的模态差距,这为融合带来了重大挑战。为了解决这个问题,一种鲁棒的融合技术至关重要,特别是对于提升3D目标检测。

在本文中,作者引入了一种动态调整技术,旨在对齐模态分布并学习有效的模态表示以增强融合过程。具体而言,作者提出了一种三阶段领域对齐模块。该模块调整来自相机和激光雷达的特征分布,使它们更接近于 GT 域,并最小化差异。此外,作者探索了改进的表示获取方法,用于动态融合,包括模态交互和专业性增强。

最后,作者采用了一种自适应学习技术,融合语义和几何信息以进行动态实例优化。在nuScenes数据集上的大量实验表明,作者的方法与最先进的方法具有竞争力。

I Introduction

随着自动驾驶技术的进步,3D目标检测任务作为环境感知的关键组成部分受到了广泛关注。因此,车辆通常配备了多种传感器,包括多视图相机和激光雷达(LiDAR)。这两种传感器类型提供了丰富多样的输入信息,包括RGB数据和点云。具体来说,RGB图像提供了丰富的语义信息,而点云则提供了几何约束。基于视觉的策略擅长对不同目标进行分类,但可能在定位准确性上存在不足。相比之下,以[40, 11, 36]等作品为代表的激光雷达基于方法能有效定位目标,但在分类准确性上可能存在问题。核心挑战在于将这两种模态作为互补信息源进行融合,以实现精确且鲁棒的目标检测。

相机和激光雷达传感器通常表现出不同的特征分布,早期的融合方法遵循“从相机到激光雷达”的策略,可以分为三个流派。一些方法采用点 Level 的融合策略。例如,PointPainting[33]和PointAugmenting[34]将图像信息叠加到每个激光雷达点云上,增强了特征表示。其他方法关注特征 Level 的融合,如DeepFusion[14]、AutoAlignV2[6]和Graph R-CNN[42]。此外,一些方法在 Proposal  Level 融合信息,包括TransFusion[1]和FUTR3D[4]。

然而,这些以激光雷达为主的融合策略面临两个挑战:

(1)相机和激光雷达特征表现出显著不同的密度,导致相匹配的相机特征较少(尤其是对于32通道激光雷达扫描器)。

(2)这些方法对传感器错位敏感,因为通过校准矩阵建立的点与像素之间的刚性关联。

近年来,相机和激光雷达特征的联合融合(如图1(a)所示)已经取代了早期的单模态主导策略。一些方法采用两种模态之间的双向交互来实现深度融合,如DeepInteraction[44]所示。同时,其他方法[18, 24]构建了一个统一的鸟瞰表示空间来融合不同的模态特征。总的来说,大多数3D多模态目标检测方法致力于从单模态主导发展到多模态联合融合的复杂融合机制。尽管取得了令人印象深刻的进展,但这些策略常常受到异质模态差距的影响。如图1所示,多模态传感器产生了不同的特征模式,每种模式对环境的感知能力各异。因此,学习潜在的模态表示并捕捉关键模态属性是促进多模态融合的有效途径。为了实现这一目标,作者探索了在激光雷达和相机数据之间的动态调整融合,这有效增强了每种模态的表示,并将互补信息融合起来,以提高3D目标检测的性能。

受到近年来多模态融合方法进展的启发,作者提出探索动态调整融合技术(如图2(b)所示)。这种技术学习每个模态的子空间,并探索两种模态之间的相关性,从而改善了融合表示。在深入表示学习之前,作者设计了一个三阶段域对齐模块,将两种模态与彼此对齐,使它们的空间分布更接近于 GT 域。为了增强模态表示并捕捉关键属性,作者设计了一个模态交互模块,探索相机和激光雷达模态之间的相关性,提高了相关表示。此外,作者还研究了它们对物体区域的特定感知,以增强每种模态的专业性。最后,作者采用了一种动态融合策略,结合了上述交互和专业表示在空间和通道维度上的信息。此外,认识到不同物体表现出不同的视觉大小,作者提出了一种自适应学习方法,该方法根据语义和几何信息动态优化实例,而不是平等对待。在nuScenes数据集[2]上进行的实验表明,与现有最先进的方法相比,作者的方法具有竞争力。作者的贡献总结如下:

  • 作者提出了一种新颖的框架来探索激光雷达-相机的动态调整融合。在nuScenes基准上的大量实验证明了作者方法的有效性。
  • 对于多模态融合,作者首先设计了一个三阶段域对齐模块来学习域自适应特征表示。其次,模态交互和专业性增强模块动态改善了表示。最后,动态融合过程基于上述步骤生成了高质量的融合表示。
  • 对于实例优化,作者提出了一种自适应学习方法,该方法通过结合语义和几何信息动态优化不同的实例。

II Related Work

本章将回顾与本研究相关的先前工作及现有技术。

Single-modal 3D object detection

自动驾驶车辆通常配备了多种传感器。然而,在3D目标检测的早期阶段,大多数方法依赖于单一模式的数据,要么是摄像头,要么是激光雷达(LiDAR)。基于摄像头的方法大致可以分为两类:单目检测和多视角检测。KITTI基准测试[7]主要采用单个前置摄像头,许多方法[26, 49, 25, 35, 38]最初都集中在单目检测上。

然而,随着像nuScenes[2]和Waymo[32]这样的大型自动驾驶数据集的出现,多视角输入数据变得越来越重要,它们提供了更丰富的信息,并引领了该领域的新趋势。受到DETR[3]和Lift-Splat-Shoot[27]的启发,越来越多的多视角检测器被提出。DETR3D[37]首次引入了 Transformer (transformers)进行端到端的3D检测。PETR[21, 22]利用位置嵌入创建3D位置感知特征,增强了目标定位。BEVDet[9, 8]、BEVDepth[15]和BEVFormer[17, 41]将2D特征转换为鸟瞰图(BEV)表示,使得在统一的BEV空间中进行目标检测成为可能。PETRV2[22]、BEVDet4D[8]和BEVFormer[17]还融入了时间线索,以获得令人印象深刻的性能提升。

此外,基于LiDAR的方法可以分为三类:基于点的方法,它们直接处理原始的LiDAR点云;基于 Voxel 的方法[48],将点转换为3D Voxel 网格;以及基于柱状的方法[11, 36],它们从点柱中提取类似于卷积神经网络(CNNs)的特征。

Multi-modal 3D object detection

多模态融合能够集合来自不同传感器数据的各自优势。近来,现有的融合方法被划分为以下两种方法。摄像头到激光雷达(Camera-to-LiDAR)的方法通常将摄像头特征投影到激光雷达特征上,完成融合,这意味着激光雷达占主导地位。PointPainting [33] 将分割得分涂抹到激光雷达点云中的每个点上。PointAugmenting [34] 将来自2D图像的特征涂抹到激光雷达点云中的每个点上。DeepFusion [14] 提出了逆增强(Inverse-Aug)和可学习对齐(Learnable-Align)以更好地融合摄像头和激光雷达模态。AutoAlignV2 [6] 采用了一种可变形特征聚合模块,该模块关注于稀疏的可学习采样点,进行跨模态关系建模。Graph R-CNN [42] 利用动态点聚合策略,采样上下文和目标点,并通过视觉特征增强来装饰带有2D特征的点。Transfusion [1] 采用软关联机制来完成激光雷达和摄像头的融合,处理不良的图像条件。FUTR3D [4] 引入了第一个统一的端到端传感器融合框架,几乎可以用于任何传感器配置。MSMDFusion [10] 在多尺度 Voxel 空间中鼓励充分的激光雷达-摄像头特征融合。

近来,摄像头和激光雷达的联合融合已显示出显著的有效性。两种BEVFusion方法 [18, 24] 将摄像头和激光雷达特征投影到鸟瞰图空间,使得能够使用统一融合表示进行目标检测。此外,DeepInteraction [44] 引入了一种策略,分别学习并保持单个模态的表示,保留它们独特的特性。

III Dynamic Adjustment Fusion

基于高推理速度和转换灵活性,作者采用BEVFusion [24]作为作者的 Baseline ,这是一种最先进的3D目标检测方法。BEVFusion利用鸟瞰图(BEV)表示进行多模态融合。然而, Baseline 中的基本融合策略过于简单,仅依赖于卷积操作,这对于有效融合复杂特征是不够的。为了解决这个问题,作者提出了一种新颖的融合框架,如图3所示。让作者深入了解其四个关键组成部分:

首先,作者从多视角摄像头和激光雷达的点云中编码RGB信息,从而得到两种模态的BEV特征。为了解决不同模态之间的特征不匹配问题,作者设计了一个三阶段对齐模块,该模块调整特征分布,并在空间和通道维度上进行对齐。

接下来,作者的模态交互和特性增强模块有效地融合了互补信息,同时减少了冗余。然后,作者应用动态融合来调整空间和通道维度上的特征。此外,在训练过程中,作者采用自适应学习方法来优化不同实例。最后,完成预测。

三阶段领域对齐

如图1所示,不同的传感器模态产生不同的特征模式。一方面,它们观察目标的 不同区域。另一方面,由于不同的编码模式,它们特征分布存在差异。尽管先前的融合策略关注于特征 Level 的聚合,但在特征融合中仍然存在领域不匹配的问题。

在融合多模态特征之前,作者将它们对齐到一个公共领域。具体来说,作者将相机领域定义为 ,激光雷达领域定义为 , GT 领域定义为 。直接将它们优化到一个共享领域可能是具有挑战性的,因此作者引入了特征 Level 的约束。作者使用领域对齐编码器处理原始的鸟瞰图(BEV)特征,得到了相机BEV对齐特征,记为 ,以及激光雷达BEV对齐特征,记为 。这些对齐编码器可以使用卷积层或 Transformer 结构来实现。

为了对齐 ,作者在 上应用基本的 约束。然而,仅仅匹配 是不够的,因为这可能与 GT 领域 发生偏离。为了解决这个问题,作者引入了 约束,以确保 得到适当对齐。整体的三阶段领域对齐优化公式如下:

其中 代表平衡系数。 Heatmap 监督 是从 GT 数据生成的,与CenterNet [1]中使用的方法类似。作者创建了一个鸟瞰图(BEV)空间,并在每个中心点上应用高斯核以获得 Heatmap 监督 。损失函数 基于高斯Focal Loss,灵感也来自于CenterNet [47]。它将高斯核与Focal Loss结合,用于监督特征图。

虽然两种模态之间的约束旨在对齐它们特征分布,但作者提出的三阶段领域对齐策略确保了特征对齐和特征互补性之间的平衡。 Heatmap 监督针对摄像头和激光雷达特征进行了定制,以保持它们的互补表示。此外,作者将两种模态的约束与 Heatmap 监督的权重比设置为1:10。这确保了模态上的约束不会损害它们独特的表达,从而保持互补性。

Modal Interaction and Specialty Enhancement

摄像头和激光雷达(LiDAR)信息是从不同的传感器捕获并由特定的编码器进行编码。现有的方法通常使用简单的“拼接/卷积”操作来融合不同的特征,但每种模态的独特优势并未得到充分利用。为了解决这个问题,作者提出了一种模态交互与专长增强方法,该方法充分利用了每种模态的潜力。整个流程在图4中进行了展示。

Iii-C1 Modal Interaction

在本节中,作者首先进行模态交互以捕捉相关性并增强相似表示。为了获得相机和激光雷达(LiDAR)模态之间的关系,作者使用了可变形 Transformer [50],记作 。其公式如下:

其中 分别表示 Query 、参考点和输入特征。 代表注意力头, 为采样的关键点的索引。 是可学习的权重。 分别表示 个注意力头中 个采样点的采样偏移和注意力权重。

与之前特征之间的直接交互不同,作者利用由特征生成的热力图来创建势能图。这些势能图作用于模态特征以增强相似表示。作者的策略避免了破坏特征分布,从而提高了学习效果。首先,作者获取归一化的热力图 。对于相机 Query 和激光雷达 Query ,作者使用相似特征编码来模拟它们之间的相关性,如下所示:

此外,作者使用 对自我交互进行建模,其中每个模态既作为 Query 也作为值。因此,模态交互表示的势能图定义为

Iii-C2 Specialty Enhancement

除了探索模态交互,作者还深入研究了它们的具体表征以增强模态的专长。如图1所示,相机和激光雷达通常在它们的功能图上观察到不同的目标,这表明了它们有不同的偏好。因此,理解它们的模态专长有助于补充对相似潜在特征的关注。此外,作者观察到目标区域在特征图上的响应比背景要高。另外,随着距离目标的远离,响应幅度逐渐减小。这表明高响应区域具有较低的与 GT 值的中心偏移和较低的不确定性。受此观察启发,作者将特征建模为类似高斯分布的形式,其中偏移小且不确定性低的点展现出增强的感知重要性。具体来说,作者将鸟瞰图(BEV)特征图编码为两种表征:一种表示每个特征点到最近目标的偏移量 ,另一种表示该点的不确定性估计 。作者使用基本的卷积神经网络(CNNs)来完成相机和激光雷达模态的编码。如图4所示,作者获得了每种模态的错误分布图

偏移量 和不确定性 的优化如下所示:

其中







请到「今天看啥」查看全文


推荐文章
区块链铅笔Blockchain  ·  【争议】区块链、中介和炒作
7 年前
医学界影像诊断与介入频道  ·  在这本书里,医生说出了别人不敢说的真话
7 年前
程序员之家  ·  如何在30秒内猜中另一半手机密码?
7 年前