专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

双重视角融合 Transformer | 超越 BEV ,避免稀疏雷达点云的限制,感知摄像头与雷达融合！

智驾实验室 · 公众号 · · 2024-05-17 14:33

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

扫描上方二维码，加入【 智驾实验室 】交流群，

获取更多内容和资料

自动驾驶车辆的感知必须高效、鲁棒且具有成本效益。然而，摄像头在恶劣天气条件下不够鲁棒，激光雷达传感器成本高昂，而基于雷达的感知性能仍不如其他方法。已经提出了摄像头-雷达融合方法来解决这一问题，但这些方法受到雷达点云通常稀疏性的限制，并且常常是针对没有高度信息的雷达设计的。

作者提出了一种新颖的摄像头-雷达融合方法，称为双重视角融合 Transformer （DPFT），旨在克服这些限制。

DPFT利用低 Level 的雷达数据（雷达立方体）而不是处理后的点云，以尽可能保留更多信息，并在摄像头和地面平面进行投影，以有效利用具有高度信息的雷达并简化与摄像头数据的融合。

因此，DPFT在K-Radar数据集上展示了最先进的性能，同时表现出对恶劣天气条件的显著鲁棒性，并保持了较低的推理时间。

代码：https://github.com/TUMFTM/DPFT

1 Introduction

自动驾驶是一项有望提高公共道路安全并为以前无法使用的人提供移动能力的技术。然而，利用这项技术需要自动驾驶车辆在各种不同的环境条件下安全运行。这些条件包括日常驾驶情况，如夜间驾驶或在恶劣天气条件下驾驶，还包括自动驾驶车辆（AV）必须快速反应或在传感器故障后保持一般功能的关键情况。

大多数自动驾驶系统的感知主要基于摄像头或激光雷达（lidar）传感器。尽管摄像头传感器成本效益高，但它们依赖于环境光并且不提供深度信息。相比之下，激光雷达传感器能提供周围环境的精确测量，但成本较高。更重要的是，摄像头和激光雷达传感器都不够坚固，无法抵抗如雨、雾或雪等恶劣天气条件。另一方面，雷达（radar）传感器成本效益高，且能抵抗具有挑战性的环境条件，但由于其低空间分辨率和高噪声水平，尚未能提供与激光雷达或基于摄像头的感知方法相媲美的目标检测质量。

克服单个传感器技术局限性的一个可能解决方案是结合多种传感器模态，也称为传感器融合。然而，由于摄像头和雷达传感器之间的固有差异，如感知的维数（2D 对比 3D）、数据表示（点云对比网格）和传感器分辨率，传感器融合仍然具有挑战性。

在本文中，作者提出了一种新颖的摄像头和雷达传感器融合方法，用于提供一种鲁棒、性能好且成本低的3D目标检测方法。尽管之前已经进行过摄像头-雷达融合[77]，但先前的方法主要依赖于雷达点云数据，因此受到稀疏数据表示的限制，并面临将图像与点云数据结合的挑战。另一方面，仅利用原始雷达数据的融合方法仅依赖于以鸟瞰图（BEV）表示的雷达数据。

因此，它们一方面将图像平面与垂直BEV平面的数据融合在一起，另一方面又忽视了现代4D雷达传感器的优势。为了克服这些限制，作者提出的方法将摄像头数据与原始雷达立方体数据融合，以减轻传感器分辨率的差异，并从两种传感器模态的结构化网格表示中受益。

此外，它还利用了如图1所示的BEV和前视图视角的雷达数据。通过这种双重视角方法，作者创建了一个与摄像头图像平面相对应的数据源，以支持摄像头-雷达融合，并利用BEV平面的数据来利用所有传感器维度。最后但并非最不重要的是，DPFT不需要组合特征空间，而是直接从这些单独的视角 Query 3D目标，从而避免了由统一特征空间或原始数据融合引起的信息丢失。

总结来说，作者论文的主要贡献有三个：

作者提出了一种有效的双重视角融合方法，以简化摄像头-雷达融合，避免稀疏雷达点云的限制，并利用4D雷达传感器的优势。
作者首次提出了一种融合4D雷达立方体数据与图像数据的新方法，该方法不依赖于BEV表示来融合摄像头和雷达数据。
实验表明，DPFT在具有挑战性的K-Radar数据集上达到了最先进的结果，并且在与摄像头-激光雷达方法性能相当的同时，提供了更高的鲁棒性和更低的推理时间。

2 Related Work

提出的该方法结合了摄像头和雷达传感器的互补特性，以创建一种健壮、高效且成本较低的三维目标检测方法。然而，为了理解所提出的双视角融合 Transformer （DPFT）背后的动机，重要的是要了解单模态目标检测方法和现有数据集的概念及局限性。

Camera-Radar Datasets

在自动驾驶领域内有许多数据集，但其中大多数并不包含雷达传感器数据。nuScenes数据集仅提供3D雷达点云，并且因雷达数据质量有限而受到批评。RadarScenes数据集提供更高质量的雷达数据，但仅限于点云 Level ，并不提供目标标注。View-of-Delft和TJ4DRadSet数据集提供4D雷达数据及相应的边界框，但不包括原始雷达数据。

CARRADA、RADIATE和CRUW数据集是少数提供立方体 Level 雷达数据的数据集之一，但仅限于3D雷达数据，并不提供3D目标标注。RADIal数据集提供原始4D雷达数据，但最初仅包括2D边界框标注。尽管Liu et al . [38]最近添加了3D标注，但RADIal数据集范围有限，并不包括极端天气条件下的数据，而这正是雷达应用的主要动机之一。

基于这些原因，K-Radar数据集是唯一适合作者实验的数据集。该数据集本身包括来自4D雷达传感器的原始（立方体 Level ）雷达数据以及来自两个激光雷达传感器、4个立体相机、一个全球导航卫星系统（GNSS）和两个惯性测量单元（IMU）的数据。此外，它为来自58个不同驾驶场景的34994帧提供了3D标注边界框，并分为49.9%的训练数据和50.1%的测试数据。

Camera-based 3D Object Detection

基于相机的三维目标检测方法可以分为三大类：数据提升、特征提升和结果提升方法。在这些方法中，作者只关注单目三维目标检测。

数据提升方法直接将2D相机数据提升到3D空间以检测其中的目标。在这些方法中，伪激光雷达方法是最常用于将相机图像转换为3D点云的。此外，基于学习的方法可用于数据提升，甚至大多数特征提升方法可以直接应用于图像数据。

特征提升方法首先提取2D图像特征，然后将其提升到3D空间，作为预测3D目标的依据。在这一类别中，有两种主要的提升策略：一种是将特征从2D“推”（散布）到3D空间，另一种是从2D空间“拉”（采样）3D特征。

结果提升方法的特点是它们首先估计2D图像平面上目标的属性，然后将2D检测结果提升到3D空间。受到2D目标检测领域所用分类法的启发，这些方法可以进一步划分为单阶段和双阶段检测器。单阶段检测器直接从2D图像特征回归3D目标，通常具有快速推理速度的特点。这一类别的代表性方法是基于 Anchor 的检测器或 Anchor-Free 模型。双阶段检测器首先生成区域 Proposal ，然后对这些 Proposal 进行细化以预测3D目标。这一类别的方法使用几何先验或基于模型的先验来生成区域 Proposal 。

尽管多年来已经开发出了不同的策略，但基于相机的三维目标检测面临的最大挑战仍然是由于相机传感器无法直接测量深度信息而从2D到3D空间的提升。此外，相机传感器容易受到光照变化和恶劣天气条件的影响，这限制了它们在实际应用中的鲁棒性。

Radar-based 3D Object Detection

雷达传感器与相机相比，在恶劣天气条件下具有鲁棒性，不仅能够测量深度信息，还能通过多普勒效应测量强度和相对速度。这是因为雷达传感器通过主动发射无线电波信号并分析其响应来感知环境。然而，这种分析需要多个处理步骤，因此基于雷达的三维目标检测方法根据其操作的数据层面被分类。第一类方法直接在原始的模拟-数字转换（ADC）无线电波信号上操作。这些ADC信号然后通过离散快速傅立叶变换（DFFT）从时间域转换到空间域。得到的数据表示是一个离散但密集的雷达立方体，这是第二类检测方法的依据。最终，通过只考虑响应值高的数据点，可以进一步减少数据，从而得到稀疏点云表示，这是第三类（也是最常见的一类）方法的输入。

由于数据可用性有限、内存要求高以及数据格式抽象，基于原始ADC信号的方法很少见。即使杨等人[76]在RADIaI数据集上取得了有希望的结果，刘等人[38]也表明ADC数据并不比雷达立方体数据更有优势。因此，用神经网络替换DEFT的好处仍然值得怀疑。

利用雷达立方体数据的方法可以分为使用2D、3D或4D雷达数据的方法。利用2D雷达数据的方法使用范围-方位（RA）或范围-多普勒（RD）测量，而3D方法使用多个2D投影或整个范围-方位-多普勒（RAD）立方体。然而，上述提到的方法都不是用于3D，而仅用于2D目标检测，且这些方法都没有利用现代4D（3+1D）雷达传感器的俯仰信息。

基于雷达点云的方法是最常见的检测器类型，可以进一步分为网格、图和点基方法。网格基方法将点云空间离散化，从稀疏点云中导出一个规则网格。图基方法在点（顶点）之间创建连接（边）以利用图神经网络（GNNs）进行目标检测任务。最后，点基方法使用专门的网络架构直接在稀疏不规则的雷达点云中检测目标。

总的来说，基于雷达的目标检测方法在恶劣天气条件下具有鲁棒性，但尚未达到具有竞争力的性能值。这主要是由于雷达较低的空间分辨率、较高的噪声水平以及有限的捕捉语义信息能力所导致的。

Camera-Radar Fusion for 3D Object Detection

相机和雷达传感器互补的传感器特性使它们成为传感器融合应用的理想候选者。融合方法可以分为数据级、目标级和特征级融合方法。

数据级融合旨在直接结合两种传感器模态的原始数据。在这方面，Nobis等人[46]首次提出了一个相机-雷达融合模型，该模型将雷达点投影到相机图像中，并使用分层融合策略从中回归目标。另一方面，Bansal等人[2]将相机图像的语义信息投影到雷达点云上（类似于PointPainting），并在增强的雷达数据中检测目标。然而，由于传感器分辨率的不同，数据级融合伴随着大量信息的丢失，并且由于不同的数据表示和维度，这一过程具有挑战性。

目标级融合通过为两种模态分别使用两个独立的网络，并只结合它们的检测输出，来解决这些挑战。使用这种技术，Jha等人[28]融合了来自相机和雷达分支的2D目标，而Dong等人[16]将目标级与数据级融合方法相结合，在一个专有数据集上检测3D目标。最近，Zhang等人[80]将基于雷达的方法的输出与基于相机-激光雷达融合方法的检测结果相结合，在K-Radar数据集上取得了最先进的结果。然而，他们的方法仅略微优于雷达融合方法，这表明仅依赖相机和激光雷达数据，目标级融合的能力有限。这是因为目标级融合完全依赖于最终的检测输出，忽视了任何中间特征。因此，最终的检测质量在很大程度上取决于各个模块的性能，并没有充分利用互补的传感器特征。

特征级融合旨在通过首先从每个模态单独提取特征，然后在中间 Level 融合它们，并最终基于它们的组合特征空间预测目标，来结合这两种方法的优点。因此，它允许解决各个传感器的方面，并从它们独特属性的组合中受益。然而，找到一个合适的特征空间来结合这两种模态仍然具有挑战性。除了早期尝试在相机和雷达分支中结合区域Proposal或在图像平面上进行特征级融合之外，最近的方法主要集中在鸟瞰（BEV）特征表示上。

使用BEV特征表示，Harley等人[25]提出了一种将栅格化（" Voxel 化"）雷达点云数据与相机数据结合的方法，并在nuScenes数据集上超过了他们的相机 Baseline 。同样，Zhou等人[83]在BEV空间中将栅格化和时间编码的雷达点云数据与图像数据融合，并报告了检测质量的提高。然而，这两种方法仅利用了3D雷达数据，没有考虑到现代4D雷达传感器。为解决这一问题，Xiong等人[74]以及Zheng等人[81]提出了一种在BEV空间融合相机和4D雷达点云数据的方法。尽管在TJ4DRadSet和View-of-Delft数据集上取得了良好的结果，但这些方法仅依赖于雷达点云数据。然而，雷达点云数据不仅由于其不规则的稀疏数据结构难以融合，而且包含的信息量在信号处理过程中显著减少，这对于准确感知环境是不利的。

为了防止这种信息的丢失，Liu等人[38]提出了一种将原始雷达数据与相机图像数据融合的方法，类似于DPFT。然而，他们的方法依赖于中间的BEV表示，这增加了对计算资源的需求，并限制了他们编码各种3D结构的能力。此外，他们的方法没有利用现代4D雷达传感器的俯仰信息，而仅依赖于在距离-方位（BEV）平面上的雷达数据。为了克服这些限制，作者提出了一种不需要统一特征表示并利用所有雷达维度的方法。

3 Methodology

双视角融合 Transformer （DPFT）旨在解决多模态传感器融合的主要挑战，这些挑战由感知维度的差异、数据表示以及传感器分辨率的不同引起。

首先，它利用原始的立方体级雷达数据以尽可能保留更多信息，并降低相机与雷达数据之间的分辨率差异。其次，立方体级雷达数据以结构化网格表示形式给出，从而避免了点云与图像数据的融合。第三，从4D雷达立方体创建了两个投影。一个是平行于图像平面的，以支持相机与雷达之间的融合；另一个是垂直于它的，以保留互补的雷达信息。此外，模型设计旨在实现低推理时间，并且设计时两种模态之间没有相互依赖，这样即使一个传感器模态失败，整个模型仍然可以运行。然而，为了实现这一点，需要多个步骤，如图2所示并在下面进行解释。

Data Preparation

输入数据本身对于多模态传感器融合提出了最大的挑战，这是由于数据分辨率和维度的差异。摄像头传感器将环境投影到2D图像平面上，而雷达传感器通常在距离-方位（BEV）平面上捕获测量数据。广义来说，这两个感知平面是垂直的，由于它们之间的交叠很小，这使得融合变得困难。为了解决这个问题，DPFT建立在具有三个空间维度和一个多普勒维度的4D雷达数据上。

这使得作者能够在两个数据源之间建立物理关系。然而，处理4D数据并不理想，原因有两点：首先，由于缺少深度信息，将摄像头数据提升到3D空间是具有挑战性的；其次，处理高维数据对计算资源的需求很高。为了解决这个两难问题，雷达数据被投影到距离-方位平面以及方位-高度平面上。这种方式，作者能够创建与摄像头输入数据相补充的数据源，同时减少数据大小，并在图像和BEV平面之间建立物理关系以回归3D物体。

为了解决与数据格式分歧和传感器分辨率相关的挑战，DPFT基于原始（立方体 Level ）雷达数据。通常，雷达数据作为每样本具有几百个点的非规则、稀疏点云给出，而摄像头数据以具有数百万像素的结构化网格格式表示。这两种数据格式的融合不仅困难，而且与高信息损失或计算开销有关。此外，雷达点云是多阶段信号处理链（在2节中解释）的结果，在此过程中丢失了很多信息，这恶化了感知性能。因此，DPFT利用原始（立方体 Level ）雷达数据，避免信息丢失，创建统一的数据表示，并降低数据分辨率之间的差异。

遵循这个想法，4D雷达立方体被投影到距离-方位（RA）和方位-高度（AE）平面上。这些投影的特征被选为振幅和多普勒值的最大值、中位数和方差。这些特征的选择基于文献以及对数据集的小子集和简化模型架构的先导敏感性分析。此外，雷达立方体的第一和最后三个单元被切断，以避免在AE投影中产生DEFT伪影。除此之外，图像数据使用双线性插值重新缩放为512像素的输入高度，以降低对计算资源的需求。

Feature Extraction

多模态输入数据被送入连续的 Backbone 网络和颈网络模型，以推导出所需检测任务的表达性特征。每个输入都被送入一个单独的 Backbone 模型，从而形成三个并行的 Backbone 网络。 Backbone 网络的目的是提取表达性强、高维度的特征，以便后续进行传感器融合，这里选择的架构是ResNet。根据目前的最先进技术，从中间 Backbone 层提取多尺度特征图（以检测不同尺度的目标），并使用跳跃连接直接将输入数据传递给颈模型。

更具体地说，对于相机数据使用ResNet-101，而对于两个雷达数据输入使用ResNet-50。选择较大的图像 Backbone 网络是因为与雷达数据相比，图像数据的分辨率更高。所有 Backbone 模型都在ImageNet数据库上进行了预训练，并在雷达 Backbone 网络前增加了一个1x1卷积层，以使其与雷达数据的六个特征维度兼容。

颈模型负责特征对齐并确保同质特征维度。它们对多尺度特征图的特征维度以及传感器原始数据进行对齐，这是后续传感器融合所必需的。此外，它们还在四个特征图之间交换信息（来自三个 Backbone 模型和原始输入数据）。为此，使用了具有16维输出特征的特征金字塔网络。

Sensor Fusion

作者的传感器融合模型允许直接从各个输入 Query 融合特征，并从它们中检索物体。因此，不需要组合的中间特征空间。为了实现这一点，作者使用了多头可变形注意力，以关注特征图上预定义参考点周围固定数量的关键点，而不管它们的空间大小如何。通过单个线性层融合各个输入收集的注意力特征，并使用这些生成的特征进行最终的物体检索。

参考点是预定义的3D Anchor 点（ Query ）投影到不同的2D特征图上的结果。3D Anchor 点初始化为极坐标空间中均匀分布的点，覆盖整个传感器视场（FoV），并用从均匀分布中采样的特征值初始化。这种方法允许融合多个传感器和不同的模态，只要能够将 Query 点投影到传感器特征图上即可。

Object Detection

检测Head基于融合的 Query 特征预测目标边界框，并且与融合模块分离以允许进行多任务应用。遵循[71、9、87]的做法，作者使用了一种交互式输出精细化过程，其中预测的边界框中心点和之前的 Query 特征用于另外三个注意力周期。因此，作者得到了由其3D中心点、大小、朝向角和类别标签表示的目标边界框。这是通过一个由三个连续的线性层组成的检测Head以及每个边界框组件的特定激活函数实现的。

由于中心点的值范围不受限制，其预测使用了恒等函数；边界框大小使用了ReLu 激活函数；朝向角通过双曲正切函数预测。这是由于朝向角不是直接预测，而是将其分解为和组件，因为研究表明模型训练从连续的输出空间中受益。类别标签通过sigmoid激活函数预测，并在所有类别中选择最大值。

Model Training

模型训练使用了DETRE提出的集合到集合的损失，并采用一对一匹配。损失函数本身由用于分类的Focal Loss和用于所有边界框组件的L1回归损失组成。这两项的损失权重被设置为1，因此最终的损失函数可以写成：

优化方案采用AdamW优化器，学习率为，并在整个训练过程中保持恒定学习率。所有模型都使用批大小为4进行训练，最多训练200个周期（约72小时）。