专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

MaskFuser : 端到端自动驾驶联合多模态令牌的掩蔽融合，实现图像与激光雷达的深度融合！

智驾实验室 · 公众号 · · 2024-08-17 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

当前的多模态驾驶框架通常通过在单模态分支之间使用注意力机制来融合表示。然而，现有的网络仍然抑制了驾驶性能，因为图像和激光雷达分支是独立的，缺乏统一的观察表示。

因此，本文提出了MaskFuser，它将各种模态标记化为统一的语义特征空间，并为在驾驶环境中的进一步行为克隆提供联合表示。在统一的标记表示下，MaskFuser是首次引入跨模态 Mask 自动编码器训练的工作。Mask 训练通过在 Mask 标记上的重建增强了融合表示。

在架构上，提出了一种混合融合网络，结合了早期融合和晚期融合的优势：在早期融合阶段，通过在分支之间执行单调到BEV翻译注意力来融合模态；

晚期融合是通过将各种模态标记化为统一的标记空间并在其上共享编码来执行的。MaskFuser在CARLA LongSet6基准评估中分别达到了驾驶得分49.05和路线完成率92.85%，比之前的 Baseline 提高了1.74和3.21%。

引入的 Mask 融合在损坏的感官输入下提高了驾驶稳定性。在感官 Mask 比例分别为25%、50%和75%的情况下，MaskFuser在驾驶得分上分别超过了之前 Baseline 的最佳表现6.55（27.8%）、1.53（13.8%）和1.57（30.9%）。

I Introduction

最近的自动驾驶任务趋势可以分为流水线式架构和端到端（E2E）架构。流水线式架构将驾驶分解为一系列模块任务，包括定位，场景重建，规划，以及控制。端到端驾驶在中介特征表示状态上应用状态到动作的模仿[5]或强化学习，以指导智能体在给定的驾驶环境下正确地行为。

多模态感官融合最初是通过 Pipeline 方法引入的[27, 28]，以增强特定感知任务的表现，如3D目标检测[13, 29]，深度估计[30, 31]和实例运动预测[32, 33]。

这些方法利用模态之间的紧密几何对应关系，通过将特征投射到几何统一特征空间中来执行融合，其中，鸟瞰图（BEV）[13, 29, 30, 34, 35, 36]强调自我关系，而范围视图（RV）强调语义感知。

然而，这些方法并不完全适合全面的端到端驾驶任务。ST-P3[25]提出通过多阶段几何感知和运动预测吸收架构先验知识。TransFuser[27]观察到，纯几何融合会阻碍复杂城市端到端驾驶的综合表现，因为几何转换可能会丢失驾驶的关键信息1。因此，TransFuser[27]，接着是MMFN[28]和Interfuser[41]，提出了双流结构，该结构分别利用独立的CNN[42, 43]分支处理相机和激光雷达。

通过应用 Transformer 层在不同模态之间的元素注意力来实现融合。然而，这些方法实际上是不同模态间通过注意力进行特征交换，其中联合模态表示和特征对齐尚未被研究。为了进一步增强联合特征表示，作者提出了 MaskFuser ，一个混合多模态融合框架，通过将不同模态标记化为统一的语义空间来获得联合表示。

混合形式指的是MaskFuser将早期融合和晚期融合依次结合，如图1所示。首先，将分离的编码器分支应用于图像和激光雷达模态以提取低级特征。与之前的工作[27, 28]不同，MaskFuser引入了单调到BEV转换（MBT）注意力进行早期融合。

MBT注意力应用于分离的早期分支之间，通过几何投影丰富特征质量。然后，将融合特征标记化为标记，并连接到一个统一的标记空间。作者提出在这些来自不同模态的标记上执行晚期融合，通过应用共享 Transformer [44, 45, 46]编码器。通过将模态标记建模为语言词汇，所提出的标记化共享编码增强了联合表示，而不仅仅是分支间应用特征交换。

在给定联合 Token 表示的基础上，MaskFuser进一步引入了 Mask 重建预训练[48]（图1）。作者在共享编码器之前随机 Mask 了的 Token ，每个模态的 Token 有均等的机会被 Mask 。可见 Token 被迫通过考虑 Token 空间内的空间关系和跨模态连接来重建完整的联合 Token 序列。

联合 Token 序列通过预测原始的多感官输入进行监督。同时， Mask 的 Token 通过辅助任务进行监督，以预测部分可见 Token 下的BEV图[29]，语义分割图[49]和深度图[30]。

MaskFuser从三个方面增强了驾驶上下文的表示：

具有共享编码的联合 Token 表示将多个模态对齐到一个统一的语义空间，并带来更深入的特征融合。
Mask Token 重建迫使编码器在联合表示中保持丰富的细节，这对于在复杂城市环境中进行驾驶模仿至关重要。
对部分可见 Token 的训练增加了在感官受损条件下的驾驶稳定性。在CARLA模拟器中的LongSet6基准评估中，MaskFuser达到了驾驶得分和路线完成率，分别比以前的融合方法提高了和。对于部分受损的感官输入，MaskFuser相对于先前的 Baseline 分别提高了( ) ，，，给定的感官 Mask 比率为，和。消融研究对MaskFuser的每个组件进行了详细分析，以及对早期和晚期融合的讨论。

MaskFuser的贡献可以分为三个方面：

MaskFuser是首个在驾驶上下文中提出 Mask 融合的工作。它通过 Mask Token 重建训练增强了在受损感官输入下的感知细节和驾驶稳定性。
MaskFuser提出了一个混合网络，具有单调到BEV转换注意力和共享Transformer编码器，在统一 Token 表示上进行E2E驾驶。
实验结果表明，MaskFuser可以改善驾驶得分（DS）和路线完成率（RC）和。在 Mask 感官测试期间，DS和RC的改进分别为和。

II Related Works

模仿学习用于端到端驾驶： 对于端到端的自动驾驶，先前的研究呈现了一种“分解后再构建”的形式。早期的探索，如ALVINN [50]，DAVE [51]模型简化了输入的单视图相机与方向盘或油门角度之间的投影关系。在这个阶段，流行的形式是移除人类先验知识，给网络一个更直接的学习目标，以增强对完全监督行为克隆的拟合能力。然而，在早期，感官输入是受限的，而引入了多种模仿学习方法来提高行为克隆的数据质量。

随后，相机的使用从单一视图扩展到多视图，以增加规划的稳定性。最新的研究开始重新引入先验知识以提高驾驶性能。WOR [56] 和 MARL 建议，引入相关视觉任务（如检测）的预先训练知识可以提高模型性能。NEAT [6] 在不同的相机视图间引入了注意力模块以增强特征质量。ST-P3 [25] 结合了 Pipeline 方法中的人类先验模块设计，以增加驾驶的合理性。

用于驾驶任务的多模态融合： 然而，单一的相机传感器容易受到光照条件和遮挡的影响。后来的研究 [61, 62, 63, 64] 将感官模态扩展到激光雷达、雷达和开放地图，以提高驾驶的稳定性。多模态融合自然引起了关注。大多数先前的模态融合方法是为特定的感知任务设计的，如3D目标检测 [13, 29]，深度估计 [30, 31]，实例运动预测 [32, 33]。特别是对于目标检测，引入人类选择的中介表示，即鸟瞰图（BEV）特征图，极大地提高了在驾驶场景下的平均精度。BEVFusion [29] 通过使用完全独立的编码器，将激光雷达与图像特征通过几何投影融合到同一BEV特征空间中。

然而，Transfuser [27] 观察到，纯几何融合表示阻碍了综合且复杂的城市端到端自动驾驶的性能。MMFN [28] 跟随融合策略并将模态扩展到雷达和开放地图，采用早期融合策略。UniAD [65] 提出利用多个 Pipeline 模块到一个统一的自动驾驶网络中，结合了端到端方法和 Pipeline 方法的优点。

GenAD [66] 进一步在UniAD的基础上引入了标记化的潜在空间学习和基于生成的预测。先前的方法中没有探索使用 Mask 图像模型来增强联合表示的特征质量。所提出的方法可以为这些驾驶框架提供更好的特征提取器。

III Methodology

Overview

问题设置： MaskFuser遵循之前广泛接受的端到端驾驶设置（[28, 27, 7]），目标是完成给定路线，同时安全地对其他动态代理、交通规则和环境条件作出反应。因此，目标是学习给定观察到的策略π。由于MaskFuser更加强调多模态融合，作者选择 模仿学习（IL） 方法来学习策略。目标是通过模仿专家π*的行为来获得策略π。给定一个专家，可以通过让专家执行类似的路线来收集学习数据集D={（X^i,W^i）}，其中X^i={(x^i_im,x^i_Li) t} {t=1}^T表示当前状态的图像和激光雷达感官观察，W={(x_t,y_t)}_{t=1}^T表示专家航迹的航点。这里，x_t,y_t表示在自我车辆（BEV）空间中的2D坐标。因此，学习目标可以定义为方程1。

其中，是在方程5中定义的航点损失，而是通过待学习的策略π给定观察预测的航点。

结构： 在本文中，策略π(X)是通过混合融合网络（第III-B节）和航点预测网络（第III-E节）的结合实现的，其中融合网络将多模态感官输入X转换为语义标记Fs，航点网络给定Fs预测未来的目标点W。跨模态掩蔽（第III-C节）应用于语义标记Fs，通过掩蔽感官重建进一步增强特征质量。然后在航点W决策上应用PID控制器I（第III-F节），并通过a=I(W)将其分解为实际控制，即转向、油门和刹车。

Hybrid Fusion Network

这一部分提供了MaskFuser的结构概述。MaskFuser提出了一个混合网络，如图1所示，它结合了早期融合和晚期融合的优点。该网络由两个阶段组成。

早期融合： 在第一阶段，作者分别应用两个独立的CNN分支从单调图像和LiDAR输入中提取浅层特征。对于图像分支，MaskFuser将三个前视摄像头输入，每个输入60 Fwo，连接成一个单调视图，并重新塑形为的形状。对于LiDAR分支，MaskFuser使用PointPillar [61]重新处理原始LiDAR输入，生成具有形状的BEV特征。由于低级特征仍然保留强烈的几何关系，分离的编码器可以提取紧凑的局部特征表示，并减少干扰。一种新颖的单调到BEV转换（MBT）注意力被应用于通过跨模态辅助丰富每个模态。MBT注意力将图像和LiDAR特征转换到BEV特征空间，并相对于先前的逐元素方法执行更精确的空间特征对齐。

晚期融合： 在第二阶段，网络分别将来自图像和LiDAR流的特征图标记化为语义标记，分别如图1中的绿色和蓝色所示。晚期融合是通过直接在连接的标记表示上应用共享的 Transformer 编码器来实现的。具有位置嵌入的共享编码器可以强制来自不同模态的标记对齐到一个统一的语义空间。此外，通过将多感官观测视为语义标记，作者还可以进一步引入下面提到的 Mask 自动编码器训练。

Iii-B1 Early Fusion: Monotonic-to-BEV Translation (MBT)

注意力通过引入人类先验知识（BEV变换）更精确地执行跨模态注意力。受到Monotonic-Translation [67]的启发，作者将翻译建模为一个带有相机内参矩阵的序列到序列过程。MBT注意力的详细结构如图2所示，其中来自图像流的特征图沿宽度维度 Reshape 为图像列。列向量通过具有多头自注意力的 Transformer 层投射到一组中介编码 \mathbf{h}_{i}$视为要翻译的表示范围视图信息的键和值。

生成一个网格矩阵，指示目标BEV空间的期望形状。作者在网格内每个径向方向生成位置编码，深度为。网格位置被标记化为 Query 嵌入，并按方程3中定义的半径方向2 Query ，并生成翻译后的特征图。

其中是按维度正规化的缩放点积[68]。然而，由于单调视图只表示特定视场内的信息，作者应用一个采样过程，根据相机内参矩阵确定的视场内采样点，成为BEV特征图。翻译后的特征图和来自激光雷达的特征图沿宽度和深度 Reshape 为向量，并连接成序列。在上应用 Transformer 层，以执行维度中每个 Token 之间的自多头注意力([68])。

Iii-B2 Late Fusion: Unified Tokenization

在早期融合网络之后，作者打算将来自两种模态的特征对齐到一个统一的语义标记空间中，正如图1所示，作者将每个特征段视为一个语义“单词”。为了保持这些标记之间的空间关系，作者使用了2d位置编码[46]。通过将位置嵌入添加到段嵌入中，来指示位置信息来自于范围视图或BEV特征空间。不同模态的特征图被标记化并拼接成统一标记， Patch 大小为，通过向标记中添加。在统一标记序列上应用了一个4层 Transformer 编码器，通过设置 Query 、键和值。由于共享 Transformer 编码的后期融合，MaskFuser可以通过逐层引入更深层次的特征交互，在每个语义标记层之间。后期融合输出了进一步的航点预测所需的融合特征图序列。

Masked Cross-Modality Pretraining

图1所示的晚期融合通过 Mask 自动编码器（MAE [48]）重建预训练得到增强。Mask 融合策略对驾驶任务有三个好处：1) 对联合 Token 的 Mask 跨模态重建引入了_感知的自监督学习_。它可以大幅增加带有原始感官输入的训练数据。2) 重建强制联合表示保持丰富细节，这对于在复杂城市环境中的驾驶模仿至关重要。远处的诸如小交通灯之类的细节可以帮助克服忽略红灯的失败案例[27]。3) 在部分可见 Token 上的训练增加了感官受损情况下的驾驶稳定性。

Mask 应用于具有 Mask 比例的多模态联合特征图，并记录用恢复id的 Mask 位置。由于作者使用直接 Transformer 结构[46]，作者只将可见特征 Token 发送到编码器。编码器将可见特征处理成后，根据恢复id在空白位置填充 Mask 嵌入，将特征恢复到全长，如图1所示。基于完成后的特征图，应用解码 Transformer [48]以产生解码特征 Token 。给定解码特征，作者按位置将其拆分为恢复的图像 Token 和激光雷达 Token ，如。两个MLP层分别应用于两组 Token 以重建原始感官输入，如等式4中定义。

其中和表示通过解码器预测的感官输入。Mask 自动编码器训练是无监督的，因此MaskFuser可以利用更大的训练集来增强特征质量。

Auxiliary Tasks

作者遵循端到端驾驶任务的基本设置，引入辅助任务以增加对复杂驾驶场景的理解。作者在主论文中介绍了辅助任务结合训练目标的技术细节。如图3所示，作者根据原始位置将语义标记分为图像标记和BEV标记。辅助任务分别应用于这两种标记。

图像标记： 图像标记包含来自范围视图的丰富信息。通过结合2D深度估计和2D语义分割作为辅助任务，对图像标记进行监督，这对于基于图像的端到端驾驶已经是一种有效的途径。作者使用与[27, 69]的Transfuser Baseline 相同的解码器架构，从图像分支特征中解码深度和语义。深度输出通过损失进行监督，语义通过交叉熵损失进行监督。对于分割任务，它包含7个语义类别：(1) 未标注，(2)车辆，(3)道路，(4)红灯，(5)行人，(6)车道线，和(7)人行道。

BEV标记： 作者在BEV标记上预测BEV分割和BEV边界框预测任务。根据在标记之前提供的原始位置，BEV标记被恢复到一个完整的特征图。对于BEV分割，作者预测一个三通道预测任务，包含道路、车道线和其它类别。这鼓励中间特征编码有关可行驶区域的信息。地图使用与LiDAR输入相同的坐标框架。预测输出从恢复特征图上的卷积解码器的特征图中获得。预测图的大小为，以提高计算效率。

BEV标记进一步通过车辆检测任务进行增强。CenterNet解码器[70]被用作检测Head。具体来说，它从恢复的BEV特征图预测一个位置图。这个任务的2D目标标签在每个目标中心的训练数据集上使用高斯核进行渲染。遵循现有工作[71, 27]，检测被分解为两个阶段，从粗到精的形成。为了预测粗略的方向，作者将每个 GT 车辆相对于偏航角离散化为12个大小为30 的箱子，并通过每个像素的12通道分类标签

MaskFuser : 端到端自动驾驶联合多模态令牌的掩蔽融合，实现图像与激光雷达的深度融合 ！

正文