专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

METDrive 多模态时控端到端自动驾驶！

智驾实验室 · 公众号 · · 2024-10-27 00:48

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

近年来，多模态端到端自动驾驶取得了令人鼓舞的进展。通过将更多模态集成到端到端网络中，系统的对驾驶环境既静态又动态的理解得到了加强，从而提高了自动驾驶的安全性。

在本文中，作者提出了一种端到端系统 METDrive，该系统利用包括自车状态中的旋转角、转向、油门信号和路点向量的嵌入时间序列特征的时序指导。

从感知传感器数据和自车状态时间序列特征中衍生的几何特征与所提出的时序指导损失函数共同指导路点预测。

作者在CARLA 排行榜的 Longest6 基准测试中评估了 METDrive，实现了驾驶得分 70%，路线完成得分 94%，违规分数 0.78。

I Introduction

多模态端到端自动驾驶系统在提高自动驾驶车辆的鲁棒性和可靠性方面具有显著前景[1, 2]。传感器融合，将来自摄像头和激光雷达等多种来源的数据集成在一起，已经成为了推进这些系统的基石[3, 4]。

然而，从感知传感器获得的原始数据通常包含大量无关的目标，这些目标并不会显著影响自动驾驶车辆的运动规划。因此，依赖这些传感器融合的特征的端到端模型的输出可能会受到这类无关检测的影响[5, 6]。作者发现，现有的端到端方法没有包含与自身相关的状态，表现出在某些场景下的缺陷和失败案例。因此，在本文中，作者提出将额外的与自身相关的特性作为向导添加到编码器中，可以作为缓解这一问题的可行解决方案。为此，作者提出了METDrive，这是一个融入了时间指引的新颖端到端系统。

此外，一些关键的与自身相关的状态，如旋转角度、转向输入、油门输入和兴趣点，通常以不同的模态表示，与原始图像和激光雷达点云不同。为进一步扩大端到端自动驾驶系统的功能，作者提出了一种新颖的方法，将这些与自身相关的状态编码为时间序列特征。通过将这些时间戳作为如1所示的时间线索，作者旨在指导感知传感器提取的几何特征，从而提高系统做出明智决定的能力。这种集成不仅增强了系统对其环境的理解，而且使运动规划更加准确和有意义。

CARLA领导栏[7]是一个在线评估平台，用于测试在CARLA模拟器中运行的自动驾驶代理的性能。具体来说，Longest6基准测试包括设计有扩展路线的测试，旨在测试自动驾驶系统的耐久性和可靠性。为了评估作者的系统在长期任务上的表现，作者选择了Longest6基准进行评估。

根据上述洞察，本文的贡献可总结如下：

作者观察到，现有的端到端模型没有将 ego-vehicle 状态作为输入，这对于运动规划任务至关重要。作者证明了这些模型可能会在长期场景中遇到失败案例。
作者提出了一种时间序列数据编码器，处理包括旋转角度、转向信号、油门信号和兴趣点向量在内的与自身相关的状态，以指导来自所有传感器融合特征的一致性，从而优化相邻时间步的兴趣点预测的一致性。根据这样的设计，具有时间指引的METDrive新颖端到端系统被提出。
在CARLA最长6项基准测试中，作者的 Proposal 系统相对于其他最近系统实现了更好的驾驶分数、路线完成和违规分数。

II Related Work

在自动驾驶领域，尤其是在端到端学习系统中，利用深度学习架构在提高车辆导航和决策过程中取得了显著的进展 [8, 9, 10]。以下部分回顾了自动驾驶汽车模型架构的最新进展，重点关注它们对该提出的模型的贡献和关联性。

Learning from All Vehicles

一个在端到端系统中实现运动规划的关键进步是Chen等人提出的从环境中所有车辆学习的概念[11]。他们的模型，结合了感知模块、运动规划器和水准控制器，采用了三段级联模块化流水线。这种方法通过在所有周围车辆的轨迹上进行训练，而不是仅仅在自车轨迹上，显著提高了运动规划的泛化能力。模型的结构设计旨在生成 vehicle-invariant特征，以增强运动规划器在不同车辆之间预测未来轨迹的能力。

Trajectory Prediction and Multi-Modal Fusion

最近，轨迹预测成为模型研究中的一个核心关注点，其目标为生成车辆未来路径的准确途径点。由Chitta等人提出的TransFuser模型采用了多模态融合 Transformer ，将RGB图像和LiDAR数据相结合。这种架构使得模型可以利用不同传感器输入的互补性，从而提高途径点预测的准确性。TransFuser模型在 Transformer 架构内部利用自注意力机制，特别有效地将全局上下文集成到决策过程中。

Addressing Biases in Imitation Learning

一个在基于模仿学习的自动驾驶模型中面临的重大挑战是隐藏的偏见，特别是在横向恢复和纵向控制方面。Jaeger等人[13]通过识别依赖于目标点跟踪和多模态路标预测的当前最先进模型中存在的偏见，对这些进行了研究。他们提出的TransFuser++模型通过结合架构修改和训练策略，通过消除这些偏见，在基准任务上的驾驶性能得到了提高。

Combining Trajectory Planning with Control Prediction

近年来，一些方法也探索了轨迹规划与控制预测的集成。例如，吴等人[14]提出了一种新颖的结构，将这两种范式集成到单个学习 Pipeline 中。该模型使用一个多步控制预测分支和一个轨迹规划分支来指导，这使得控制决策更加准确和考虑语境。这种方法在处理复杂驾驶场景中特别有益，因为在这些场景下，直接预测控制动作可能导致次优行为。

Alignment with Student's Perception and Teacher's Planning

贾等人在[15]中提出了一种新颖的方法，通过使用冻教师模型进行规划，而学生模型则专注于感知。论文提出了一种适配模块，将学生的感知输出与教师的规划输入对齐，解决了预测数据和真实数据之间的分布差异问题，采用了基于动作引导的特征学习，并采用屏蔽策略来优化学习过程。

[15] Jia et al. 引入了一种端到端的自驾方法，利用冻教师模型进行规划，学生模型仅关注感知。本文提出了一个适配模块，将对学生的感知输出和对教师的规划输入进行对齐，以解决预测数据和真实数据之间的分布差距问题，实现了一种基于动作引导的特征学习和采用屏蔽策略来优化学习过程。

III Temporal Guidance for End-to-end Autonomous Driving

利用更多模态实现模仿学习 。作者通过在CARLA最近的全端到端系统中进行的实验，评估了从其论文提出的预训练权重进行的长期CARLA城镇路线。对于TransFuser++ [13]的性能，从实验中图2可以看出，在交通条件明确的情况下，自身车辆在绿灯前突然停止。通过更多的观察，作者发现，在一些情况下，代理的行为可能根据模型的训练标签遇到失败。为了解决这些问题，作者提出的系统旨在编码更多的模态，如自身车辆状态，以提供增强的运动规划任务指导。

与其他现有的端到端系统相比，作者的系统还包含了与自身相关数据的输入，从而增强了系统利用时间信息的能力。具体来说，作者将与自身相关状态视为时间序列数据，使系统能够捕捉随着时间变化自身车辆状态的动态演进[17]。

因此，作者的系统架构分为两个互补分支：感知分支，该分支处理来自相机的传感器数据和激光雷达的传感器数据，将其转化为代表环境空间布局的几何特征；时间分支，该分支处理与自身相关数据作为时间序列输入，从而捕捉自身车辆状态的动态。如图3所示，作者说明了作者提出的做法，其中几何特征和时间特征首先通过各自的编码器进行提取。这些编码的特征随后通过门控循环单元(GRUs)[18]融合并处理，以方便具有时间引导的路线点预测。

感知分支 。感知分支包括图像和激光雷达编码器，两者基于ResNet，从传感器数据中提取几何特征[19]。使用注意力机制的特征融合模块用于有效整合这些特征[20]。通过注意力机制的融合，几何特征与来自图像和激光雷达数据的时间输入相结合，以确保与时间序列数据的后续融合时的一致性[21, 22]。

时间分支 。补充自身车辆的旋转角度θ、转向ψ、油门u信号以及目标点之间的归一化向量( )的编码。为了明确横向和纵向特征从而获取单维时间序列信息，这些时间信号在自身车辆坐标系内分解为水平和垂直方向进行标记化。为了获取嵌入的水平标记，其中为批量大小，输入序列数据通过位置和标记嵌入进行处理，如下所示：

在序列中，位置嵌入用于确保具有索引的编码器在每个元素的位置上都有唯一的标识。由以下方程定义：

标记词嵌入

METDrive 多模态时控端到端自动驾驶 ！

正文