HE-Drive：利用视觉-语言模型实现类人端到端驾驶

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-26 00:48

正文

24年10月来自地平线、香港大学、中科院大学和北京交大的论文“HE-Drive：Human-Like End-To-End Driving With Vision Language Models”。

HE-Drive是一个以人为本的端到端自动驾驶系统，可生成时间一致且舒适的轨迹。最近的研究表明，基于模仿学习的规划器和基于学习的轨迹评分器可以有效地生成和选择与专家演示非常相似的准确轨迹。然而，这样的轨迹规划器和评分器面临着生成时间不一致和不舒服轨迹的困境。为了解决上述问题， HE-Drive 首先通过稀疏感知提取关键的 3D 空间表示，然后将其作为基于条件去噪扩散概率模型 (DDPM) 的运动规划器的条件输入，以生成时间一致性的多模态轨迹。随后，视觉-语言模型 (VLM) 引导的轨迹评分器会从这些候选轨迹中选择最舒适的轨迹来控制车辆，从而确保类似人类的端到端驾驶。实验表明，HE-Drive 不仅在具有挑战性的 nuScenes 和 OpenScene 数据集上实现了最先进的性能（平均碰撞率比 VAD 降低了 71%）和效率（比 SparseDrive 快 1.9 倍），而且还在现实世界数据上提供最舒适的驾驶体验。

端到端自动驾驶

端到端自动驾驶旨在直接从原始传感器生成规划轨迹。在该领域，进展已根据其评估方法分为：开环系统和闭环系统。在开环系统中，UniAD（Hu，2023a）提出了一个统一的框架，将全栈驾驶任务与查询统一接口集成在一起，以改善任务之间的交互。VAD（Jiang，2023a）提高了规划的安全性和效率，这从其在 nuScenes 数据集上的表现可以看出，而 SparseDrive（Sun，2024）利用稀疏表示来减轻模块化系统固有的信息丢失和错误传播，从而提高任务性能和计算效率。对于闭环评估，VADv2（Chen，2024）通过概率规划推进了矢量化自动驾驶，使用多视图图像生成车辆控制的动作分布，在 CARLA Town05 基准中表现出色。

用于轨迹生成的扩散模型

扩散模型最初在图像合成中受到推崇，现已被巧妙地重新用于轨迹生成。基于势（potential）的扩散运动规划（Luo，2024）采用学习的势函数为杂乱环境构建适应性运动规划，进一步增强了该领域，展示了该方法的可扩展性和可迁移性。 NoMaD (Sridhar，2024) 和 SkillDiffuser (Liang，2024) 都提出统一的框架，分别简化面向目标的导航和基于技能的任务执行，其中 NoMaD 实现改进的导航结果，而 SkillDiffuser 实现可解释的高级指令跟踪。总之，扩散模型为基于模仿学习的端到端自动驾驶轨迹规划框架提供了一种有前途的替代方案。由于固有的因果混淆，模仿学习模型可能会错误地将驾驶员的行为归因于错误的因果因素。相比之下，扩散模型可以通过学习潜空间中场景特征和驾驶员行为的联合分布来更好地捕捉潜因果关系，从而使模型能够正确地将真实原因与适当的动作联系起来。

用于轨迹评估的大语言模型 (LLMS)

轨迹评分 (Fan，2018) 在自动驾驶决策中起着至关重要的作用。基于规则的方法 (Treiber，2000) 提供了强大的安全保障，但缺乏灵活性，而基于学习的方法 (Chitta，2021；Prakash，2021) 在开环任务中表现良好，但在闭环场景中表现不佳 (Treiber，2000；Dauner，2023)。最近，DriveLM (Sima，2023) 将 VLM 集成到端到端驾驶系统中，通过感知、预测和规划问答对对图结构推理进行建模。然而，大型模型生成的结果可能包含幻觉，需要进一步的策略才能在自动驾驶中安全应用。 VLM 的出现引发了一个问题：VLM 能否根据轨迹评分器自适应地调整驾驶风格，同时确保舒适度？

如图所示：HE-Drive以多视角传感器数据作为输入，并输出复杂场景下的最佳驾驶路径。和UniAD、VAD 1/2、OccWorld和GenAD的比较，即性能、效率和舒服度。

HE-Drive 首先采用视觉编码器 (He et al., 2016) 从输入的多视角摄像机图像中提取多视角视觉特征（表示为 F）。随后，稀疏感知器 (Sun et al., 2024) 同时执行检测、跟踪和在线映射任务，从而提供更高效、更紧凑的周围环境 3D 表示 Θ（如图所示）。

上图展示了基于扩散的运动规划器的整体流程。采用基于 CNN 的扩散策略（Chi，2024；Ze，2024）作为基础，该策略由条件 U-Net 组成，该 U-Net 由 1D 卷积层、上采样层和 FiLM（特征线性调制）层（Perez，2018）组成。

运动规划器扩散策略：如图所示，采用条件去噪扩散概率模型 (DDPM)，这是一种通过使用变分推理训练的参数化马尔可夫链定义的生成模型，用于对条件分布 p(A/t|O/t) 进行建模。DDPM 包括一个前向过程，该过程逐渐将高斯噪声添加到输入数据中，将其转换为纯噪声，以及一个反向过程，该过程迭代地对噪声数据进行去噪以恢复原始数据。

具体来说，DDPM 的输入条件包括紧凑的 3D 表示 Θ、自车状态 e、历史预测轨迹 H 及其对应的速度 v/i、加速度 a/i 和偏航角编码 θ/i。使用 FiLM (Perez et al., 2018) 将包含观测 O/t 和上述相关条件的连接条件 C 注入到网络的每个卷积层中。这种逐通道条件引导从自车位置到锚点位置的轨迹生成。去噪过程从形状为 [B, N/a, T/i, P] 的高斯噪声 A^k/t 开始，其中 B 表示批量大小，N/a 表示锚点数量，T/i 表示轨迹上导航点之间的间隔时间 (i = 0.5, 1, 1.5, 2, 2.5, 3)。P 表示每个间隔时间 T/i 的位置 (x, y)。使用去噪网络 ε/θ，通过 k 次迭代将噪声数据迭代细化为无噪声的未来 3 秒多模态轨迹 A/0。每条轨迹 τ/i 表示为一组航路点 {(x , y )}^T。

运动规划器利用 DDPM 的能力，通过迭代细化噪声数据（以相关输入变量为条件）来生成高质量样本。条件信息（包括紧凑的 3D 表示、自车状态、历史轨迹及其相应的速度、加速度和偏航编码）通过 FiLM 层整合到去噪网络中，从而能够生成考虑到周围环境和历史信息的多模态、强时间一致性轨迹。

为了从 DDPM 生成的多模态轨迹中选择最合适的路径，引入 VLMs 引导轨迹评分器 (VTS)，如图所示。VTS 是一个结合可解释性和零样本驾驶推理能力的轨迹评分器。通过利用视觉-语言模型 (VLM)，VTS 可以根据各种驾驶因素（例如碰撞概率和舒适度）有效地评估轨迹，从而实现透明的决策和对新驾驶场景的适应性，而无需进行大量微调（即终身评估）。

HE-Drive：利用视觉-语言模型实现类人端到端驾驶

正文

请到「今天看啥」查看全文