使用零样本 LLM 在现实环境中推广端到端自动驾驶

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-24 00:04

正文

24年12月来自纽约stony brook大学、UIC和桑瑞思（数字化医疗科技公司）的论文“Generalizing End-To-End Autonomous Driving In Real-World Environments Using Zero-Shot LLMs”。

传统的自动驾驶方法采用模块化设计，将任务分解为子任务。相反，端到端自动驾驶直接从原始传感器数据输出动作，避免错误积累。然而，训练端到端模型需要全面的数据集；否则，模型的泛化能力较差。最近，大语言模型（LLM）已被用于增强端到端驾驶模型的泛化能力。大多数研究以开环方式探索LLM，其中输出动作与专家的动作进行比较，而没有来自现实世界的直接反馈，而其他研究仅在模拟中检查闭环结果。本文提出一种高效的架构，将多模态LLM集成到现实环境闭环设置运行的端到端驾驶模型中。在该架构中，LLM定期处理原始传感器数据以生成高级驾驶指令，有效地指导端到端模型，即使速度比原始传感器数据慢。这种架构，放宽 LLM 延迟和推理质量之间的权衡。它还促使能够从各种各样的 LLM 中进行选择，以改进高级驾驶指令并最大限度地降低微调成本。因此，该架构减少数据收集要求，因为 LLM 不直接输出动作；只需要训练一个简单的模仿学习模型来输出动作。在实验中，真实环境中端到端模型的训练数据仅包含一个交通锥的简单障碍物配置，而测试环境更为复杂，包含放置在各个位置的多个障碍物。

端到端自动驾驶：自 NVIDIA 首次推出端到端自动驾驶 [37] 以来，端到端自动驾驶 [13, 36] 一直蓬勃发展。与传统自动驾驶不同，端到端自动驾驶直接从传感器数据输出动作。端到端自动驾驶有多种方法，例如世界模型 [38, 39]、多传感器融合 [40, 20]、基于轨迹的控制 [41, 42] 和多任务/模仿学习 [43, 44, 16, 45, 46]。然而，端到端自动驾驶模型通常存在泛化能力较弱的问题。为了解决这个问题，最近的研究 [22] 探索在自动驾驶中使用 LLM 的潜力，以提高端到端模型的泛化能力。

用于自动驾驶的 LLM ：之前的大部分研究都以开环方式将 LLM 应用于自动驾驶 [27, 28]，其中输出动作或预测轨迹与专家进行比较，而不将其应用于环境。最近，Shao [31] 探索闭环自动驾驶的 LLM。他们应用一种经过微调的多模态 LLM，该 LLM 获取原始图像并输出动作。实验是在模拟环境中进行的。Paul [21] 和 Azarafza [32] 也以闭环方式开发 LLM 方法。然而，这些方法要求 LLM 为自车采取的每个动作生成输出，从而要求 LLM 快速响应。作者在模拟环境中测试他们的方法，在这种环境中，响应缓慢的问题可以忽略不计。

本文将 LLM 模型从直接动作控制中解放出来，并创建一个将多模态 LLM 与端到端自动驾驶相结合的架构来解决这些问题。其将在闭环现实环境中评估所提出方法的有效性。在该架构中，多模态 LLM 获取多模态传感器数据并输出高级规划指令，例如左转、右转。然后，端到端模型（神经网络）获取传感器数据和指令并输出转向和油门等动作。

如图展示该架构在自车走廊遇到障碍物中的关键思想：端到端模型仅在仅包含单个前方障碍物的环境中进行训练。自车学会向左或向右转向以避开障碍物。端到端模型可能无法识别相邻位置的其他障碍物。在这种情况下，LLM 会识别新目标并通过选择宽阔的间隙空间来绕过障碍物来生成指令。在评估阶段，这些指令用于指导端到端模型，即使在其训练数据集之外场景中也是如此。通过这种方式，使用 LLM 增强端到端模型的泛化和鲁棒性。

所提出的架构由两个组件组成：端到端模型和不需要微调的预训练 LLM。端到端模型处理正面图像并输出相应的动作，而 LLM 根据给定的图像提供高级指令。端到端模型经过训练，可以按照高级指令有效地响应环境。如下图所示，用 ChatGPT-4o [47] 作为示例，演示了模型如何处理来自连续摄像头流的图像，并定期以由 LLM 的推理速度决定的间隔从 LLM 接收高级指令。

端到端模型必须根据图像数据的输入和 LLM 的指令实时做出预测。为了使端到端模型适合单独使用图像和带有高级指令的图像作为输入，用与 Hawke [16] 和 Shafiullah [48] 类似的网络架构和训练方法。在 Shafiullah [48] 中，动作空间被聚类为 k 个不同的类别。其模型将图像作为输入，并使用 MinGPT 预测分类概率和每个类别的动作值。在这里提出的端到端模型中，采用预训练的 Vision Transformer (ViT) [49]，而不是使用 MinGPT 作为图像主干。手动配置动作空间类别，而不是使用学习的 k -均值聚类，因为架构中的动作空间仅由转向和油门组成。每个类别都分配有一个 LLM 指令。

在包含输入图像和人类专家采取的动作作为标签的数据集上训练端到端模型，这是 Hawke 提出的 [16]。端到端模型只需要一个最小的数据集，其中包括说明 LLM 提供的指令的简单场景。具体来说，端到端模型在仅包含单个要避免的锥体环境中进行训练，用 LLM 的规划功能扩展到更复杂的场景。

该端到端模型是轻量级的，并且是在有限或简单的场景上进行训练的，因此缺乏对更复杂场景的泛化能力。为了提高端到端模型的泛化能力，采用 LLM，通过提供高级指令来增强模型对内在场景的理解。没有对 LLM 进行微调，而是利用提示工程技术 CoT [35]。CoT 将复杂任务分解为连续的中间推理步骤。如表是从高级指令分解出的子查询示例。

在 LLM 的帮助下，规划能力可以驾驭多个障碍，并被集成到端到端模型中。

如图所示，使用 ChatGPT-4o 为例演示该架构在闭环中的流水线。由于 LLM 上的推理比端到端模型花费的时间更长，因此该端到端模型在等待下一条指令时使用来自前一个 LLM 推理的缓存指令。该推理流水线将 LLM 的世界知识结合到端到端模型中，同时通过构建一个即使在智能手机上也能快速运行的轻量级端到端模型，仍使整个流水线不受 LLM 推理速度慢的影响。

使用零样本 LLM 在现实环境中推广端到端自动驾驶

正文

请到「今天看啥」查看全文