LVLM赋能端到端！地平线&华科联手打造更强自动驾驶系统Senna！

自动驾驶之心 · 公众号 · · 2024-11-07 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向学习路线

今天自动驾驶之心为大家分享地平线&华科最新的工作—Senna！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『 BEV感知』 技术交流群

论文作者 | Bo Jiang等

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

近年来，自动驾驶技术发展迅速，在驾驶感知、运动预测、规划等领域取得了重大进展，为实现更准确、更安全的驾驶决策奠定了坚实的基础。其中，端到端自动驾驶技术取得了重大突破，端到端方法以大规模数据为基础，展现出卓越的规划能力。此外，大型视觉语言模型已经表现出越来越强大的图像理解和推理能力。通过利用其常识和逻辑，LVLM 可以分析驾驶环境并在复杂场景中做出安全的决策。利用大量驾驶数据来提高 LVLM 在自动驾驶中的性能并连接 LVLM 和端到端模型，对于实现安全、稳健和可推广的自动驾驶至关重要。

端到端自动驾驶的常见做法是直接预测未来轨迹或控制信号，而无需决策步骤。然而，这种方法可能会使模型学习更加困难，同时缺乏可解释性。相比之下，当人脑做出详细决策时，由分层高级决策和低级执行组成的系统起着至关重要的作用。此外，端到端模型通常缺乏常识，在简单场景中可能会出错。例如，它们可能会将载有交通锥的卡车误认为是路障，从而触发不必要的刹车。这些限制阻碍了端到端模型的规划性能。因此，本文针对以下涉及到的三个问题进行探索。

如何将 LVLM 与端到端模型相结合？ 目前，LVLM 在自动驾驶规划中的应用主要分为两类。一是直接使用 LVLM 作为规划器来预测轨迹点或控制信号；另一种方法是将 LVLM 与端到端模型相结合。涉及使用 LVLM 预测低频轨迹点，然后通过端到端模型对其进行细化以产生高频轨迹。在本文，我们提出了一种结构化的自动驾驶系统Senna，该系统将大型视觉语言模型与端到端模型相结合，具体来说，大型视觉语言模型用自然语言预测高级规划决策，并将其编码为高维特征，然后输入到端到端自动驾驶系统中。根据高级决策，端到端自动驾驶系统生成最终的规划轨迹。
如何设计适合驾驶任务的LVLM？ 目前流行的LVLM并未专门针对多图像输入进行优化。以前用于驾驶任务的 LVLM 要么仅支持前视输入，这会限制空间感知并增加安全风险，要么可以适应多图像输入但仍然缺乏详细设计或有效性验证。我们提出的Senna，它支持多图像输入来编码环视数据，这对于了解驾驶场景和确保安全至关重要。
如何有效地训练驾驶 LVLM？ 在开发用于驾驶任务的 LVLM 之后，最后一步是确保有效的训练，这需要合适的数据和策略。我们引入了一系列面向规划的问答，旨在增强 VLM 对驾驶场景中规划相关线索的理解，最终实现更准确的规划。

针对上述相关问题的讨论，本文提出了一种将 LVLM 与端到端模型相结合的自动驾驶系统，实现了从高级决策到低级轨迹预测的结构化规划。该算法称之为Senna。并且在nuScenes数据集和DriveX大规模数据集上的大量实验也证明了Senna的SOTA规划性能。

论文链接：https://arxiv.org/pdf/2410.22313

网络结构&技术细节梳理

在详细介绍本文提出的算法模型的网络架构细节之前，下图展示了我们提出的Senna算法模型的整体网络结构图。

整体而言，输入的场景信息包括多视角图像序列、用户指令和导航命令。用户指令作为提示输入到Senna-VLM中，其他指令则同时发送给Senna-VLM和Senna-E2E。Senna-VLM将图像和文本信息分别编码为图像和文本标记，然后由LLM进行处理。LLM生成高级决策，这些决策通过元动作编码器编码为高维特征。Senna-E2E根据场景信息和Senna-VLM生成的元动作特征预测最终的规划轨迹。我们设计了一系列面向规划的QA来训练Senna-VLM，这些QA不需要人工注释，并且可以完全通过自动标记流程大规模生成。

驾驶场景理解

了解驾驶场景中的关键因素对于安全准确地进行规划至关重要。我们设计了一系列面向规划的 QA，以增强 Senna-VLM 对驾驶场景的理解。每种类型的 QA 的细节如下图所示。用于生成这些 QA 的原始数据（例如 3D 物体检测框和物体跟踪轨迹）可以通过自动注释系统获得。此外，描述性 QA 可以由 GPT-4o 等 LVLM 生成。

场景描述 ：我们利用预先训练的 LVLM 根据环视图像生成驾驶场景描述。为了避免生成与规划无关的冗余信息，我们在提示中指定了所需的信息，包括：交通状况、环境（例如城市、乡村等）、道路类型（例如铺装道路、高速公路）、天气状况、一天中的时间以及道路状况（例如道路是否平坦或是否有任何障碍物）。通过以这种方式构建提示，我们可以获得简洁且信息丰富的场景描述。
交通灯信号检测 ：交通信号灯有多种类型，但这里我们主要关注最关键的一种：交通信号灯。交通信号灯的状态可分为四种：红色、绿色、黄色和无，其中无表示在自车前方未检测到交通信号灯。
VRU识别 ：通过识别环境中的VRU，我们增强了 Senna 对这些关键物体的感知，并提高了规划的安全性。具体来说，我们使用真值 3D 检测结果来获取 VRU 的类别和位置，然后以文本形式描述这些信息。位置信息以自车为中心，包括每个 VRU 相对于自车的横向和纵向距离。我们仅使用 Senna-VLM 来预测距离的整数部分，以在构建距离感知的同时降低学习复杂性。

LVLM赋能端到端！地平线&华科联手打造更强自动驾驶系统Senna！

正文

写在前面&笔者的个人理解

网络结构&技术细节梳理

驾驶场景理解

请到「今天看啥」查看全文