点击下方
卡片
,关注“
自动驾驶之心
”公众号
今天自动驾驶之心为大家分享地平线&华科最新的工作—Senna!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>
点击进入→
自动驾驶之心
『
BEV感知
』
技术交流群
论文作者
| Bo Jiang等
编辑 | 自动驾驶之心
写在前面&笔者的个人理解
近年来,自动驾驶技术发展迅速,在驾驶感知、运动预测、规划等领域取得了重大进展,为实现更准确、更安全的驾驶决策奠定了坚实的基础。其中,端到端自动驾驶技术取得了重大突破,端到端方法以大规模数据为基础,展现出卓越的规划能力。此外,大型视觉语言模型已经表现出越来越强大的图像理解和推理能力。通过利用其常识和逻辑,LVLM 可以分析驾驶环境并在复杂场景中做出安全的决策。利用大量驾驶数据来提高 LVLM 在自动驾驶中的性能并连接 LVLM 和端到端模型,对于实现安全、稳健和可推广的自动驾驶至关重要。
端到端自动驾驶的常见做法是直接预测未来轨迹或控制信号,而无需决策步骤。然而,这种方法可能会使模型学习更加困难,同时缺乏可解释性。相比之下,当人脑做出详细决策时,由分层高级决策和低级执行组成的系统起着至关重要的作用。此外,端到端模型通常缺乏常识,在简单场景中可能会出错。例如,它们可能会将载有交通锥的卡车误认为是路障,从而触发不必要的刹车。这些限制阻碍了端到端模型的规划性能。因此,本文针对以下涉及到的三个问题进行探索。
-
如何将 LVLM 与端到端模型相结合?
目前,LVLM 在自动驾驶规划中的应用主要分为两类。一是直接使用 LVLM 作为规划器来预测轨迹点或控制信号;另一种方法是将 LVLM 与端到端模型相结合。涉及使用 LVLM 预测低频轨迹点,然后通过端到端模型对其进行细化以产生高频轨迹。在本文,我们提出了一种结构化的自动驾驶系统Senna,该系统将大型视觉语言模型与端到端模型相结合,具体来说,大型视觉语言模型用自然语言预测高级规划决策,并将其编码为高维特征,然后输入到端到端自动驾驶系统中。根据高级决策,端到端自动驾驶系统生成最终的规划轨迹。
-
如何设计适合驾驶任务的LVLM?
目前流行的LVLM并未专门针对多图像输入进行优化。以前用于驾驶任务的 LVLM 要么仅支持前视输入,这会限制空间感知并增加安全风险,要么可以适应多图像输入但仍然缺乏详细设计或有效性验证。我们提出的Senna,它支持多图像输入来编码环视数据,这对于了解驾驶场景和确保安全至关重要。
-
如何有效地训练驾驶 LVLM?
在开发用于驾驶任务的 LVLM 之后,最后一步是确保有效的训练,这需要合适的数据和策略。我们引入了一系列面向规划的问答,旨在增强 VLM 对驾驶场景中规划相关线索的理解,最终实现更准确的规划。
针对上述相关问题的讨论,本文提出了一种将 LVLM 与端到端模型相结合的自动驾驶系统,实现了从高级决策到低级轨迹预测的结构化规划。该算法称之为Senna。并且在nuScenes数据集和DriveX大规模数据集上的大量实验也证明了Senna的SOTA规划性能。
论文链接:https://arxiv.org/pdf/2410.22313
网络结构&技术细节梳理
在详细介绍本文提出的算法模型的网络架构细节之前,下图展示了我们提出的Senna算法模型的整体网络结构图。
整体而言,输入的场景信息包括多视角图像序列、用户指令和导航命令。用户指令作为提示输入到Senna-VLM中,其他指令则同时发送给Senna-VLM和Senna-E2E。Senna-VLM将图像和文本信息分别编码为图像和文本标记,然后由LLM进行处理。LLM生成高级决策,这些决策通过元动作编码器编码为高维特征。Senna-E2E根据场景信息和Senna-VLM生成的元动作特征预测最终的规划轨迹。我们设计了一系列面向规划的QA来训练Senna-VLM,这些QA不需要人工注释,并且可以完全通过自动标记流程大规模生成。
驾驶场景理解
了解驾驶场景中的关键因素对于安全准确地进行规划至关重要。我们设计了一系列面向规划的 QA,以增强 Senna-VLM 对驾驶场景的理解。每种类型的 QA 的细节如下图所示。用于生成这些 QA 的原始数据(例如 3D 物体检测框和物体跟踪轨迹)可以通过自动注释系统获得。此外,描述性 QA 可以由 GPT-4o 等 LVLM 生成。
-
场景描述
:我们利用预先训练的 LVLM 根据环视图像生成驾驶场景描述。为了避免生成与规划无关的冗余信息,我们在提示中指定了所需的信息,包括:交通状况、环境(例如城市、乡村等)、道路类型(例如铺装道路、高速公路)、天气状况、一天中的时间以及道路状况(例如道路是否平坦或是否有任何障碍物)。通过以这种方式构建提示,我们可以获得简洁且信息丰富的场景描述。
-
交通灯信号检测
:交通信号灯有多种类型,但这里我们主要关注最关键的一种:交通信号灯。交通信号灯的状态可分为四种:红色、绿色、黄色和无,其中无表示在自车前方未检测到交通信号灯。
-
VRU识别
:通过识别环境中的VRU,我们增强了 Senna 对这些关键物体的感知,并提高了规划的安全性。具体来说,我们使用真值 3D 检测结果来获取 VRU 的类别和位置,然后以文本形式描述这些信息。位置信息以自车为中心,包括每个 VRU 相对于自车的横向和纵向距离。我们仅使用 Senna-VLM 来预测距离的整数部分,以在构建距离感知的同时降低学习复杂性。