专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
安徽省发展改革委  ·  安徽省新能源汽车产业集群建设企业巡展——【2 ... ·  昨天  
安徽省发展改革委  ·  安徽省新能源汽车产业集群建设企业巡展——【2 ... ·  昨天  
51好读  ›  专栏  ›  自动驾驶之心

LVLM赋能端到端!地平线&华科联手打造更强自动驾驶系统Senna!

自动驾驶之心  · 公众号  ·  · 2024-11-07 07:30

正文

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

今天自动驾驶之心为大家分享地平线&华科最新的工作—Senna!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 BEV感知 技术交流群

论文作者 | Bo Jiang等

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

近年来,自动驾驶技术发展迅速,在驾驶感知、运动预测、规划等领域取得了重大进展,为实现更准确、更安全的驾驶决策奠定了坚实的基础。其中,端到端自动驾驶技术取得了重大突破,端到端方法以大规模数据为基础,展现出卓越的规划能力。此外,大型视觉语言模型已经表现出越来越强大的图像理解和推理能力。通过利用其常识和逻辑,LVLM 可以分析驾驶环境并在复杂场景中做出安全的决策。利用大量驾驶数据来提高 LVLM 在自动驾驶中的性能并连接 LVLM 和端到端模型,对于实现安全、稳健和可推广的自动驾驶至关重要。

端到端自动驾驶的常见做法是直接预测未来轨迹或控制信号,而无需决策步骤。然而,这种方法可能会使模型学习更加困难,同时缺乏可解释性。相比之下,当人脑做出详细决策时,由分层高级决策和低级执行组成的系统起着至关重要的作用。此外,端到端模型通常缺乏常识,在简单场景中可能会出错。例如,它们可能会将载有交通锥的卡车误认为是路障,从而触发不必要的刹车。这些限制阻碍了端到端模型的规划性能。因此,本文针对以下涉及到的三个问题进行探索。

  • 如何将 LVLM 与端到端模型相结合? 目前,LVLM 在自动驾驶规划中的应用主要分为两类。一是直接使用 LVLM 作为规划器来预测轨迹点或控制信号;另一种方法是将 LVLM 与端到端模型相结合。涉及使用 LVLM 预测低频轨迹点,然后通过端到端模型对其进行细化以产生高频轨迹。在本文,我们提出了一种结构化的自动驾驶系统Senna,该系统将大型视觉语言模型与端到端模型相结合,具体来说,大型视觉语言模型用自然语言预测高级规划决策,并将其编码为高维特征,然后输入到端到端自动驾驶系统中。根据高级决策,端到端自动驾驶系统生成最终的规划轨迹。
  • 如何设计适合驾驶任务的LVLM? 目前流行的LVLM并未专门针对多图像输入进行优化。以前用于驾驶任务的 LVLM 要么仅支持前视输入,这会限制空间感知并增加安全风险,要么可以适应多图像输入但仍然缺乏详细设计或有效性验证。我们提出的Senna,它支持多图像输入来编码环视数据,这对于了解驾驶场景和确保安全至关重要。
  • 如何有效地训练驾驶 LVLM? 在开发用于驾驶任务的 LVLM 之后,最后一步是确保有效的训练,这需要合适的数据和策略。我们引入了一系列面向规划的问答,旨在增强 VLM 对驾驶场景中规划相关线索的理解,最终实现更准确的规划。

针对上述相关问题的讨论,本文提出了一种将 LVLM 与端到端模型相结合的自动驾驶系统,实现了从高级决策到低级轨迹预测的结构化规划。该算法称之为Senna。并且在nuScenes数据集和DriveX大规模数据集上的大量实验也证明了Senna的SOTA规划性能。

论文链接:https://arxiv.org/pdf/2410.22313

网络结构&技术细节梳理

在详细介绍本文提出的算法模型的网络架构细节之前,下图展示了我们提出的Senna算法模型的整体网络结构图。

整体而言,输入的场景信息包括多视角图像序列、用户指令和导航命令。用户指令作为提示输入到Senna-VLM中,其他指令则同时发送给Senna-VLM和Senna-E2E。Senna-VLM将图像和文本信息分别编码为图像和文本标记,然后由LLM进行处理。LLM生成高级决策,这些决策通过元动作编码器编码为高维特征。Senna-E2E根据场景信息和Senna-VLM生成的元动作特征预测最终的规划轨迹。我们设计了一系列面向规划的QA来训练Senna-VLM,这些QA不需要人工注释,并且可以完全通过自动标记流程大规模生成。

驾驶场景理解

了解驾驶场景中的关键因素对于安全准确地进行规划至关重要。我们设计了一系列面向规划的 QA,以增强 Senna-VLM 对驾驶场景的理解。每种类型的 QA 的细节如下图所示。用于生成这些 QA 的原始数据(例如 3D 物体检测框和物体跟踪轨迹)可以通过自动注释系统获得。此外,描述性 QA 可以由 GPT-4o 等 LVLM 生成。

  • 场景描述 :我们利用预先训练的 LVLM 根据环视图像生成驾驶场景描述。为了避免生成与规划无关的冗余信息,我们在提示中指定了所需的信息,包括:交通状况、环境(例如城市、乡村等)、道路类型(例如铺装道路、高速公路)、天气状况、一天中的时间以及道路状况(例如道路是否平坦或是否有任何障碍物)。通过以这种方式构建提示,我们可以获得简洁且信息丰富的场景描述。
  • 交通灯信号检测 :交通信号灯有多种类型,但这里我们主要关注最关键的一种:交通信号灯。交通信号灯的状态可分为四种:红色、绿色、黄色和无,其中无表示在自车前方未检测到交通信号灯。
  • VRU识别 :通过识别环境中的VRU,我们增强了 Senna 对这些关键物体的感知,并提高了规划的安全性。具体来说,我们使用真值 3D 检测结果来获取 VRU 的类别和位置,然后以文本形式描述这些信息。位置信息以自车为中心,包括每个 VRU 相对于自车的横向和纵向距离。我们仅使用 Senna-VLM 来预测距离的整数部分,以在构建距离感知的同时降低学习复杂性。






请到「今天看啥」查看全文