专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
新北方  ·  有惊无险!孩子突然冲向马路大爷一把拉回 ·  23 小时前  
新北方  ·  辽宁朝阳有新发现! ·  2 天前  
康石石  ·  以拿编制为目的,你该如何保研? ·  3 天前  
51好读  ›  专栏  ›  自动驾驶之心

自动驾驶思维链(CoT)来啦!Sce2DriveX:全新多模态场景理解大模型,超越所有SOTA~

自动驾驶之心  · 公众号  ·  · 2025-03-05 07:30

正文

点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号

戳我-> 领取 自动驾驶近15个 方向 学习 路线

今天自动驾驶之心为大家分享一篇 自动驾驶多模型大模型的工作! 场景理解新SOTA,引入了思维链过程! 如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→ 自动驾驶之心 『大模型思维链』技术交流群

论文作者 | Rui Zhao等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

端到端自动驾驶直接将原始传感器输入建模到低级车辆控制指令,是具身人工智能的重要组成部分。尽管多模态大语言模型(MLLMs)在高级交通场景语义理解方面取得了成功,但如何有效地将这些概念性语义理解转化为低级运动控制指令,并在跨场景驾驶中实现泛化和一致性,仍然是一个挑战。我们提出了Sce2DriveX,这是一种类人驾驶思维链(CoT)推理的MLLM框架。Sce2DriveX利用局部场景视频和全局鸟瞰图(BEV)的多模态联合学习,深入理解长距离时空关系和道路拓扑结构,增强其在三维动态/静态场景中的综合感知和推理能力,实现跨场景的驾驶泛化。在此基础上,它重构了人类驾驶中固有的隐性认知链,涵盖场景理解、元动作推理、行为解释分析、运动规划和控制,从而进一步弥合自动驾驶与人类思维过程之间的差距。为了提升模型性能,我们开发了首个专门针对三维空间理解和长轴任务推理的大规模视觉问答(VQA)驾驶指令数据集。大量实验表明,Sce2DriveX在从场景理解到端到端驾驶的任务中均取得了最先进的性能,并且在CARLA Bench2Drive基准测试中表现出强大的泛化能力。

  • 论文链接:https://arxiv.org/abs/2502.14917
这里也推荐下自动驾驶之心打磨的《多模态大模型与自动驾驶实战课程》, 通用大模型训练(算法原理&微调&强化学习RLHF)、自动驾驶多模态大模型一栈式全搞定!
拼团大额优惠!欢迎加入学习~

引言介绍

具身智能使自动驾驶(AD)模型等智能体具备实时感知、推理并与现实世界交互的能力。然而,AD模型框架面临的一个核心挑战在于泛化性和一致性。一方面,AD学习框架可能难以对复杂、动态的交通场景进行泛化,例如多变的天气条件、道路布局、交通语义,以及周围参与者的行为偏好。另一方面,AD系统的决策策略往往与人类驾驶员的认知过程不一致,这使得人们难以理解系统的行为。这些挑战源于高级场景语义理解与低级运动控制指令之间的差距。因此,开发一种能够进行全天候、全场景感知和推理的类人框架,已成为一个备受关注的话题。

当前的AD研究通常采用小模型学习框架。由于小模型的推理能力有限,这些系统对预定义问题的响应较为僵化,在面对新的或意外的查询时,很难给出令人满意的结果。

最近,MLLMs的快速发展在各种视觉语言任务中展现出显著优势。通过将MLLMs作为高级场景语义理解与低级运动控制指令之间的桥梁,我们可以应对AD模型在泛化性和一致性方面的挑战。受益于在大量跨模态和跨学科数据上的预训练,MLLMs具有强大的推理和泛化能力,能够处理各种场景,增强跨场景驾驶的适应性。此外,MLLMs强大的文本查询和认知能力使其能够将驾驶思维与人类共识保持一致,并将复杂的推理转化为易于理解的自然语言,为AD提供了统一的解释层。然而,AD是一项复杂的任务,具有时空连续性、场景动态性和全局协调性等特点。目前基于MLLM的AD研究主要使用单帧前视图场景图像作为感知输入,这导致对时空关系和道路特征的理解不足,以及对交通场景的理解不全面。此外,在生成驾驶指令时,当前研究通常仅将场景因素映射到低级控制信号,忽略了未来车辆行为背后的推理,未能充分利用MLLMs的通用认知推理能力,与人类驾驶思维存在偏差。

除了模型框架,匹配的数据集对于模型的高效训练和性能上限也至关重要。许多数据集采用VQA的形式设计,尽管取得了一些成果,但在现有VQA数据集上训练的模型,在处理AD的复杂性时仍面临局限。这一局限主要源于交通场景与VQA数据集之间的视觉信息差异,这就要求模型有效地利用多模态感知数据的互补信息,以理解复杂场景,并从多帧数据流中捕捉物体的动态变化。此外,大多数VQA数据集是为单一驾驶任务量身定制的。它们在封闭式问题注释中,通常只提供简单的布尔答案(即“是”或“否”)或有限的多项选择响应,内容不够丰富。

为了弥补这些差距,本文提出了Sce2DriveX框架(见图1左侧)。该框架使用模态编码器将多视图场景视频和BEV地图图像的视觉表示,对齐到统一的视觉特征空间,然后通过共享投影映射到文本嵌入空间,并由大语言模型骨干进行处理,生成包括场景理解、行为分析、运动规划和车辆控制的自然语言响应。这种对局部场景和全局地图的多模态联合学习,使模型能够深入理解时空关系和道路拓扑结构,扩展其对三维动态/静态场景的综合感知和推理能力,从而实现跨场景的泛化和一致性驾驶。为了支持训练,本文构建了首个用于三维空间理解和长轴任务推理的综合VQA驾驶指令数据集(见图1中间),重点关注多模态、多视图和多帧背景下的分层场景理解和可解释的端到端驾驶任务。此外,本文还详细介绍了一种面向任务的三阶段训练流程,用于监督微调(见图1右侧),包括混合对齐预训练、场景理解微调,以及端到端驾驶微调。本文的主要贡献如下:

  • 我们提出了Sce2DriveX,这是一种类似人类思维链推理的MLLM框架,旨在实现从多视图远程场景理解,到行为分析、运动规划和车辆控制的渐进式推理学习。
  • 我们构建了首个用于三维空间理解和长轴任务推理的综合VQA驾驶指令数据集,并引入了一种面向任务的三阶段训练流程,以增强Sce2DriveX的感知推理能力。

大量实验表明,Sce2DriveX在场景理解、元动作推理、行为解释分析、运动规划和控制信号生成等任务中,均取得了最先进的性能。

相关工作回顾

多模态大语言模型

近年来,多模态大语言模型取得了显著进展。Flamingo和BLIP2通过门控注意力机制和Q-Former将视觉特征与大语言模型的嵌入空间对齐,而LLaVA和MiniGPT4则使用多层感知器(MLP)将预训练的视觉模块与大语言模型骨干相结合。此外,一些研究尝试将模态交互扩展到视频和音频领域。Video-LLaVA采用LanguageBind编码器将不同的视觉特征预对齐到文本空间,便于对图像和视频进行联合训练。Video-Llama通过将预训练的视觉和音频编码器集成到大语言模型中,实现了对视频数据中视觉和听觉信号的联合处理。

基于MLLM的自动驾驶

多模态大语言模型已展现出理解交通场景、优化驾驶决策以及从根本上改善人车交互的潜力。与传统的自动驾驶感知系统相比,多模态大语言模型提供了一种全新的范式,利用其固有的少样本学习能力从大量多模态数据中快速学习,从而提供更丰富的监督信息来源。PromptTrack将跨模态特征作为语义线索集成到语言提示中,并结合多模态大语言模型进行3D目标检测和跟踪。Talk2BEV将鸟瞰图(BEV)与语言提示相结合,利用多模态大语言模型实现自动驾驶中的视听融合。在端到端自动驾驶方面,多模态大语言模型也表现出更好的可解释性和可信度。DriveGPT4率先使用多模态大语言模型将传感器数据和指令转换为控制信号和文本响应。RAG-Driver提出了一种检索增强型多模态大语言模型,通过检索专家示范来生成驾驶行为解释并预测控制信号。DriveVLM将认知链模块集成到多模态大语言模型中,实现了驾驶场景描述和运动规划。然而,现有研究尚未将多模态大语言模型与人类驾驶的隐性认知链对齐,无法实现从全局和局部场景理解的结合,到行为、轨迹和控制指令的推理,这限制了跨场景泛化能力和符合人类共识的驾驶表现。

视觉问答数据集

为了支持多模态大语言模型的高效训练,大规模视觉问答数据集的设计已成为一个研究热点。目前,存在多种视觉问答数据集,包括基于图像的数据集,如CLEVR、VQA2.0和EQA,以及基于视频的数据集,如TVQA、TGIF-QA和ActivityNet-QA。对于图像问答任务,早期研究尝试将卷积神经网络(CNN)提取的图像特征与问题编码融合,然后将其输入解码器生成答案。近年来,基于Transformer的模型在图像问答任务中取得了最先进的性能。通过注意力网络,一些研究有效地捕捉了视频帧中时间上下文和空间特征之间的内在关系。3D问答是视觉问答领域中的一项新兴任务,专注于回答关于3D场景的问题,要求模型理解物体的几何结构和空间关系。最近,许多3D问答数据集被构建出来,如3DQA、ScanQA和SQA3D。尽管视觉问答领域取得了显著进展,但在处理涉及多模态、多视图和多帧上下文的复杂交通场景时,仍然面临挑战。此外,自动驾驶领域目前缺乏综合性的视觉问答驾驶数据集。

Sce2DriveX方法详解

Sce2DriveX框架

本文旨在开发一种类似人类思维链(CoT)推理的多模态大语言模型(MLLM)框架,实现从多视图长距离场景理解,到行为分析、运动规划,再到车辆控制这一驾驶过程的渐进式推理学习。如图2所示,Sce2DriveX由四个组件构成:1)模态编码器,包含一个视频编码器 和一个图像编码器 ,由OpenCLIP进行初始化;2)共享投影层 ,采用两个带有高斯误差线性单元(GeLU)激活函数的全连接层;3)大语言模型骨干网络 ,选用Vicuna-v1.5-7b;4)文本编码器 和解码器 ,由LLaMA提供。

  • 多模态联合学习 :给定文本指令 ,首先使用字节对编码(BPE)分词器将文本分割成常见的子词,每个子词对应一个唯一的对数几率(logit)。随后,利用文本编码器 对这些对数几率进行编码:

其中, 代表文本标记, 为标记数量, 是大语言模型的特征维度。

给定多视图场景视频 和鸟瞰图(BEV)图像 ,这里 是视频帧数, 是原始图像分辨率, 是通道数,我们采用补丁掩码(patch masking)方法。通过编码器掩码 ,选择并分割一小部分补丁,以缓解模态编码器中标记数量过多的问题。具体来说,视频信号 和图像信号 首先通过不重叠滤波器的补丁嵌入层,转换为相应的补丁 ,其中 是补丁数量, 是每个补丁的大小。接着,对可见标记应用位置嵌入,并使用编码器掩码进行划分。组合后的视频序列 和图像序列 表示为:

其中 表示一系列可学习的位置标记, 分别表示视频补丁和图像补丁的位置信息。

最后,使用视频编码器 对视频序列 进行编码,使用图像编码器 对图像序列 进行编码:

其中 代表视频标记, 代表图像标记, 是视频标记数量, 是图像标记数量, 是统一的视觉特征维度。值得注意的是,为实现多模态语义对齐,我们采用了LanguageBind的模态编码方法,以文本作为不同模态之间的桥梁。基于对比学习原理,将其他模态与文本模态绑定,并使其自发对齐到统一的视觉特征空间。

  • 大语言模型骨干网络的统一处理 :我们的目标是将多模态标记映射到文本嵌入空间,为大语言模型提供统一的视觉表示,然后将其与分词后的文本查询相结合,输入到大语言模型骨干网络中生成响应。具体而言,首先使用共享投影层 对视频标记 和图像标记 进行映射:

其中 代表统一的视觉标记,其特征维度与文本标记 相同, 是视觉标记数量。接下来,将统一的视觉标记 与文本标记 连接起来,输入到大语言模型骨干网络 中进行处理,生成相应的预测标记。最后,这些预测标记由文本解码器 解码为自然语言响应

其中 表示连接操作,







请到「今天看啥」查看全文