由于多模态大型语言模型(MLLMs)的出色能力,近期的研究集中在了使用基于MLLM的代理来自动驾驶在大型和动态环境中。然而,常见的做法常常直接将高级指令转换为低级车辆控制信号,这偏离了MLLM固有的语言生成范式,未能充分利用它们的潜在能力。
因此,这些方法的一般性受到了在微调期间所使用的自动驾驶数据集的高度限制。
为了应对这一挑战,作者提出通过中间 Level 的语言驱动命令来连接高级指令和低级控制信号,这些命令比高级指令更细化,但比控制信号更通用和可解释,从而有效地弥合了它们之间的差距。
作者通过一个名为AD-H的分层多代理驾驶系统来实现这一想法,包括一个用于高级推理的MLLM规划器和用于低级执行的轻量级控制器。这种分层设计解放了MLLM从低级控制信号解码的任务,从而使其在高层次感知、推理和规划中完全释放其潜在能力。
为了有效地训练AD-H,作者构建了一个新的自动驾驶数据集,其中包含了包含多个指令和驾驶命令 Level 的动作层次标注。全面的闭环评估展示了作者提出的AD-H系统的几个关键优势。
首先,AD-H在实现卓越驾驶性能方面显著优于现有技术,甚至在车辆操作过程中展现出自我纠正能力,这是在训练数据集中未遇到的情况。
其次,AD-H在长视野指令和新环境条件下的泛化能力明显优于当前的最先进方法。
数据和代码: https://github.com/zhangzaibin/AD-H。
1 Introduction
自动驾驶系统代表了当代交通的重大进步,它要求车辆能够在大型和动态环境中自动运行。随着多模态大语言模型以及基于MLLM的代理在探索MLLM作为自动驾驶系统的核心代理,以实现更好的感知、推理和交互方面取得了显著进展。这些方法采用的主要范式是使用MLLM将高级上下文指令转换为低级控制信号。
由于MLLM是为了生成自然语言而预训练的,它们解码低级控制信号的能力高度依赖于在微调期间使用的自动驾驶数据集,导致对特定场景和指令的显著过拟合。
例如,图1(a)描述了一个训练数据集中不存在的过度转向场景。大多数现有方法很难适应这种情况,并且在过度转弯后常常保持直线运动,导致危险情况。
这些限制促使作者深入研究一个有趣且关键的问题:《是否能够开发出一个自动驾驶系统,能够完全释放预训练MLLM的潜在能力,以实现更智能的推理和对未见场景和指令的更强适应性?》
为了回答上述问题,作者探讨了分层策略的概念,Belkhale等人(2024);Chen等人(2024)。不是直接预测最终的控制系统信号,作者建议用中间 Level 命令来填补高级指令与低级控制信号之间的空白。一方面,与高级上下文指令相比,中级命令提供了更细的粒度,并且更接近低级控制信号,从而可以更精确地反映实时环境反馈。另一方面,与低级控制信号不同,中级命令是由自然语言驱动的,因此与MLLMs的预训练目标更一致,可以利用它们的世界知识。此外,将高级指令分解为中级命令进一步实现了更灵活的人机交互,并在类似任务中有效学习共享策略结构,Belkhale等人(2024),从而在面对新指令和场景时具有更强的泛化能力。
鉴于上述动机,作者设计了一个用于自动驾驶的分层多代理系统(AD-H),该系统包括两个代理:一个基于MLLM的规划器和一个小型控制器。如图1(b)所示,规划器旨在根据输入的上下文高级指令进行规划和决策,并在每个决策帧预测一个中级命令。然后,控制器根据当前的视觉输入和上下文指令将中级命令解码为低级控制信号。高级规划器和低级控制器共同构成了一个分层政策系统,这有效地使MLLM摆脱了低级解码,并释放了其在高级感知、推理和规划方面的潜力。最后一个问题是缺乏用于训练分层系统的标注数据,因为现有的自动驾驶数据集不包含中级命令。
为此,作者从Shao等人(2023)的LMDrive数据集派生,进一步构建了一个新的训练数据集,包括具有分层标注的1,753K帧,涵盖多级指令和命令。在闭环环境下的深入评估中,作者展示了作者的AD-H具有以下两个优势。首先,AD-H能更好地推广到新场景。
由于在作者的分层多代理系统中高级推理和低级执行是解耦的,仅关注高级推理的规划器可以更有效地利用预训练MLLM的涌现能力,从而在未见过的驾驶场景下甚至是在具有挑战性的极端情况下,产生更强的泛化能力和推理能力。例如,在过度转向的情况下,规划器发出纠正指令以引导车辆回到正确的轨道(图1(b))。
相比之下,以前的方法往往严重过拟合到训练集中的控制信号模式,导致持续直行的趋势(图1(a))。因此,与最先进的方法相比,AD-H在驾驶性能上取得了显著的改进。
其次,AD-H能更好地推广到新的长期指令。作者的长期指令实验揭示,AD-H可以全面理解新的长期指令,进行有效的规划,并在适当的决策帧生成精确的驾驶命令。这导致了长期任务性能的显著提升。
相比之下,现有方法对长期指令的泛化能力较弱,通常导致错误路线。
本文的贡献可以总结如下:
作者提出了AD-H,这是一个用于自动驾驶的分层多代理系统,可以显著释放MLLM的力量,以实现更高的控制精度和泛化能力。
作者构建了一个包含1,753k多级驾驶命令标注的自动驾驶数据集,这可以有效促进分层政策学习。
作者进行了深入实验,并证明作者的方法可以显著优于现有技术水平,并对新场景和长期指令表现出更强的泛化能力。
2 Related Works
End-End methods in Autonomous driving
在自动驾驶中,精确的感知Li等人(2022);Yang等人(2023);Liu等人(2023);Philion和Fidler Zhang等人(2023);Ge等人(2023);Li等人(2023)和规划至关重要。为了解决自动驾驶场景中普遍存在长尾分布问题,已经开发了几种基于生成网络的 world models。这些网络可以生成大量的真实城市街道场景。然而,为了控制车辆,需要设计一个单独的规划模型来利用感知结果。
为了解决这个问题,已经提出了许多端到端的自动驾驶模型,包括基于强化学习的Prakash等人(2021);Wu等人(2022);Chitta等人 ;Codevilla等人(2019);Cui等人(2022)和基于模仿学习的方法Xiao等人(2023);Hanselmann等人。除此之外,UniAD Hu等人(2023)通过在BEV空间利用多个模块来解决端到端自动驾驶问题。
自从多模态大型模型出现以来,自动驾驶领域一直在探索使用这样的大型模型以端到端方式解决这一问题的可能性。LLM-Driver Chen等人(2023)使用Vector-former在向量空间中表征自动驾驶对环境的感知。Drivegpt4 Xu等人(2023)提出了一种新颖的两阶段训练多模态自动驾驶范式,它通过多帧图像输入和文本指令直接回归控制信号和文本响应。
DOLPHINS Ma等人(2023)创新地将上下文学习引入自动驾驶框架,这可以更好地模仿人类的高阶控制能力。与上述在静态数据集上进行训练和测试的方法不同,LMDrive Shao等人(2023)首次在Carla模拟器上进行了闭环自动驾驶训练和测试,展示了强大的闭环控制能力和场景泛化能力。
Multimodal Large Language Models
多模态大型语言模型因其卓越的多模态感知能力而引起了广泛关注。几项研究(Liu等人,2024年;Dai等人,2024年;Zhang等人,2023年;Zhu等人,2023年;Lai等人,2023年;
Peng等人,2023年)专注于将视觉内容整合到语言模型中,特别是设计用于理解和推理图像的。其中,LLaVA(Liu等人,2024年)采用了一种两阶段的指令调整 Pipeline ,以实现全面的视觉和语言理解。
InstrucBLIP(Dai等人,2024年)将语言模型与一个意识指令的Q-Former结合,以提取与所提供指令高度相关的视觉内容。
此外,研究(Deshmukh等人,2023年;Li等人,2023年;Zhang等人,2023年;Guo等人,2023年;Hong等人,2023年)正在将MLLMs扩展到包括音频、视频和点云,增强了它们处理复杂多模态任务的能力。
这种整合使得MLLMs能够同时处理空间、听觉和视觉数据,显著提高了在自主导航和多媒体分析等应用中的性能。
LLMs in Task Planning
在各个领域,大型语言模型(LLMs)在高级规划的任务分解方面展示了其潜力。LLMs可以整合额外的视觉模块,比如标题描述,来感知环境并影响规划结果。Ahn等人(2022)的SayCan将LLMs与机器人能力相结合,使机器人能够遵循复杂的长期自然语言指令。
在这里,LLM对指令提供了高层次的理解,并识别出可以提供相应低级控制的技能。为了避免由于模型堆叠造成的错误累积,近期研究已经探索使用多语言大型模型(MLLLs)进行规划。Hu等人(2023)的ViLa利用MLLLs中固有的世界知识,包括空间布局和目标属性,为操作任务进行更合理的任务规划。
Belkhaie等人(2024)的RT-H通过将复杂任务分解为简单的语言指令,然后转换为机器人动作,提高了任务执行的准确性和学习效率。然而,这主要是在小规模和静态场景下的研究。
尚不清楚这种理念是否也能推广到大规模和动态的自动驾驶环境。更重要的是,缺乏适合学习这类系统的训练数据集。作者的工作填补了上述空白。
3 Method
在本节中,作者首先将阐述作者提出的AD-H自动驾驶系统的技术细节,然后介绍用于训练分层多代理系统的新数据集。
Method Overview
AD-H系统由两个基于MLLM的智能体组成,分别是规划器和控制器,如图2(a)所示。在每一个决策帧,规划器接收当前的视觉输入和一个高级上下文指令(例如:“在下一个路口左转”),进行推理和规划,并通过预测一个中级驾驶命令(例如:“减速以确保安全”)为当前帧做出决策。控制器随后接收预测的命令并将其转换为未来的航点以控制车辆。规划器和控制器,连同输入的高级指令、预测的中级命令和低级航点,共同构成了自动驾驶的动作策略分层结构。整个流程可以用数学表达式表示为
其中
表示上下文驾驶指令,
和
分别表示第
帧的视觉输入和预测的控制信号(即航点),
和
分别代表高级规划器和低级控制器。
High-level Planner
在AD-H系统中,规划者专注于高级决策制定,不参与低级控制信号的生成,从而变得更加专业化。为此,规划者不仅需要进行视觉感知以理解周围环境及其自身状态,还需要有效的推理和规划,将上下文指令分解为中级驾驶命令。为此,作者采用多语言大模型(MLLM)作为高级规划者,以利用它们强大的涌现能力(作者主要在实验中探索LLaVA-7B Liu等人(2024)和Mipha-3B Zhu等人(2024))。图2(a)展示了基于MLLM的规划者的概览。在每一个决策帧,4个环视图像被连接起来并输入到一个预训练的视觉编码器Radford等人(2021)。编码的视觉特征通过一个投影仪进一步转换到文本标记空间。最后,视觉特征和标记化的高级指令一起顺序地输入到MLLM中,以自回归方式预测中级命令。
通过互联网规模的预训练和大规模的指令调优,MLLMs获得了强大的推理能力,以及丰富的世界知识,这使得MLLMs能够更好地在各个任务和应用场景中泛化。然后,作者在收集的自动驾驶数据集(第4节)上进行下游微调,教导MLLMs如何根据上下文信息通过下一个标记预测生成精确的中级命令。
由于驾驶命令也是自然语言,这个下游任务本质上与MLLMs的预训练目标是一致的。因此,预训练MLLM的涌现能力可以得到充分释放。作者的实验表明,基于MLLM的规划者能够更好地泛化到新的驾驶场景、长视野指令以及未见过的环境,甚至展现出自我修正能力。
Lightweight Controller
控制器的作用是将规划器生成的中间驾驶命令转换为可执行的控制信号,这比直接从高级指令预测控制信号要容易得多。因此,作者不是使用Liu等人(2024)的7B LLaMA模型,像Shao等人(2023)在LMDrive中所做的那样,而是采用更轻量级的OPT-350M Zhang等人(2022)来实现这一目的。由于OPT-350M是一个纯语言模型,作者通过增加一个额外的视觉编码器He等人(2016)和一个Q-Former Li等人(2023)来赋予它视觉感知能力。如图2所示,控制器的流程与规划器的流程类似。
输入图像同样由视觉编码器编码,然后通过预训练的Q-Former投影到文本特征空间。OPT-350M将视觉嵌入以及高级指令和中级命令的文本标记作为输入。其输出层的隐藏状态作为动作嵌入,最终通过2层MLP解码为5个未来航点。这些航点可以输入到下游控制算法(例如,PID)中,以生成车辆控制的数值信息,如速度、油门和转向角。上述控制器的流程在数学上可以表示为