24年5月来自同济大学、吉林大学、福特和上海智能无人系统国家重点实验室的论文“Prospective Role of Foundation Models in Advancing Autonomous Vehicles”。
随着人工智能的发展和深度学习的突破,GPT、Sora 等大规模基础模型(FM)在自然语言处理、计算机视觉等多个领域取得了令人瞩目的成果。FM 在自动驾驶领域的应用前景广阔,例如,它可以为场景理解和推理做出贡献。通过对丰富的语言和视觉数据进行预训练,FM 可以理解和解读驾驶场景中的各种元素,并通过认知推理为驾驶决策和规划提供语言和动作指令。此外,FM 还可以基于对驾驶场景的理解来增强数据,为长尾分布中那些在日常驾驶和数据收集中不太可能遇到的罕见情况提供可行的场景,从而提高自动驾驶系统的准确性和可靠性。另一个证明 FM 应用潜力的模型是世界模型,以 DREAMER 系列为代表,展示了理解物理定律和动力学的能力。世界模型在自监督学习的范式下从海量数据中学习,可以生成未见过但可信的驾驶环境,有助于增强对道路使用者行为的预测和驾驶策略的离线训练。本文总结FM 在自动驾驶中的应用和未来趋势。通过利用 FM 的强大功能,努力解决自动驾驶中长尾分布带来的潜在问题,从而提高整体安全性。
“预训练+微调”在自动驾驶研究中的思路并不是在大模型引入后才出现的,而是研究了很久的。用一个更熟悉的术语来说,就是端到端的自动驾驶。在过去几年中,一些学者已经对预训练主干进行了各种优化,包括Transformer架构和自监督学习方法——预训练主干是指将每个模态输入转换成可用于下游任务(如目标检测、轨迹预测、决策规划等)的特征表示模型。也有很多研究尝试基于Transformer架构开发端到端的框架,并取得了优异的成果。因此,带一个预训练主干的监督端到端自动驾驶解决方案的流程图如图所示。
随着 BERT、GPT-4、Llama[78]、视觉语言模型 (VLM) CLIP[79]、ALIGN[80]、BLIP-2[81] 和多模态大语言模型 (M-LLM) GPT-4V[82]、LLaVA[83] 和 Gemini[84] 以及其他 FM 的重大研究进展,其强大的推理能力被认为为实现通用人工智能 (AGI)[85] 带来了新的曙光,对社会各方面产生了重大而深远的影响。
在自动驾驶领域,语言、视觉等 FM 也展现出巨大潜力,有望提升自动驾驶模型对驾驶场景的理解和推理能力,实现自动驾驶的类人驾驶。
如图所示,对基于语言和视觉FM 的自动驾驶系统增强对驾驶场景的理解,以及通过推理给出语言指导指令和驾驶行为的相关研究进行了介绍。
上图概括了当前研究中将 LLM 纳入自动驾驶系统的流程,主要通过场景理解、高级语义决策和轨迹规划来实现。
更清楚地说明工作原理,用 DriveMLM[105]作为示例,如下图做进一步说明:
DriveMLM 使用多模态 LLM (M-LLM) 模拟模块化自动驾驶系统的行为规划模块,该模块基于处理后的感知信息和命令要求在逼真的模拟器中执行闭环自动驾驶。
DriveMLM 还生成其驾驶决策的自然语言解释,从而提高系统的透明度和可信度。
将LLM应用于自动驾驶系统轨迹规划直接生成,以一个典型的近期研究工作LMDrive[119]为例,如图所示:LMDrive基于Carla模拟器,模型训练包含两个阶段:预训练和指令微调;在
预训练
阶段,将预测头添加到视觉编码器中,执行预训练任务;预训练完成后,丢弃预测头并冻结视觉编码器;在
指令微调
阶段,为每个驾驶片段配置导航指令和通知指令,并通过LLaMA对视觉token进行时间序列指令编码处理,并与文本token一起输入到LLM中得到预测token。经过2-MLP Adapter之后,输出的是自动车辆未来轨迹的规划和指令是否完成的标志,规划好的轨迹通过横向和纵向PID控制器完成闭环仿真。
世界模型是指世界的心理模型。
它可以被解释为一种人工智能模型,它包含对其运行环境的整体理解或表示。
该模型能够模拟环境以做出预测或决策。
“世界模型”一词在最近的文献中与强化学习有关[126,127]。
这一概念在自动驾驶领域也引起了关注,因为它能够理解和表达驾驶环境的动态。
LeCun[128]在他的论文中指出,人类和动物的学习能力可能植根于他们学习世界模型的能力,使他们能够内化和理解世界是如何运作的。
他指出,人类和动物已经表现出通过观察少量事件(无论与手头的任务相关还是不相关)来获取大量有关世界运作背景知识的能力。
世界模型的概念可以追溯到Sutton提出的Dyna[129]。
1991 年,神经网络首次提出了 DNN,通过观察世界的状态并采取相应的行动,与世界进行交互学习[130]。
Dyna 本质上是一种有监督条件下的强化学习。
之后,研究者也做了很多尝试,Ha[126]尝试利用无监督的方式进行学习,用 VAE 对输入特征进行编码,用 RNN 学习状态的演变。
Hafner[131]提出了递推状态空间模型 (RSSM),结合强化学习实现融合随机性和确定性的多步预测。