协同驾驶超进化！CoDrivingLLM：大语言模型如何驱动决策框架？

自动驾驶之心 · 公众号 · · 2024-10-08 07:30

正文

点击下方卡片，关注“ 自动驾驶之心 ”公众号

今天自动驾驶之心分享 同济大学在协同驾驶上的工作—CoDrivingLLM！ 大语言模型驱动的决策框架交互式、可学习的协同驾驶。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>> 点击进入→ 自动驾驶之心 『大语言模型』 技术交流群

论文作者 | Shiyu Fang等

编辑 | 自动驾驶之心

写在前面 && 笔者理解

随着自动驾驶技术的不断进步，我们可能正在进入一个连接自动驾驶车辆（Connected Autonomous Vehicles, 简称CAVs）和人工驾驶车辆（Human-Driven Vehicles, 简称HDVs）共存的时代。尽管CAVs在提高交通安全和效率方面具有巨大潜力，但它们在开放道路上的表现还远未达到令人满意的程度。根据加利福尼亚州机动车管理局的报告，51%的车辆解绑是由于CAVs的决策失败造成的。此外，北京自动驾驶车辆道路测试报告揭示，高达91%的解绑事件发生在与其他车辆交互时，这表明目前的自动驾驶技术还不足以应对复杂的交互场景。为了改善这个问题，利用CAVs的协同驾驶能力是一个较为有希望的方法。

针对不同场景下的协同驾驶问题，目前流行的方法大致可以分为以下几种：

基于优化的方法 旨在最大化或最小化目标函数以实现特定目标。但是基于优化的方法往往未能在驾驶过程中明确考虑法规和社会规范，使得他们的决策结果难以理解。
基于规则的方法 在形式上简单，因此计算效率高。然而，尽管可以将基于规则的方法与交通法规结合起来，但预设的规则通常会导致鲁棒性差。
基于学习方法 ，如深度学习和强化学习。这些方法已成功应用于交叉口、合并区域和高速公路等环境中的协同驾驶，表现出良好的性能。但基于学习模型的性能在转移到未经训练的环境中时往往会显著下降。

另一方面，近年来Transformer模型和大型语言模型（LLMs）的快速发展为实现协同决策提供了新的可能性。这些模型已经在自然语言处理和智能体决策制定等领域展示了巨大的潜力。在这种背景下，作者提出了一个交互式和可学习的LLM驱动的协同驾驶框架，用于全场景和全Cooperative Driving Automation(简称CDA)。

论文链接：https://arxiv.org/pdf/2409.12812
开源链接：https://github.com/FanGShiYuu/CoDrivingLLM

问题表述

目前，CAVs在开放道路上的表现仍然不是很理想。在某些场景下，CAV的事故率甚至是人类驾驶员的5.25倍，这显然不能满足人们对自动驾驶技术的期望。而CAVs的通信能力使其能够实现互联互通和相互协助。因此，利用协同驾驶能力是提高CAVs性能是作者认为非常有前途的方式。

多个CAVs的协同决策问题可以被建模为一个部分可观察的马尔可夫决策过程（POMDP）。作者使用元组来定义POMDP，其中代表所有被控制智能体（CAVs）的有限集合，表示包含所有智能体的状态空间。代表每个智能体的观测空间，表示动作空间，是与CAV 相关联的奖励。状态转移分布由表示。在任何给定时间，每个智能体接收一个单独的观测并根据策略选择一个动作。然后智能体根据给出的概率转移到新的状态。

观测空间 (Observation Space)

由于传感器硬件的限制，CAV只能在有限距离内检测到周围车辆的状态信息。作者将智能体的感知范围内所有可观察车辆的集合记为。智能体的观测矩阵是一个尺寸为的矩阵，其中代表智能体可观察到的车辆数量，代表用于描述车辆状态的特征数量。车辆的特征向量表示为：

其中和是纵向和横向位置，和是纵向和横向速度，和分别是车辆的航向角的余弦和正弦值。

动作空间 (Action Space)

鉴于LLMs在基于世界知识而非数值计算的推理能力方面的优势，作者将CAV的决策动作设计为离散的语义决策，而不是直接的车辆控制动作。智能体的动作空间定义为一组高级控制决策，包括 {slow down, cruise, speed up, change left, change right}。一旦选择了一个高级决策，低级控制器生成相应的转向和油门控制信号来管理CAVs的运动。整体动作空间是所有CAV动作的组合，即：

模型结构

CoDrivingLLM主要包括三个模块：环境模块、推理模块和记忆模块。

A. 总体架构

图2展示了CoDrivingLLM中的主要模块及其逻辑关系，包括三个主要模块：环境模块、推理模块和记忆模块。 环境模块 根据上一个时间步的CAV和HDV的动作更新当前场景信息，包括所有车辆的状态，如位置、速度等。接下来，作者设计了一个集中-分布式结合的LLM 推理模块 。基于SAE J3216标准定义的CDA的四个级别，作者将这个推理模块整合了四个子功能：状态共享、意图共享、协商和决策。通过结合思维链（Chain-of-Thought, COT）方法，作者将推理过程中的每个子功能顺序连接起来，以增强决策的安全性和可靠性。在这个过程中，每个CAV使用LLMs进行分布式的高级逻辑推理，完成不同级别的协同驾驶，并利用框架内的冲突协调器进行集中冲突解决，进一步提高安全性。最后，推理过程中的场景描述、冲突描述和最终决策以向量化形式存储在 记忆数据库 中。在随后的推理中，CAV可以参考最相似的过去记忆作为经验，使设计的CAV能够在驾驶过程中不断学习和提高其能力。

B. 环境模块

环境模块包括两个子模块：

环境动态模拟子模块，它模拟真实世界的环境动态，为协同驾驶框架提供现实的背景交通流和训练反馈；
基于模型的控制执行子模块，为LLM提供基于模型的车辆控制单元，提高动作执行的准确性和成功率。

环境动态模拟子模块 ：真实世界的反馈对于训练一个稳定和可靠的协同决策模型至关重要。为了确保模拟的真实性和可靠性，作者在环境动态模块中考虑了一个混合人自动驾驶环境，引入不受控制的人工驾驶车辆，为协同驾驶框架创造更加现实的背景交通流。这些不受控制的车辆不参与协同驾驶任务，意味着它们不共享它们的意图，并仅基于它们自己的决策逻辑运行。鉴于IDM（Intelligent Driver Model）和MOBIL（Minimizing Overall Braking Induced by Lane changes）的结合被广泛用于表征人类驾驶行为，并且在交叉口、环形交叉口和合并区域等各种场景中都显示出良好的结果，作者分别利用IDM和MOBIL来代表HDV的纵向和横向行为。HDV的加速度由IDM给出，如下所示：

其中，