协同驾驶超进化！CoDrivingLLM：大语言模型如何驱动决策框架？

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-03 00:03

正文

作者 | Shiyu Fang等

编辑 | 自动驾驶之心

写在前面 && 笔者理解

随着自动驾驶技术的不断进步，我们可能正在进入一个连接自动驾驶车辆（Connected Autonomous Vehicles, 简称CAVs）和人工驾驶车辆（Human-Driven Vehicles, 简称HDVs）共存的时代。尽管CAVs在提高交通安全和效率方面具有巨大潜力，但它们在开放道路上的表现还远未达到令人满意的程度。根据加利福尼亚州机动车管理局的报告，51%的车辆解绑是由于CAVs的决策失败造成的。此外，北京自动驾驶车辆道路测试报告揭示，高达91%的解绑事件发生在与其他车辆交互时，这表明目前的自动驾驶技术还不足以应对复杂的交互场景。为了改善这个问题，利用CAVs的协同驾驶能力是一个较为有希望的方法。

针对不同场景下的协同驾驶问题，目前流行的方法大致可以分为以下几种：

基于优化的方法 旨在最大化或最小化目标函数以实现特定目标。但是基于优化的方法往往未能在驾驶过程中明确考虑法规和社会规范，使得他们的决策结果难以理解。
基于规则的方法 在形式上简单，因此计算效率高。然而，尽管可以将基于规则的方法与交通法规结合起来，但预设的规则通常会导致鲁棒性差。
基于学习方法 ，如深度学习和强化学习。这些方法已成功应用于交叉口、合并区域和高速公路等环境中的协同驾驶，表现出良好的性能。但基于学习模型的性能在转移到未经训练的环境中时往往会显著下降。

另一方面，近年来Transformer模型和大型语言模型（LLMs）的快速发展为实现协同决策提供了新的可能性。这些模型已经在自然语言处理和智能体决策制定等领域展示了巨大的潜力。在这种背景下，作者提出了一个交互式和可学习的LLM驱动的协同驾驶框架，用于全场景和全Cooperative Driving Automation(简称CDA)。

论文链接：https://arxiv.org/pdf/2409.12812
开源链接：https://github.com/FanGShiYuu/CoDrivingLLM

问题表述

目前，CAVs在开放道路上的表现仍然不是很理想。在某些场景下，CAV的事故率甚至是人类驾驶员的5.25倍，这显然不能满足人们对自动驾驶技术的期望。而CAVs的通信能力使其能够实现互联互通和相互协助。因此，利用协同驾驶能力是提高CAVs性能是作者认为非常有前途的方式。

多个CAVs的协同决策问题可以被建模为一个部分可观察的马尔可夫决策过程（POMDP）。作者使用元组来定义POMDP，其中代表所有被控制智能体（CAVs）的有限集合，表示包含所有智能体的状态空间。代表每个智能体的观测空间，表示动作空间，是与CAV 相关联的奖励。状态转移分布由表示。在任何给定时间，每个智能体接收一个单独的观测并根据策略选择一个动作。然后智能体根据给出的概率转移到新的状态。

观测空间 (Observation Space)

由于传感器硬件的限制，CAV只能在有限距离内检测到周围车辆的状态信息。作者将智能体的感知范围内所有可观察车辆的集合记为。智能体的观测矩阵是一个尺寸为的矩阵，其中代表智能体可观察到的车辆数量，代表用于描述车辆状态的特征数量。车辆的特征向量表示为：

其中和是纵向和横向位置，和是纵向和横向速度，和分别是车辆的航向角的余弦和正弦值。

动作空间 (Action Space)

鉴于LLMs在基于世界知识而非数值计算的推理能力方面的优势，作者将CAV的决策动作设计为离散的语义决策，而不是直接的车辆控制动作。智能体的动作空间定义为一组高级控制决策，包括 {slow down, cruise, speed up, change left, change right}。一旦选择了一个高级决策，低级控制器生成相应的转向和油门控制信号来管理CAVs的运动。整体动作空间是所有CAV动作的组合，即：

模型结构

CoDrivingLLM主要包括三个模块：环境模块、推理模块和记忆模块。

A. 总体架构

图2展示了CoDrivingLLM中的主要模块及其逻辑关系，包括三个主要模块：环境模块、推理模块和记忆模块。 环境模块 根据上一个时间步的CAV和HDV的动作更新当前场景信息，包括所有车辆的状态，如位置、速度等。接下来，作者设计了一个集中-分布式结合的LLM 推理模块 。基于SAE J3216标准定义的CDA的四个级别，作者将这个推理模块整合了四个子功能：状态共享、意图共享、协商和决策。通过结合思维链（Chain-of-Thought, COT）方法，作者将推理过程中的每个子功能顺序连接起来，以增强决策的安全性和可靠性。在这个过程中，每个CAV使用LLMs进行分布式的高级逻辑推理，完成不同级别的协同驾驶，并利用框架内的冲突协调器进行集中冲突解决，进一步提高安全性。最后，推理过程中的场景描述、冲突描述和最终决策以向量化形式存储在 记忆数据库 中。在随后的推理中，CAV可以参考最相似的过去记忆作为经验，使设计的CAV能够在驾驶过程中不断学习和提高其能力。

B. 环境模块

环境模块包括两个子模块：

环境动态模拟子模块，它模拟真实世界的环境动态，为协同驾驶框架提供现实的背景交通流和训练反馈；
基于模型的控制执行子模块，为LLM提供基于模型的车辆控制单元，提高动作执行的准确性和成功率。

环境动态模拟子模块 ：真实世界的反馈对于训练一个稳定和可靠的协同决策模型至关重要。为了确保模拟的真实性和可靠性，作者在环境动态模块中考虑了一个混合人自动驾驶环境，引入不受控制的人工驾驶车辆，为协同驾驶框架创造更加现实的背景交通流。这些不受控制的车辆不参与协同驾驶任务，意味着它们不共享它们的意图，并仅基于它们自己的决策逻辑运行。鉴于IDM（Intelligent Driver Model）和MOBIL（Minimizing Overall Braking Induced by Lane changes）的结合被广泛用于表征人类驾驶行为，并且在交叉口、环形交叉口和合并区域等各种场景中都显示出良好的结果，作者分别利用IDM和MOBIL来代表HDV的纵向和横向行为。HDV的加速度由IDM给出，如下所示：

其中，是从IDM导出的加速度，是期望速度，是加速度指数，和是前车与主体车辆之间的速度差和距离，是预期距离，是最小停车距离，是期望的时间间隔，是最大加速度，是期望的减速度。此外，MOBIL通过最小化变道引起的总制动来实现安全高效的交通流，主要包括两部分：变道激励和安全检查。变道激励评估变道对本身和周围车辆加速度变化的影响，以确定是否需要变道。

其中，和分别是变道前后车辆的加速度，是一个礼貌系数，它决定了车辆在做出变道决策时对周围车辆加速度变化的关注程度，是触发变道所需的加速度增益。同时，为了确保变道的安全性，MOBIL模型还进行了安全检查，以确保变道不会导致预期车道上后方车辆的突然刹车，即：

其中，是切入期间施加在车辆上的最大制动。

基于模型的控制执行子模块 ：虽然LLMs具有强大的推理能力，但它们在精确的数学计算和低级车辆运动控制方面表现不佳。为了解决这个问题，作者设计了一个基于模型的控制执行子模块。在这个模型中，作者使用基于模型的方法将推理模块的语义输出转换为加速度和前轮角度，然后用于更新车辆在下一个时间步的位置、速度和其他信息。具体来说，加速度和前轮角度都由相对简单的比例控制器控制，计算公式如下：

其中，和分别是比例纵向控制和控制增益，