大语言模型引导深度强化学习，助力自动驾驶决策

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-18 00:04

正文

24年12月来自北理工的论文“Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving”。

深度强化学习 (DRL) 在自动驾驶决策中展现出巨大的潜力。然而，由于 DRL 的学习效率低，因此需要大量的计算资源才能在复杂的驾驶场景中实现合格的策略。此外，利用人类专家的指导来提高 DRL 性能需要极高的劳动力成本，这限制它的实际应用。本研究提出一种大语言模型 (LLM) 引导的深度强化学习 (LGDRL) 框架来解决自动驾驶汽车的决策问题。在这个框架中，基于 LLM 的驾驶专家被集成到 DRL 中，为 DRL 的学习过程提供智能指导。随后，为了有效利用 LLM 专家的指导来提高 DRL 决策策略的性能，通过创新的专家策略约束算法和 LLM 干预交互机制增强 DRL 的学习和交互过程。实验结果表明，与最先进的基线算法相比，该方法不仅实现 90% 的任务成功率的卓越驾驶性能，而且显著提高学习效率和专家指导利用效率。此外，所提出的方法使 DRL 智体能够在没有 LLM 专家指导的情况下保持一致和可靠的性能。

DRL 在行为决策系统中的应用仍然具有挑战性，主要是因为其固有的低学习效率。DRL 通过与环境交互获得的样本数据来优化其策略。如图（a）所示，传统的 DRL 方法难以在复杂的驾驶场景中积累足够多的成功轨迹，导致学习效率低下。这一限制严重阻碍 DRL 的策略优化过程，并经常导致不合格的决策策略。这种缓慢且不稳定的训练过程严重阻碍基于 DRL 的行为决策系统在自动驾驶汽车中的实际部署[7]。

本文提出一种 LLM 引导深度强化学习 (LGDRL) 框架。如图（b）所示，利用基于 LLM 的驾驶专家来提供指导，以增强 DRL 学习过程。基于 LLM 的驾驶专家消除 DRL 智体与环境之间众多交互中对人类专家指导的必要性。随后，引入一种专家策略约束 DRL 算法，该算法将基于 Jensen-Shannon (JS) 散度的策略约束纳入 AC 框架。策略约束将 DRL 策略与 LLM 专家策略之间的散度限制在预定义的边界内，修改 DRL 的学习目标。此外，训练期间 DRL 智体与环境之间的交互通过一种 LLM 干预交互机制进行修改，这使得 LLM 专家能够间歇性地干预 DRL 智体与环境之间的交互。

状态空间由车辆和目标的状态组成，动作空间包括五个离散动作，用于捕捉基本的驾驶操作和速度调整，包括变左道、怠速、变右道、加速和减速。动作空间内不同动作的详细描述如表所示。

奖励函数由四个部分组成：任务成功率、变道效率、驾驶速度和驾驶安全性。

所提出的框架如图所示。首先，构建一个 LLM 驾驶专家，在 DRL 智体的学习过程中提供行动指导。然后，提出一种专家策略约束的 DRL 算法。该算法将 JS 散度策略约束纳入其学习目标，使 DRL 策略更类似于 LLM 专家策略，从而促进 LLM 专家的先验知识有效地融入到 DRL 智体的学习过程中。此外，采用一种 LLM 干预交互机制，用LLM 专家提供的指导动作替代 DRL 智体的灾难性动作来与环境交互。最后，环境将离散的驾驶决策转化为特定的控制信号，实现环境内的状态转换并提供相应的奖励。

如图所示，LLM 驾驶专家包括三个基本组件：提示生成器、开箱即用的 LLM 和动作提取器。最初，提示生成器根据当前驾驶场景制定提示。随后，LLM 驾驶专家处理此提示以分析驾驶场景并产生相应的响应。最后，动作提取器解释并解码响应中嵌入的动作指导。

提示生成器由系统提示和场景提示组成。系统提示通过提供必要的背景信息为 LLM 设置上下文。在系统提示中，采用 CoT 提示技术，指导 LLM 将问题分解为一系列逻辑步骤 [37]。这种方法反映人类的解决问题的策略，其中中间步骤和子决策被阐明以得出最终结论。

场景提示提供当前驾驶环境的全面概述。环境上下文编码器使用结构化语言将来自环境的观察结果转换为文本场景描述。该编码器捕获 EV 和 SV 的运动状态，以及静态车道信息和目标信息。

动作提取器将 LLM 生成的文本响应转换为动作指导。首先，它解析响应并提取特定的动作指导。如果回复格式不正确，操作提取器会启动重新查询机制。此过程会提示 LLM 提供符合所需格式的修正回复。

为了在策略优化中有效利用专家指导，策略约束明确限制 DRL 策略与专家策略之间的偏差。具体而言，策略约束是一种机制，它将 DRL 智体的策略搜索空间限制在专家策略定义的高质量区域内，从而提高学习效率和派生的 DRL 策略的性能。

然后，将策略约束纳入 DRL 的学习目标中。因此，具有策略约束的 DRL 的学习目标是在遵守专家策略约束的同时最大化累积奖励，这可以表述为一个约束优化问题。

专家策略约束 DRL 算法将策略约束纳入 AC 框架，以解决该约束优化问题。基于拉格朗日对偶理论 [38]，该问题首先转化为其拉格朗日对偶形式。为了求解最优策略π∗，采用策略迭代（PI）方案。PI 主要包括两个过程：策略评估和策略改进。

1）策略评估过程通过评论（critic）网络进行。评论网络用于估计动作值函数Q（s，a），该函数表示在状态s下采取行动a的预期状态值。最佳动作值函数 Q∗（s，a）可以通过反复应用修改后的Bellman备份算子 T 来学习。评论网络的损失函数由 Bellman 残差定义。
2）策略改进过程用于优化DRL策略 π/θ，该过程通过更新演员（actor）网络进行。演员网络根据输入状态向量输出DRL智体选择每个动作的概率。

在训练阶段，当 DRL 智体以标准方式与环境交互时，环境中应用的动作是 DRL 动作，这些动作是从 DRL 策略 π/θ 的动作分布中采样的。然而，这种标准的交互方式往往会导致灾难性的行为，阻碍智体获得足够的成功轨迹，阻碍策略优化。

为了有效地利用专家指导来减轻这些限制，提出一种专家干预交互机制来取代标准交互方法。如图所示，该机制允许LLM专家在训练期间干预DRL智体与环境之间的交互。在这种情况下，干预是指用LLM专家提供的指导动作代替DRL智体的动作来与环境交互。注意，专家干预的交互机制仅在训练阶段激活。

在测试阶段，LLM专家不会干预DRL智体与环境之间的交互。具体而言，在专家干预的交互机制中，对环境应用的操作是基于DRL动作安全条件和干预许可条件确定的。最后的应用动作如下表达：

大语言模型引导深度强化学习，助力自动驾驶决策

正文

请到「今天看啥」查看全文