具有 LLM 驱动数据合成和自动驾驶策略调整的鲁棒 RL

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-10-26 02:24

正文

24年10月来自利物浦大学、华威大学和东南大学的论文“Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving”。

大语言模型 (LLM) 与自动驾驶系统的集成展示了强大的常识和推理能力，有效地解决了纯数据驱动方法的缺陷。当前基于 LLM 的智体需要较长的推理时间，并且在与实时自动驾驶环境交互时面临挑战。一个关键的悬而未决的问题是，是否可以有效地利用来自 LLM 的知识来训练高效且强大的强化学习 (RL) 智体。 RAPID ，一种鲁棒自适应策略注入和蒸馏框架，它使用基于 LLM 的驾驶智体和在线自适应合成的数据来训练专门的混合策略 RL 智体。

RAPID 具有三种关键设计：1) 利用从 LLM 智体收集的离线数据将专家知识蒸馏到 RL 策略中，以实现更快的实时推理；2) 在 RL 中引入强大的蒸馏，以继承基于 LLM 教师的性能和鲁棒性；3) 采用混合策略方法与策略适配器进行联合决策解码。通过在线环境交互进行微调，RAPID 减少了 LLM 知识的遗忘，同时保持了对不同任务的适应性。

RAPID架构。如图 (a) 所示，用 GPT-3.5 [23] 在 HighwayEnv [22] 上进行了闭环驾驶实验，收集离线数据集。HighwayEnv 中的车辆密度和车道数可以调整，选择 LANE-3-DENSITY-2 作为基础环境。作为纯文本的 LLM，GPT-3.5 无法直接与 HighwayEnv 模拟器交互。为了促进其观察和决策过程，实验结合感知工具和智体提示，使 GPT-3.5 能够有效地与模拟环境互动。提示分为以下几个阶段：（1）前缀提示：LLM 获取当前驾驶场景和历史信息。（2）推理：通过使用 ReAct 框架 [24]，基于 LLM 的智体根据场景推理适当的驾驶行为。（3）输出决策：LLM 输出关于采取哪种元动作的决策。智体可以访问 5 个元动作：车道左侧、车道右侧、更快、更慢和空闲。通过上面描述的迭代闭环过程，收集数据集 DLLM = {(s, a, r, s′ )|a ∼ πLLM (a|s)}，其中 πLLM 是 LLM 智体。

如图所示：（a）策略网络（Transformer编码器）蒸馏目标πdistil(·) 和离线目标πadapt(·) 的架构；（b）动作解码器（Transformer编码器）dec(·) 的架构；（c）Transformer主干网（仅编码器）。在自动驾驶中，RL 策略通常具有自车的概览以及周围汽车的信息。通过考虑所有捕获的汽车运动来预测自动作。

假设捕获了 V 辆车，F 个辆车特征和 A 个动作特征，状态可以用 R 中的矩阵封装，而动作只是 R 中的一个向量。从观察中获取动作的典型方法，是将所有 V 特征连接成一行，然后输入到 MLP 中。然而，当原始 RL 智体扩展为联合决策的多策略时，即通过跨学科协作（例如 LLM 蒸馏的知识和在线环境）对动作进行建模。在这种情况下，简单的 MLP 将车辆编码为一个统一的嵌入，无法为每辆车建模明确的决策过程，因此缺乏可解释性。

具有 LLM 驱动数据合成和自动驾驶策略调整的鲁棒 RL

正文

请到「今天看啥」查看全文