24年10月来自利物浦大学、华威大学和东南大学的论文“Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving”。
大语言模型 (LLM) 与自动驾驶系统的集成展示了强大的常识和推理能力,有效地解决了纯数据驱动方法的缺陷。当前基于 LLM 的智体需要较长的推理时间,并且在与实时自动驾驶环境交互时面临挑战。一个关键的悬而未决的问题是,是否可以有效地利用来自 LLM 的知识来训练高效且强大的强化学习 (RL) 智体。
RAPID
,一种鲁棒自适应策略注入和蒸馏框架,它使用基于 LLM 的驾驶智体和在线自适应合成的数据来训练专门的混合策略 RL 智体。
RAPID 具有三种关键设计:1) 利用从 LLM 智体收集的离线数据将专家知识蒸馏到 RL 策略中,以实现更快的实时推理;2) 在 RL 中引入强大的蒸馏,以继承基于 LLM 教师的性能和鲁棒性;3) 采用混合策略方法与策略适配器进行联合决策解码。通过在线环境交互进行微调,RAPID 减少了 LLM 知识的遗忘,同时保持了对不同任务的适应性。
RAPID架构。如图 (a) 所示,用 GPT-3.5 [23] 在 HighwayEnv [22] 上进行了闭环驾驶实验,收集离线数据集。HighwayEnv 中的车辆密度和车道数可以调整,选择 LANE-3-DENSITY-2 作为基础环境。作为纯文本的 LLM,GPT-3.5 无法直接与 HighwayEnv 模拟器交互。为了促进其观察和决策过程,实验结合感知工具和智体提示,使 GPT-3.5 能够有效地与模拟环境互动。提示分为以下几个阶段:(1)前缀提示:LLM 获取当前驾驶场景和历史信息。(2)推理:通过使用 ReAct 框架 [24],基于 LLM 的智体根据场景推理适当的驾驶行为。(3)输出决策:LLM 输出关于采取哪种元动作的决策。智体可以访问 5 个元动作:车道左侧、车道右侧、更快、更慢和空闲。通过上面描述的迭代闭环过程,收集数据集 DLLM = {(s, a, r, s′ )|a ∼ πLLM (a|s)},其中 πLLM 是 LLM 智体。
上图只有标有 ] 的模块才会被训练。
(a)阶段 1:
从环境中收集状态-动作展示并将其存储在重放缓冲区中。
(b)阶段 2:
使用收集的数据将 LLM 知识蒸馏为离线策略,适配器策略被冻结并且其输出tokens被零门控屏蔽。
(c)阶段 3:
通过与环境交互在线调整预训练模型,LLM 蒸馏策略被冻结,并且训练零门控以实现渐进式适应。
如图所示:(a)策略网络(Transformer编码器)蒸馏目标πdistil(·) 和离线目标πadapt(·) 的架构;(b)动作解码器(Transformer编码器)dec(·) 的架构;(c)Transformer主干网(仅编码器)。在自动驾驶中,RL 策略通常具有自车的概览以及周围汽车的信息。通过考虑所有捕获的汽车运动来预测自动作。
假设捕获了 V 辆车,F 个辆车特征和 A 个动作特征,状态可以用 R 中的矩阵封装,而动作只是 R 中的一个向量。从观察中获取动作的典型方法,是将所有 V 特征连接成一行,然后输入到 MLP 中。然而,当原始 RL 智体扩展为联合决策的多策略时,即通过跨学科协作(例如 LLM 蒸馏的知识和在线环境)对动作进行建模。在这种情况下,简单的 MLP 将车辆编码为一个统一的嵌入,无法为每辆车建模明确的决策过程,因此缺乏可解释性。