专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
C2CC新传媒  ·  抗衰老需求激增1003%!这些成分异军突起 ... ·  6 小时前  
低吸波段王  ·  2月13日 神行午盘 ·  16 小时前  
微同城本地便民  ·  控油去屑必囤!自带山茶花清香,清爽蓬松 ·  昨天  
微同城本地便民  ·  控油去屑必囤!自带山茶花清香,清爽蓬松 ·  昨天  
江苏警方  ·  1,000,000元保住了! ·  2 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

具有 LLM 驱动数据合成和自动驾驶策略调整的鲁棒 RL

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-10-26 02:24

正文

24年10月来自利物浦大学、华威大学和东南大学的论文“Robust RL with LLM-Driven Data Synthesis and Policy Adaptation for Autonomous Driving”。

大语言模型 (LLM) 与自动驾驶系统的集成展示了强大的常识和推理能力,有效地解决了纯数据驱动方法的缺陷。当前基于 LLM 的智体需要较长的推理时间,并且在与实时自动驾驶环境交互时面临挑战。一个关键的悬而未决的问题是,是否可以有效地利用来自 LLM 的知识来训练高效且强大的强化学习 (RL) 智体。 RAPID ,一种鲁棒自适应策略注入和蒸馏框架,它使用基于 LLM 的驾驶智体和在线自适应合成的数据来训练专门的混合策略 RL 智体。

RAPID 具有三种关键设计:1) 利用从 LLM 智体收集的离线数据将专家知识蒸馏到 RL 策略中,以实现更快的实时推理;2) 在 RL 中引入强大的蒸馏,以继承基于 LLM 教师的性能和鲁棒性;3) 采用混合策略方法与策略适配器进行联合决策解码。通过在线环境交互进行微调,RAPID 减少了 LLM 知识的遗忘,同时保持了对不同任务的适应性。


RAPID架构。如图 (a) 所示,用 GPT-3.5 [23] 在 HighwayEnv [22] 上进行了闭环驾驶实验,收集离线数据集。HighwayEnv 中的车辆密度和车道数可以调整,选择 LANE-3-DENSITY-2 作为基础环境。作为纯文本的 LLM,GPT-3.5 无法直接与 HighwayEnv 模拟器交互。为了促进其观察和决策过程,实验结合感知工具和智体提示,使 GPT-3.5 能够有效地与模拟环境互动。提示分为以下几个阶段:(1)前缀提示:LLM 获取当前驾驶场景和历史信息。(2)推理:通过使用 ReAct 框架 [24],基于 LLM 的智体根据场景推理适当的驾驶行为。(3)输出决策:LLM 输出关于采取哪种元动作的决策。智体可以访问 5 个元动作:车道左侧、车道右侧、更快、更慢和空闲。通过上面描述的迭代闭环过程,收集数据集 DLLM = {(s, a, r, s′ )|a ∼ πLLM (a|s)},其中 πLLM 是 LLM 智体。


上图只有标有 ] 的模块才会被训练。 (a)阶段 1: 从环境中收集状态-动作展示并将其存储在重放缓冲区中。 (b)阶段 2: 使用收集的数据将 LLM 知识蒸馏为离线策略,适配器策略被冻结并且其输出tokens被零门控屏蔽。 (c)阶段 3: 通过与环境交互在线调整预训练模型,LLM 蒸馏策略被冻结,并且训练零门控以实现渐进式适应。

如图所示:(a)策略网络(Transformer编码器)蒸馏目标πdistil(·) 和离线目标πadapt(·) 的架构;(b)动作解码器(Transformer编码器)dec(·) 的架构;(c)Transformer主干网(仅编码器)。在自动驾驶中,RL 策略通常具有自车的概览以及周围汽车的信息。通过考虑所有捕获的汽车运动来预测自动作。

假设捕获了 V 辆车,F 个辆车特征和 A 个动作特征,状态可以用 R 中的矩阵封装,而动作只是 R 中的一个向量。从观察中获取动作的典型方法,是将所有 V 特征连接成一行,然后输入到 MLP 中。然而,当原始 RL 智体扩展为联合决策的多策略时,即通过跨学科协作(例如 LLM 蒸馏的知识和在线环境)对动作进行建模。在这种情况下,简单的 MLP 将车辆编码为一个统一的嵌入,无法为每辆车建模明确的决策过程,因此缺乏可解释性。







请到「今天看啥」查看全文