专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
宝山消防支队  ·  宝山区2025年消防安全重点单位公示 ·  昨天  
上海发展改革  ·  S4最新进展!计划至2025年底项目具备交工 ... ·  2 天前  
今日闵行  ·  结婚登记创新低,降幅超20%丨主播说 ·  2 天前  
51好读  ›  专栏  ›  智能车情报局

VLM-RL: 一个用于安全自动驾驶的统一视觉语言模型与强化学习框架

智能车情报局  · 公众号  ·  · 2025-01-06 20:58

正文

大会预告

1月14日,第四届全球自动驾驶峰会 将在北京举办。分会场上午的 自动驾驶视觉语言模型技术研讨会 议程现已公布。中国科学院自动化研究所多模态人工智能系统全国重点实验室助理研究员戴星原,上海人工智能实验室青年研究员、香港大学博士生司马崇昊,华中科技大学Hust Vision Lab与地平线联合培养博士生蒋博,香港中文大学MMLab在读博士邵昊将带来主题报告。欢迎申请免费票或购票~


文章转载自公众号:自动驾驶之心。本文只做学术/技术分享,如有侵权,联系删文。

01

摘要


近年来,基于强化学习(Reinforcement Learning, RL)的驾驶策略学习方法在自动驾驶领域受到越来越多的关注,并在各种驾驶场景中取得了显著进展。然而,传统的RL方法依赖于手工设计的奖励函数,这不仅需要大量的人力投入,还往往缺乏通用性。为了解决这些局限性,我们提出了VLM-RL,一个将预训练的视觉-语言模型(Vision-Language Models, VLMs)与RL相结合的统一框架,用于通过图像观测和自然语言目标生成奖励信号。VLM-RL的核心是将对比语言目标(Contrasting Language Goal, CLG)作为奖励,利用正面和负面的语言目标生成语义奖励信号。此外,我们引入了一种层次化的奖励合成方法,将基于CLG的语义奖励与车辆状态信息相结合,从而提升奖励的稳定性并提供更全面的奖励信号。同时,采用批量处理技术优化了训练过程中的计算效率。我们在在CARLA模拟器中进行了大量实验,结果表明,VLM-RL优于最新的基线方法,使碰撞率降低10.5%、路线完成率提高104.6%,并且在未见过的驾驶场景中表现出强大的泛化能力。此外,VLM-RL能够无缝集成几乎所有标准的RL算法,有望革新依赖于手工奖励设计的传统RL范式,并实现持续的性能提升。演示视频和代码可通过以下链接访问:https://zilin-huang.github.io/VLM-RL-website/
  • 论文链接:https://arxiv.org/abs/2412.15544


02

介绍


观察人类学习新技能的过程,我们发现,人类通常通过对比示例更有效地学习(图1)。例如,在教授某人如何煎牛排时,导师通常会强调正确和错误的技巧:“完美煎制的牛排应具有金黄酥脆的外壳和均匀粉红的内部”,与“如果牛排完全变成深棕色并伴有烧焦的气味,则表示煎过火了”。这种方式帮助学习者通过识别期望和不期望的结果,全面理解正确的烹饪技巧。
图 1:奖励设计范式的概念对比。(a) 机器人操作任务通常具有明确的目标(例如,“将胡萝卜放入碗中”),使得 VLM 可以提供清晰的语义奖励。(b) 现有方法仅使用负面目标(例如,“两辆车发生了碰撞”),专注于规避但缺乏正面引导。(c) 我们的 CLG-as-Reward 范式整合了正面和负面目标,使 VLM-RL 能够提供更具信息性的语义引导,实现更安全、更具泛化能力的驾驶。
受到人类学习过程的启发,我们提出了一个整合预训练视觉语言模型与在线强化学习的统一框架,称为 VLM-RL,如图2所示。VLM-RL 从根本上重新思考了基础模型如何融入基于 RL 的自动驾驶系统中。我们首先引入了对比语言目标的概念,用于指导基于 RL 的安全驾驶任务。在此基础上,我们提出了一种新的 CLG-as-Reward范式,利用 CLG 生成更具信息性和上下文感知的奖励信号。
为了增强学习的稳定性,我们采用了一种层次化奖励合成方法,将基于 CLG 的奖励与车辆状态信息相结合。这些合成的奖励随后被集成到标准 RL 中进行策略训练。此外,我们还引入了批量处理技术,以提高训练过程中的计算效率。
据我们所知, VLM-RL 是自动驾驶领域中首个将视觉语言模型与强化学习相结合,用于在 CARLA 模拟器中进行端到端驾驶策略学习的研究工作。
图2:自动驾驶奖励设计范式的比较概览。(a) 描述了基于 IL/RL 方法的驾驶策略学习的基本原理及其局限性。(b) 说明了基于基础模型的奖励设计方法(如 LLM-as-Reward 和 VLM-as-Reward 范式)在驾驶策略学习中的基本原理及其局限性。(c) 展示了我们提出的 VLM-RL 框架,通过利用 VLM 实现安全自动驾驶的全面且稳定的奖励设计。

03

方法

如图3所示,VLM-RL 框架由四个主要组件组成。 首先,我们定义了对比语言目标的概念,该目标描述了期望和不期望的驾驶行为,为奖励计算提供了基础。 其次,我们利用 CLIP 来计算当前驾驶状态与这些对比语言描述之间的语义对齐程度,从而生成语义奖励信号。 第三,我们开发了一种层次化的奖励合成方法,将语义奖励与车辆状态信息(例如速度、航向角)相结合,以生成稳定且全面的奖励信号。 第四,为了优化计算效率,我们实现了一种批量处理技术,该技术通过定期处理来自回放缓冲区的观测数据,而不是实时计算奖励来提高训练效率。
图 3:用于自动驾驶的 VLM-RL 框架架构。(a) 用于策略学习的观察和动作空间;(b) 定义 CLG 提供语义引导;(c) 基于预训练 VLM 的 CLG 语义奖励计算;(d) 分层奖励综合,将语义奖励与车辆状态信息整合,生成全面且稳定的奖励信号;(e) 使用批处理的策略训练,其中通过回放缓冲区存储的经验执行 SAC 更新,并异步计算奖励以优化效率。

对比语言目标


给定一个任务 及其自然语言描述 ,这一基本方法利用视觉语言模型生成奖励信号,引导智能体朝着期望的行为方向行动。其形式化表达如下:
其中 是一个可选的上下文,可以包含额外的信息或约束。在此公式中,VLM 接收语言目标 、当前观测 和可选上下文 ,并输出奖励信号。

CLG 作为奖励范式


给定视觉编码器 和语言编码器 ,它们映射到相同的潜在空间 。对于一系列状态-动作转移 ,VLM 奖励定义为:

其中 嵌入表示之间的距离度量。 大多数研究使用 CLIP 作为预训练的 VLM,并采用余弦相似度作为距离 度量。 具体公式为:


其中, 表示嵌入之间的余弦相似度, 分别是视觉和语言编码器。 在这种情况下,我们不需要上下文 语言目标 通常表示期望的行为。 计算过程如下: 当前观测 通过视觉编码器 处理,生成共享潜在空间 中的状态嵌入; 语言目标 通过语言编码器 编码,生成同一潜在空间中的目标嵌入; 奖励由状态嵌入与目标嵌入之间的余弦相似度计算得出。
我们将 CLG 奖励函数定义为:
其中, 是加权因子,满足 。当 时,智能体更专注于实现正面目标,而当 时,智能体更强调避开负面结果。为了简化,在本工作中,我们设定 ,即两个目标具有相等的优先级。 表示嵌入之间的余弦相似度。

多层奖励合成


与传统方法相比,我们的目标是通过结合车辆状态信息来保留 VLM 的zero-shot能力,从而生成更稳定且全面的奖励信号。具体而言,我们提出了一种层次化的奖励合成方法,该方法包括两个阶段:(a)通过 VLM 生成归一化的语义奖励;(b)将这些语义奖励与车辆状态信息结合以生成综合奖励信号。
Phase I: 语义奖励归一化
首先,通过 CLIP 处理观测帧,计算语义奖励 。为了确保稳定性,我们将相似度分数归一化到范围
其中, 分别经验设定为 ,以避免极端值并确保一致的缩放。
Phase II: 融合车辆状态信息
我们结合车辆状态信息生成综合奖励信号。该步骤利用传感器数据确保奖励反映现实的驾驶行为和安全约束。
综合奖励函数 通过将归一化的语义奖励 与车辆状态信息结合来计算。具体如下:
其中, 用于调节速度对齐程度,其中 评估车辆相对于车道中心的横向位置; 衡量车辆相对于道路方向的朝向; 确保车辆的横向位置相对于车道中心的一致性。
通过结合综合奖励函数,我们得到 VLM-RL 框架的最终奖励函数:
其中,稀疏任务奖励 确保智能体目标导向,而综合奖励 提供了基于高层语义理解和低层车辆动态的连续反馈。

基于批处理的策略训练


我们采用了 Soft Actor-Critic (SAC) 算法作为基础强化学习框架,原因是其在连续控制任务中具有出色的采样效率和稳定性。SAC 算法的目标是最大化期望总回报,同时通过熵正则化鼓励探索行为。其目标函数可以表示为:






请到「今天看啥」查看全文