VLM-RL: 一个用于安全自动驾驶的统一视觉语言模型与强化学习框架

智能车情报局 · 公众号 · · 2025-01-06 20:58

正文

大会预告

1月14日，第四届全球自动驾驶峰会 将在北京举办。分会场上午的 自动驾驶视觉语言模型技术研讨会 议程现已公布。中国科学院自动化研究所多模态人工智能系统全国重点实验室助理研究员戴星原，上海人工智能实验室青年研究员、香港大学博士生司马崇昊，华中科技大学Hust Vision Lab与地平线联合培养博士生蒋博，香港中文大学MMLab在读博士邵昊将带来主题报告。欢迎申请免费票或购票～

文章转载自公众号：自动驾驶之心。本文只做学术/技术分享，如有侵权，联系删文。

摘要

近年来，基于强化学习（Reinforcement Learning, RL）的驾驶策略学习方法在自动驾驶领域受到越来越多的关注，并在各种驾驶场景中取得了显著进展。然而，传统的RL方法依赖于手工设计的奖励函数，这不仅需要大量的人力投入，还往往缺乏通用性。为了解决这些局限性，我们提出了VLM-RL，一个将预训练的视觉-语言模型（Vision-Language Models, VLMs）与RL相结合的统一框架，用于通过图像观测和自然语言目标生成奖励信号。VLM-RL的核心是将对比语言目标（Contrasting Language Goal, CLG）作为奖励，利用正面和负面的语言目标生成语义奖励信号。此外，我们引入了一种层次化的奖励合成方法，将基于CLG的语义奖励与车辆状态信息相结合，从而提升奖励的稳定性并提供更全面的奖励信号。同时，采用批量处理技术优化了训练过程中的计算效率。我们在在CARLA模拟器中进行了大量实验，结果表明，VLM-RL优于最新的基线方法，使碰撞率降低10.5%、路线完成率提高104.6%，并且在未见过的驾驶场景中表现出强大的泛化能力。此外，VLM-RL能够无缝集成几乎所有标准的RL算法，有望革新依赖于手工奖励设计的传统RL范式，并实现持续的性能提升。演示视频和代码可通过以下链接访问：https://zilin-huang.github.io/VLM-RL-website/

论文链接：https://arxiv.org/abs/2412.15544

介绍

观察人类学习新技能的过程，我们发现，人类通常通过对比示例更有效地学习（图1）。例如，在教授某人如何煎牛排时，导师通常会强调正确和错误的技巧：“完美煎制的牛排应具有金黄酥脆的外壳和均匀粉红的内部”，与“如果牛排完全变成深棕色并伴有烧焦的气味，则表示煎过火了”。这种方式帮助学习者通过识别期望和不期望的结果，全面理解正确的烹饪技巧。

图 1：奖励设计范式的概念对比。(a) 机器人操作任务通常具有明确的目标（例如，“将胡萝卜放入碗中”），使得 VLM 可以提供清晰的语义奖励。(b) 现有方法仅使用负面目标（例如，“两辆车发生了碰撞”），专注于规避但缺乏正面引导。(c) 我们的 CLG-as-Reward 范式整合了正面和负面目标，使 VLM-RL 能够提供更具信息性的语义引导，实现更安全、更具泛化能力的驾驶。

受到人类学习过程的启发，我们提出了一个整合预训练视觉语言模型与在线强化学习的统一框架，称为 VLM-RL，如图2所示。VLM-RL 从根本上重新思考了基础模型如何融入基于 RL 的自动驾驶系统中。我们首先引入了对比语言目标的概念，用于指导基于 RL 的安全驾驶任务。在此基础上，我们提出了一种新的 CLG-as-Reward范式，利用 CLG 生成更具信息性和上下文感知的奖励信号。

为了增强学习的稳定性，我们采用了一种层次化奖励合成方法，将基于 CLG 的奖励与车辆状态信息相结合。这些合成的奖励随后被集成到标准 RL 中进行策略训练。此外，我们还引入了批量处理技术，以提高训练过程中的计算效率。

据我们所知， VLM-RL 是自动驾驶领域中首个将视觉语言模型与强化学习相结合，用于在 CARLA 模拟器中进行端到端驾驶策略学习的研究工作。

方法

如图3所示，VLM-RL 框架由四个主要组件组成。首先，我们定义了对比语言目标的概念，该目标描述了期望和不期望的驾驶行为，为奖励计算提供了基础。其次，我们利用 CLIP 来计算当前驾驶状态与这些对比语言描述之间的语义对齐程度，从而生成语义奖励信号。第三，我们开发了一种层次化的奖励合成方法，将语义奖励与车辆状态信息（例如速度、航向角）相结合，以生成稳定且全面的奖励信号。第四，为了优化计算效率，我们实现了一种批量处理技术，该技术通过定期处理来自回放缓冲区的观测数据，而不是实时计算奖励来提高训练效率。