24年10月来自瑞士 SUPSI 等大学的论文“Integrating Reinforcement Learning with Foundation Models for Autonomous Robotics: Methods and Perspectives”。
基础模型 (FM) 是在大量未标记数据集上进行预训练的大型深度学习模型,在理解复杂模式和生成复杂输出方面表现出强大的能力。然而,它们往往难以适应特定的任务。强化学习 (RL) 允许智体通过交互和反馈进行学习,它提供一个令人信服的解决方案。将 RL 与 FM 集成使这些模型能够实现预期结果并在特定任务中表现出色。此外,通过利用 FM 的推理和泛化能力,可以增强 RL。这种协同作用正在彻底改变包括机器人技术在内的各个领域。知识和泛化能力丰富的 FM 为机器人提供有价值的信息,而 RL 则通过现实世界的交互促进学习和适应。
这篇综述全面探讨这一交集,研究如何整合这些范例以推进机器人智能。分析基础模型作为动作规划器的用途、机器人特定基础模型的开发以及将 FM 与 RL 相结合的共同利益。此外,提出集成方法的分类,包括大语言模型、视觉-语言模型、扩散模型和基于Transformer的 RL 模型。还探索 RL 如何利用从 FM 中学到的世界表征来增强机器人任务执行。
该综述旨在综合当前的研究并强调机器人推理和控制中的关键挑战,特别是在集成 FM 和 RL(两种快速发展的技术)的背景下。
追求具身智能(即机器人感知、理解并与物理环境有效互动的能力)仍然是人工智能 (AI) 研究的核心目标。最近,两种强大范式——基础模型 (FM) 和强化学习 (RL) 的融合在推进这一目标方面显示出巨大的潜力。基础模型,包括大语言模型 (LLM)、生成式预训练 Transformer 和扩散模型,在处理和生成各种数据类型(如文本、代码和图像)方面表现出色。这些模型在庞大的多模态数据集上进行训练,包含丰富、可泛化的知识表示。另一方面,强化学习为智体提供一个框架,使其能够通过与环境的交互来学习最佳行为。FM 和 RL 之间的潜在协同作用在机器人技术领域尤其引人注目。基础模型可以作为 RL 智体的强大先验,提供广泛的世界知识、奠定语言理解基础并实现快速的任务适应。相反,RL 可以“具身”这些模型,使它们能够与动态物理环境交互并从中学习。这种集成可以使机器人系统具有增强的适应性、通用性和整体智能。
如图所示:本文分析如何将 RL 与不同的 FM 集成,包括 LLM、VLM、扩散模型、世界模型和基于 Transformer 的 RL 模型。该图直观地表示创建的五个类别。
如图所示该综述的结构:从入门概念到 FM 和 RL 的高级集成。重点介绍 FM 的准备工作、它们的应用、与 RL 的集成以及 RL 增强推理能力的分类,最后得出结论和未来方向。
基础模型作为行动规划器
基础模型 (Bhat,2024) 能够将复杂任务分解为更简单的步骤(任务规划)并确定执行这些步骤的最佳顺序(排序)。它们指导机器人精确地执行动作(执行)并生成奖励信号以改进行为(奖励采样),此外,LLM 可以生成代码来自动化这些过程,从而提高效率和适应性(Ma,2023b)。 LLM 使机器人能够更有效地规划和执行任务,利用其先进的语言和推理能力来提高机器人系统在动态环境中的性能。
机器人基础模型
最初,机器人研究通常侧重于将 LLM 与机器人系统集成,以增强其在特定任务中的能力。然而,这些应用的范围有限,无法提供全面的机器人自主性。此后,该领域已发展到开发机器人基础模型,其特点是定制的 Transformer 架构、特定领域的训练、端到端学习以及与模仿学习 (IL) 或 RL 的集成。
Zeng (2022) 引入 Socratic Models 框架,该框架允许模块化模型通过语言进行通信,从而通过联合推理增强机器人等现实世界的应用。作为补充,Shah (2023) 研究 LM-Nav,它结合预训练的视觉导航和语言解析模型来执行任务而无需微调,从而大大降低监督成本。在机器人操控领域。这些进步跨越 2021 年至 2023 年,说明 LLM 在机器人技术中的集成不断发展,推动系统更加智能、自适应和情境感知。Gao (2023) 提出“基于物理的机器人操控视觉语言模型”,通过将物理属性纳入机器人的规划和操控任务中,增强机器人与现实世界物体的交互。在此基础上,Zhang (2024b) 开发 MotionGPT,它可以根据文本和姿势生成逼真的人体动作,对数字动画和物理机器人交互都产生了重大影响。Huang (2024b) (2023c) “Look Before You Leap”将机器人任务规划定义为概率滤波,从而提高复杂、长期任务的性能。作为这些努力的补充,Zha (2023) 使用 DROC 增强机器人学习,该系统通过持续的人为反馈来调整和提高机器人性能,减少对持续人为干预的需求,并使机器人能够更好地响应人类的动态需求。为了进一步推进这些进步,Sun (2024b) 在“Beyond Text”中将语音提示与文本相结合,通过解决口头指令中的歧义来增强机器人导航和决策能力。这种方法改善人机交互,使交流更加直观和有效。这些研究从 2023 年到 2024 年,突出先进模型在机器人技术中的实际应用,推动更智能、适应性更强、上下文-觉察能力更强的系统,无缝融入日常生活。
为了开发用于机器人的定制 Transformer 架构和数据集,Padalkar (2023) OpenX 实施项目引入最大的开源真实机器人数据集 Open X-Embodiment 数据集,从而显著推动该领域的发展,该数据集包括来自全球 34 个研究实验室的 22 个机器人实施的 100 多万条机器人轨迹。这个广泛的数据集支持开发两个关键模型:RT-1(Brohan 2022)和 RT-2(Brohan 2023),一个视觉-语言-动作模型。RT-1 是一种高效的基于 Transformer 的架构,其变体 RT-1-X 在机器人数据混合上进行训练,通过利用跨平台经验增强机器人能力,在不同任务中表现出积极的迁移和改进的性能。RT-2 是一个大型视觉语言模型,其变体 RT-2-X 在新兴技能评估中表现出色。 RT-2-X 表现出卓越的空间理解能力,以及根据细微的语言变化调整机器人行为的能力。这些进步凸显 RT-1-X 和 RT-2-X 模型在机器人学习和控制方面的变革潜力,为能够有效适应新机器人、任务和环境的通用机器人策略奠定基础。在这些工作的基础上,出现了其他机器人基础模型,如 Ma (2024b) 提到的 Octo (Oier 2024) 和 OpenVLA (Kim 2024a)。Octo 和 OpenVLA 是完全开源的视觉-语言-动作模型的例子,它们在特定任务中可以实现与 RT-2-X 相当甚至超越 RT-2-X 的性能。
基础模型也已应用于动态系统的学习和控制领域,其中机器人技术是该领域的一个重要应用领域。Forgione (2023) 和 Du (2023c) 提出基于 Transformer 的预训练模型,用于对一类动态系统响应任何查询输入序列的输出进行零样本预测,Busetto (2024) 提出基于 Transformer 的预训练模型,用于上下文状态估计。此外,正如 Goel 和 Bartlett (2024) 所展示的那样,Transformer 架构可以以任意精度近似卡尔曼滤波器和线性二次高斯控制器。这些进步凸显基础模型为传统动态控制系统引入新方法和新范式的潜力,促进面向动态系统类别(而不是单个特定系统)数据驱动估计和控制合成的转变。
强化学习和基础模型通过集成强大的学习技术,显著提升了机器人的能力。基础模型为 RL 提供了预训练的洞察力,增强了决策能力并实现了复杂任务所必需的环境解释。相反,RL 可以对 FM 进行微调,增强其适应性和对反馈的实时响应,这对于动态设置至关重要。这种协同作用推动智能系统的发展,使任务执行更加自主和精确。如图 描述 RL 和 FM 之间的相互作用,突出互惠互利:FM 增强 RL 能力(蓝色轮廓),RL 将 FM 应用于实际应用(红色轮廓)。例如,在图片的下半部分,“Transformer RL”和“基于 RL 的微调”被展示为使用 RL 训练大规模 FM(例如 Transformer RL (TRL))的实例。标题为“RL 作为 LLM 和 VLM 的原始生成器”的框,指的是使用 RL 为 LLM 和 VLM 在各自的应用中奠定基础,因此用红色和黄色填充。在图像的上半部分,说明各种 FM 增强 RL 功能的场景:LLM 有助于根据任务描述进行奖励或策略生成的符号推理,VLM 通过场景理解来增强奖励或策略生成,机器人状态估计通过使用视频预测模型 (VPM) 或世界模型进行视频比较来提供信息,扩散模型通过处理低级轨迹来促进奖励、策略和数据增强。
强化学习的一般框架和关键历史发展
作为一种基本的机器学习技术,强化学习使智体能够通过与环境交互来学习决策,以最大化奖励,这是一种设计智能机器人的有前途的方法。
强化学习试图在考虑智体(例如机器人)与其环境的交互的情况下进行最佳决策(Sutton 1988;Beck 2023)。在强化学习框架中,几个核心组件在指导智体的行为方面发挥着重要作用。
首先,
状态(S)
,代表智体在其环境中可能遇到的所有可能情况。在任何给定时刻,智体都会发现自己处于特定状态,促使它考虑最佳操作(例如,最大化奖励的操作)。这些动作(A)是智体可用的一组选择,允许它与环境交互并影响环境。
策略 (π)
表示在状态为 s 时采取行动 a 的概率(例如,这是智体的策略)π(a|s) 。本质上,它是一种映射,引导智体从每个状态到特定操作,确定其整体行为以及它如何响应各种情况。当智体采取行动时,它会通过奖励函数 R(s_t, a_t) 从环境中接收反馈,该函数根据时间 t 时每个动作的结果分配即时奖励 (R)。此奖励信号可帮助智体了解如何采取最佳行动以实现长期目标。
两个关键函数支持智体随着时间的推移做出更明智的决策。
价值函数 (V)
估计处于特定状态的预期长期回报,让智体了解在当前策略下该状态的前景如何。另一方面,
Q 函数 (Q)
稍微详细一些。它不仅评估状态的预期回报,还评估在这些状态下采取特定行动的预期回报,使智体能够评估特定情况下特定行动的质量。
这些组件共同构成 RL 框架的基础,使智体能够通过从经验中学习并随着时间的推移优化其策略来有效地导航其环境。
RL 过程包括四个重要阶段。首先,在初始化期间,设置智体的状态和动作空间,以及初始策略和必要参数。在交互阶段,智体采取行动并从环境中接收反馈,了解其行动如何影响结果。然后,在学习阶段,智体使用此反馈来更新其策略,逐步改进其策略以最大化未来奖励。最后,在评估阶段,使用平均奖励或成功率等指标评估智体的表现,从而深入了解其学习的有效性。
贝尔曼方程是 RL 的基本构建块,表示状态值与智体可以预期未来奖励之间的递归关系。
在强化学习中,由于许多环境都表现出随机行为,因此智体在特定状态下的行为结果可能是不确定的。这种不确定性由转换概率 P(s_t+1|s_t,a_t) 捕获,它量化了智体在状态 s_t 下采取行动时转换到状态 s_t+1 的可能性。
强化学习中最大的挑战之一是设计有效的奖励函数。设计不良的奖励系统可能会误导智体,导致行为不理想或意外。制定正确引导智体实现良好结果的奖励至关重要。另一个重大挑战是状态空间建模。如果状态没有准确或全面地表示,智体可能难以了解环境的真实动态,这可能会妨碍其做出最佳决策的能力。这两个要素——奖励设计和状态建模——对于成功实施强化学习至关重要。
强化学习依赖于几种流行的算法,每种算法都有自己的优势。 DQN(深度 Q 学习)(Mnih,2013、2015)是最广泛使用的方法之一,它利用神经网络来近似 Q 值并优化具有离散动作的环境中的预期奖励。PPO(近端策略优化)(Schulman,2017)是另一个受欢迎的方法,它以通过限制剧烈的策略变化来提高训练稳定性而闻名;这使得 PPO 特别适合涉及连续动作的任务。
SAC(Haarnoja,2017)也发挥着重要作用,它专注于奖励最大化和策略熵以鼓励探索,这有利于连续控制任务。最后,Dreamer(Hafner,2019;Wu,2023)因其使用世界模型进行提前规划和提高样本效率而获得认可,使其能够有效地处理复杂环境中的长期任务。
将 RL 与基础模型相结合
RL 越来越多地应用于增强机器人能力。机器人学习系统的进步越来越多地受益于将机器学习技术(尤其是 RL)与大规模互联网数据相结合。Bhateja (2023) 探讨使用大量人类视频数据集对机器人离线 RL 系统进行预训练的概念。这种方法称为 V-PTR,通过时间差分学习开发价值函数(Sutton 1988),解决通常缺乏动作和奖励注释的视频数据适配,以用于 RL 的挑战。该方法表明,在这些数据集上预训练的模型可以显著提高机器人操作任务的性能,这表明离线 RL 在数据丰富但没有明确标记为 RL 使用的机器人技术中具有更广泛的应用。基于 RL 和策略驱动模型之间的协同作用,Liu (2024)引入 RL-GPT,这是一个分层框架,将直接在 LLM 中编码的高级决策与 RL 的精确性和适应性相结合,以微调较低层的操作。该框架显著提高效率,并在 Minecraft 等复杂环境中表现出最先进的性能(Guss,2019),凸显将结构化策略模型与 RL 相结合以解决机器人和虚拟模拟中复杂任务的潜力。Kumar(2022)进一步探索机器人预训练的潜力,其展示一种方法,利用离线 RL 使用最少的任务特定数据快速适应新任务。他们的框架名为 PTR,结合保守的 Q 学习来学习策略和后验微调策略,使机器人只需十次演示即可在新环境中学习新任务。这种方法不仅简化学习过程,还增强机器人在不同任务中的泛化能力,强调在机器人学习范式中强大预训练阶段的重要性。Carta (2023) 通过一种名为 GLAM 的在线 RL 方法深入研究 LLM 的抽象知识与动态环境中实际应用之间的一致性问题。通过与环境交互不断更新基于 LLM 的策略,GLAM 寻求改进 LLM 的决策能力,增强其泛化和适应现实场景的能力。这项研究强调交互式和自适应学习框架在充分利用 LLM 在复杂决策任务中的潜力方面的关键作用。最后,Huang (2023b) 提出一种新解码策略,用于通过所谓的“落地解码”将 LLM 与具身智体集成。该策略使用概率语言模型和落地环境模型来生成适合具身智体现实且上下文适当的动作序列。这种双模型方法,有助于在具身环境中更有效地完成任务,强调协调高级语言知识与低级环境交互的重要性。为了解决人类反馈在 RL 中的整合问题,Ma (2023b) 开发 Eureka 框架,利用 GPT-4(Achiam 2023)自主优化 RL 中的奖励函数,这显著改善机器人的训练过程,从而完成高度复杂的机器人操作任务。
如图所示说明不同的大型预训练模型架构如何影响 RL 集成策略和智体的物理落地,突出显示不同方法中输入/输出关系和模型大小的变化。
大语言模型增强 RL 智体的推理能力
下表概述用于 RL 任务的不同 LLM 框架:
相当一部分研究集中于利用 FM 来自动化和改进奖励函数的设计,这是 RL 中的一个关键组成部分。人们还在探索 FM 在 RL 框架内的策略创建、调整和理解用户输入。最近,有几篇论文提出利用 LLM 的创新方法(例如 Achiam (2023) 或 Dubey (2024))来解决奖励函数设计和其他 RL 方面的挑战。通过利用其大规模预训练和对自然语言问题的上下文推理能力,LLM 可以执行高级推理来协助 RL 完成复杂的机器人任务。虽然 LLM 无法直接控制机器人,因为它们无法发出控制命令,但它们在评估 RL 智体的性能和理解任务的上下文方面非常有价值。
如图说明创建和描述的分类,其中红色椭圆包含与 RL 集成的 LLM。每个椭圆代表与 RL 集成使用的不同模型类别,其中列出相关论文/架构的名称。椭圆之间的交叉点突出显示在单个方法中结合使用多种类型预训练模型的情况。
通过利用强化学习学习的基元将 LLM 生成的规划应用到现实世界中,研究人员正在开发更有效、适应性更强的机器人系统,这些系统可以根据自然语言指令理解和执行复杂的任务。该领域的未来研究可能会侧重于开发改进的落地机制,扩大机器人可以执行的任务范围。
用于基于 RL 决策的视觉-语言模型
研究中的另一个主要主题是使用 FM 与图像和文本协同工作,以指导 RL 智体中的探索和技能获取。视觉感知对于发现最佳行为至关重要,尤其是在奖励稀疏的环境中(特别是奖励定义困难的情况下)。VLM 为解决这一挑战提供了一种有希望的途径,将文本和视觉都作为输入:视觉语言模型可用于在学习过程中动态调整奖励函数。通过处理来自机器人的实时感官数据(例如,相机图像),该模型可以识别意外情况或与预期规划的偏差。此信息可用于在线修改奖励函数,惩罚导致不良结果的行为并鼓励探索替代策略。例如,如果试图拿起杯子的机器人遇到障碍物,基础模型可以调整奖励函数以优先绕过障碍物,然后再恢复抓取尝试。在机器人强化学习中使用 VLM 是 RL 一个快速发展的子领域,人们正在探索各种方法来利用这些模型完成复杂任务。这些论文的共同研究趋势包括
利用 VLM 定义奖励函数、创建控制策略或使用 RL 基元增强 VLM
。这些方法基于单模态 LLM 所用的相同方法,但利用图像的表征能力。
与 LLM 相比,VLM 在机器人应用中提供更深层次的基础,因为它们直接将视觉感知与文本形式的输入任务相关联,并且不需要单独的视觉模块进行感知。重点是视觉理解功能提供的独特功能,这些功能可以在物理环境中实现更深刻的模型基础。许多机器人任务涉及与充满各种感官信息的复杂环境进行交互。在多模态数据集上训练的基础模型可以利用其处理不同数据模态(文本、图像、音频)的能力来构建更丰富的奖励函数。想象一个负责分类洗衣的机器人。VLM 可以分析衣服的图像以识别布料类型和颜色,并将此信息与文本指令相结合,以创建奖励函数,该函数促进基于预定义类别的分类,从而执行多模态奖励学习。
下表总结应用于基于 RL 决策任务的 VLM:
视觉语言模型,例如 Radford (2021) 和 Ramesh(2021),可用于基于提示和图像帧作为输入的任务评估(Adeniji 2023;Cui 2022)。由于这种能力,它们可以如预期的那样有效地用于现实世界机器人操作任务中的 RL 奖励生成(Lee 2024b)。虽然 LLM 主要利用文本信息来生成 RL 中的奖励函数,但 VLM 扩展此功能以纳入视觉输入。VLM 可以理解和解释对环境的视觉观察,使它们能够根据视觉信号评估任务性能。这在 RL 场景中尤其有价值,因为其中所需行为最好以视觉方式定义,例如机器人操作任务或复杂环境中的导航。VLM 可用于直接从视觉输入生成奖励,如 Mahmoudieh(2022)、Rocamonde(2023)和 Baumli(2023)所观察的,从而无需手动奖励工程。 VLM 还可用于从以图像和文本形式提供的演示或说明中学习(Yang,2024),从而实现更符合人类的学习方式。在 RL 任务评估中集成视觉语言模型代表对仅依赖文本或数字反馈的传统方法的重大进步。通过利用视觉理解的力量,VLM 可以实现更有效的学习,从而使智体能够更好地推广到新任务和新环境。这种方法对于在广泛的应用中开发更具适应性的机器人大有裨益。
在 Mahmoudieh (2022)、Rocamonde (2023) 和 Adeniji (2023) 的论文中,VLM 被用作零样本奖励模型,根据任务的自然语言描述提供奖励信号。这种方法消除手动设计奖励函数或收集大量人工反馈的需要。这些模型可以将文本形式的高级任务描述与图像流相关联,仅通过视觉信息对任务完成情况进行在线评估。例如,Baumli (2023) 研究使用预训练的 VLM(如 CLIP(Radford 2021))来生成强化学习的奖励函数,而在 RoboCLIP(Sontakke 2024)中,奖励是通过评估机器人的动作与提供的示例的匹配程度来生成的。VLM 提供来自自然语言目标的奖励信号,使机器人无需针对特定环境进行微调即可学习。类似地,Code as Reward(Venuto,2024)利用 VLM 通过代码生成奖励函数,从而减少直接查询 VLM 的计算开销。(Wang,2024b)采用略有不同的路线,查询 VLM 以根据任务描述表达对图像观察对的偏好,然后从这些偏好中学习奖励函数。
VLM 的应用也扩展到预训练或表示学习。Yang(2024)使用不同的图像演示数据集预训练多任务策略并微调 VLM 作为奖励模型。Chen (2024b) 通过将 VLM 用作可提示表示来初始化策略,可提示表示是基于 VLM 内部知识对语义特征进行编码的嵌入。Ma (2024a) 提出 ExploRLLM,它利用 VLM 的归纳偏差来指导 RL 中的探索并重新制定动作和观察空间。LIV (Ma 2023a) 扩展这一概念,提出一个统一的目标,该目标将视觉语言表示和奖励学习结合起来,使用无动作视频与文本注释配对。这种方法开发一种多模态表示,它隐式地捕获一个通用价值函数,从而能够通过语言或视觉目标来指定任务。
这些论文在实验设置和它们处理的具体任务方面也有所不同。有些专注于模拟环境,例如 Rocamonde (2023) 中的人形机器人 (MuJoCo (Todorov 2012)) 和 Di Palo(2023)的堆叠任务。其他工作,如Yang(2024),在现实世界的机器人操作任务上测试他们的方法。任务范围从经典的控制问题(如 CartPole)到涉及刚性、铰接和可变形体的复杂操作任务。在方法论方面,大多数论文都采用某种形式的 RL,通常与 IL 或行为克隆等其他技术结合使用。所使用的具体 RL 算法各不相同,包括 SAC、PPO 和 DQN。这些论文的提示策略和网络架构也有所不同,这取决于具体任务和所使用的 VLM 的功能。