0. 这篇文章干了啥?
基础模型是预先训练的大型模型,它们对世界拥有广泛的知识,并且可以很容易地适应给定的任务。这些模型已经在广泛的视觉和语言任务中展示了非凡的泛化能力。随着我们将这一范式扩展到实体化应用(即代理在环境中与物体和其他代理进行物理交互)中,我们需要能够推理这些交互并在这些设置中执行动作序列的通用代理。强化学习(RL)允许代理通过最大化指定的奖励函数来学习复杂的行为,这些行为来自视觉和/或本体感受输入。然而,将RL扩展到多个任务和实体化环境仍然具有挑战性,因为设计奖励函数是一个复杂的过程,需要专业知识,并且容易出错,从而导致不期望的行为。
最近的研究工作提出了采用视觉-语言模型(VLMs)来用语言为视觉环境指定奖励,例如使用CLIP计算代理输入图像与文本提示之间的相似度分数。然而,这些方法需要微调VLM或调整视觉域,才能可靠地工作。
在大多数RL设置中,由于缺乏标记代理交互的成本,或者由于某些实体化环境本质上不适合转换为语言,我们缺乏用于训练或微调领域特定基础模型的多模态数据。例如,在机器人技术中,将任务的语言描述转换为代理的硬件级控制动作(如电机电流或关节扭矩)并非易事。这些困难使得当前技术难以扩展到大规模泛化设置,从而留下了一个悬而未决的问题:
如何有效地利用基础模型在具身域中实现泛化?
在本文中,我们提出了GenRL,这是一种新颖的方法,用于从视觉或语言提示中训练通用智能体,且无需语言注释。GenRL学习多模态基础世界模型(MFWMs),其中基础视频-语言模型的联合嵌入空间与用于强化学习(RL)的生成式世界模型的表示相连接并对齐,这一过程仅使用单模态视觉数据。MFWM允许通过将语言或视觉提示映射到RL域中来指定任务。然后,我们引入了一个RL目标,用于学习在想象中完成指定的任务,通过匹配潜在空间中的提示来实现。
与先前关于RL中的世界模型和视觉语言模型(VLMs)的工作相比,GenRL的一个新兴特性是它能够以完全无数据的方式泛化到新任务。在训练MFWM之后,它既拥有对环境动态的强先验知识,又具备大规模的多模态知识。这种组合使智能体能够解释各种任务规范并学习相应的行为。因此,与视觉和语言领域的基础模型类似,GenRL允许智能体无需额外数据即可泛化到新任务,并为具身RL域中的基础模型奠定了基础。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Multimodal foundation world models for generalist embodied agents
作者:Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Aaron Courville, Sai Rajeswar
机构:Ghent University、VERSES AI Research Lab、University of Montreal、ServiceNow Research
原文链接:https://arxiv.org/abs/2406.18043
代码链接:https://github.com/mazpie/genrl
官方主页:https://mazpie.github.io/genrl
2. 摘要
构建能够解决不同领域众多任务的通用具身智能体是一个长期存在的问题。强化学习(RL)难以扩展,因为它需要为每个任务设计复杂的奖励机制。相比之下,语言能够以更自然的方式指定任务。当前的视觉-语言基础模型(VLMs)通常需要进行微调或其他适应才能发挥作用,因为存在显著的领域差距。然而,在这些领域中缺乏多模态数据,成为开发用于具身应用的基础模型的障碍。在这项工作中,我们通过提出多模态基础世界模型来克服这些问题,这些模型能够在没有任何语言注释的情况下,将基础VLMs的表示与生成性世界模型的潜在空间进行连接和对齐,以用于RL。由此产生的智能体学习框架GenRL允许用户通过视觉和/或语言提示来指定任务,将这些任务与具身域的动态相结合,并在想象中学习相应的行为。通过大规模多任务基准测试评估,GenRL在多个运动和操作领域展示了强大的多任务泛化性能。此外,通过引入无数据RL策略,它为基于基础模型的RL在通用具身智能体中的应用奠定了基础。这项工作为构建能够灵活应对各种任务和环境的智能体提供了新的视角和工具。
3. 效果展示
多模态基础世界模型将基础模型的视频语言空间与生成世界模型的潜在空间连接起来并对齐,以进行强化学习,只需要视觉数据。我们的GenRL框架将视觉和/或语言提示转化为潜在目标,并通过在世界模型的想象中训练来学习实现相应的行为。
4. 基本原理是啥?
GenRL概述。代理学习一个多模态基础世界模型,该模型将(a)基础VLM的表示与生成世界模型的潜在状态连接并对齐。给定某个任务提示,(b)该模型允许将任务嵌入并转化为潜在动态空间中的目标,智能体可以通过在想象中使用RL来学习实现。
5. 实验结果
我们想要验证这些方法是否能够检索出数据集中确实存在的任务行为。表1展示了结果,其中的片段奖励经过重新调整,以便0代表随机智能体的表现,而1代表专家智能体的表现。在所有领域中,GenRL的整体表现尤为突出,特别是在四足动物和猎豹领域中的行走和跑步等动态任务中。相比之下,在“火柴人站立”和厨房任务等静态任务中,其他方法偶尔会比GenRL表现更好。这可以通过以下事实来解释:GenRL从提示中推断出的目标序列即使在静态情况下也往往处于轻微运动状态。为了解决这个问题,我们可以将静态提示的目标序列长度设置为1,但我们选择保持方法的简单性和通用性,并承认这是一个较小的限制。正如预期的那样,对于动态任务,视频-语言奖励往往比图像-语言奖励表现更好。对于基于视频的奖励,较为不保守的方法TD3在大多数任务中的表现优于所有其他基线方法,这与中的展示相似。然而,在图像-语言奖励方面,我们观察到相反的趋势,即更保守的方法(如IQL和TD3+BC)往往表现更好。我们认为这是因为当“任务目标”是静态的时,模仿数据集中的轨迹片段证明是有益的。
多任务泛化。为了评估多任务泛化能力,我们定义了一组未包含在训练数据中的任务。尽管我们不期望智能体的表现能与专家模型相媲美,但在此基准测试中得分较高的智能体有助于评估不同方法的泛化能力。我们计算了每个领域中不同任务的平均表现,并将结果总结在图3中。
总体而言,我们观察到的趋势与行为提取结果相似。GenRL显著优于其他方法,特别是在四足动物和猎豹领域中,其表现接近专业智能体的性能。无论是对于图像-语言(图中的-I)还是视频-语言(图中的-V)任务,较为保守的方法,如IQL和TD3+BC,往往表现不佳。这可能与以下事实有关:由于任务不在训练数据中,因此模仿轨迹片段不太可能产生高回报的轨迹。
6. 总结 & 未来工作
我们介绍了GenRL,这是一种基于世界模型的方法,用于将视觉-语言提示映射到具身域中,并在想象中学习相应的行为。GenRL的多模态基础世界模型可以利用单模态数据进行训练,克服了具身强化学习域中缺乏多模态数据的问题。GenRL的无数据强化学习特性为强化学习中的基础模型奠定了基础,这些模型能够在没有额外数据的情况下泛化到新任务。
局限性。尽管GenRL具有优势,但也存在一些局限性,这主要源于其组件的固有弱点。从视觉语言模型(VLMs)的角度来看,GenRL继承了与多模态差距相关的问题以及对提示调优的依赖。我们提出了一种连接对齐机制来缓解前者的问题。对于后者,我们提出了一个可解释性框架,该框架通过允许解码与提示相对应的潜在目标来促进提示调优。从世界模型的角度来看,GenRL继承了对重建的依赖,这虽然带来了可解释性等优势,但也存在诸如复杂观测下的失效模式等缺点。
未来工作。随着我们致力于开发通用具身智能体的基础模型,我们的框架为众多研究机会打开了大门。其中一个可能性是学习多种行为,并引入另一个模块(如大型语言模型LLM)来组合这些行为以解决长期任务。另一个有前景的研究领域是探索GenRL框架的时间灵活性。我们观察到,对于静态任务,更强的时间感知能力可以提升性能。这一概念也可以应用于超出视觉语言模型时间理解能力范围之外的动作。解决这些挑战的一般性方案可能会使该框架取得重大进展。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
这里给大家推荐一门我们最新的课程
《
具身智能,从入门到实战系统教程!》
:
课程亮点
-
本课程从学术研究和实际应用两方面,带你从零入门具身智能的原理学习、论文阅读、代码梳理等内容。
-
课程由具身智能领域的资深专家主讲,他们先后担任研究所、国企、大厂具身智能负责人,拥有丰富的理论知识和实践经验。