专栏名称: 点云PCL

公众号将会推送基于PCL库的点云处理，SLAM，三维视觉，高精地图相关的文章。公众号致力于理解三维世界相关内容的干货分享。不仅组织技术交流群，而且组建github组群，有兴趣的小伙伴们可以自由的分享。欢迎关注参与交流或分享。

从多模态大模型到通用具身智能体：方法与经验

点云PCL · 公众号 · · 2025-02-07 10:00

正文

文章：From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons

作者：Andrew Szot, Bogdan Mazoure Omar Attia1 Aleksei Timofeev Harsh Agrawal1 Devon Hjelm1 Zhe Gan1 Zsolt Kira Alexander Toshev Apple, Georgia Tech

编辑：点云PCL

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系dianyunpcl@163.com。 文章未申请原创，未经过本人允许请勿转载，有意转载联系微信920177957。

摘要

本文探讨了多模态大语言模型（MLLMs）在传统语言与视觉任务之外处理不同领域问题的能力，特别关注具身智能（Embodied AI）、游戏、用户界面控制（UI Control）和规划等领域。为此提出了一种将 MLLM 适配为通用具身智能体（Generalist Embodied Agent, GEA）的方法。GEA 是一个统一的模型，能够通过多具身动作分词器（multi-embodiment action tokenizer）在不同领域中进行自适应。GEA 采用监督学习，在大规模具身经验数据集上进行训练，并结合在线强化学习（RL）在交互式模拟环境中优化，我们探讨了开发此类模型所需的数据和算法选择。研究结果表明，跨领域数据训练和在线强化学习对于构建通用智能体至关重要。最终GEA 在多个基准测试中展现出对未见任务的强泛化能力，相较于其他通用模型和特定基准方法表现优越。

主要贡献

基础模型已在语言和图像理解任务中展现出广泛的能力。特别是多模态大语言模型（MLLMs）—在海量文本和图像数据上训练的多模态基础模型—在其训练模态（文本与图像）相关任务上表现出色。作为 MLLMs 的扩展，视觉-语言-动作（Vision-Language-Action, VLA）模型已成功应用于机器人和具身智能（Embodied AI）领域，以及网页代理和用户界面（UI）控制等任务。这些应用表明MLLMs 可广泛适用于多个领域，实现机器人控制、游戏操作和 UI 设备管理等多种具身控制任务。

由于许多领域之间具有相似性，因此一个核心问题是：如何训练一个单一智能体，使其能够在所有这些领域中具备通用能力。这一问题极具挑战性，因为不同任务涉及物理和几何推理，具身形式既有静态的，也有采用移动操控器共享形态的，应用通常需要长时规划，且许多任务是部分可观测的，需要对长序列观察进行推理。此外，跨领域联合训练可能带来互补效应，使单一智能体在多个领域的表现优于分别训练的特定领域智能体。

图 1. 通用具身智能体（GEA）是一个基于多模态大语言模型（MLLM）的智能体，能够根据自然语言指令完成多个领域和具身形式的任务，包括操控、规划、游戏操作和 UI 控制。首先，对预训练的 MLLM 进行监督微调（SFT），使用大规模具身经验数据集进行训练。随后，最终的 GEA 模型通过强化学习（RL）进一步优化。GEA 在未见环境中的泛化能力表现出色。

本研究提出了一种方法，将 MLLM 适配为一个通用具身智能体（Generalist Embodied Agent, GEA），能够解决涉及操控（manipulation）、导航（navigation）、电子游戏（video game playing）和 UI 控制（UI control）等多个领域的大量任务。为了让 GEA 控制不同的具身形式，我们学习了一种统一的动作分词机制（tokenization mechanism），适用于所有连续和离散动作空间。如图 1 所示，首先通过监督微调（SFT）适配预训练 MLLM，使其能够根据成功任务的轨迹预测动作。该 SFT 数据集涵盖 220 万条轨迹，数据来源包括人工标注和学习策略。然而SFT 方法受限于数据的多样性，导致智能体的鲁棒性不足。为此进一步在部分领域中使用在线强化学习（RL）进行训练，使 GEA 在交互式模拟环境中收集数据并自我学习。

实验结果表明，GEA 具有强大的通用能力。在多个基准测试中，它均达到当前最优水平，甚至在某些任务上超越或接近专用系统的表现。例如，在 CALVIN 操控基准测试中，GEA 在未见指令和背景下的成功率达到 90%，比类似方法高出近 10%，并接近专用系统的表现。在 Habitat 移动抓取任务中，GEA 在未见场景中的成功率为 83%，优于在真实模拟器状态上训练的强化学习策略。此外，在 Procgen 视频游戏测试中，GEA 达到了专家得分的 44%，比之前的专用模型高出近 20%。本研究进一步分析了 GEA 的通用能力与训练数据及基础 MLLM 之间的关系。实验表明，在 SFT 训练阶段使用跨领域数据比单独训练各个领域的数据更能提升通用性能。此外探讨了 RL 和在线数据收集在通用智能体训练中的作用，并通过实验验证了在线 RL 相较于迭代 SFT 或离线 RL 的优势。作为对社区的贡献，我们将发布 GEA 训练和评估代码，以及 GEA 模型本身。代码和模型的下载链接将在准备发布。

主要内容

通用具身智能体

问题设定

本研究关注的是基于语言指令的任务，并通过视觉观察来做决策。具体来说，问题被建模为目标驱动的部分可观察马尔可夫决策过程（POMDP），其中包括观测空间、动作空间、目标空间和奖励模型。任务的目标由文本描述表示，智能体通过 RGB 图像进行观察，这些图像可以来自具身智能应用中的摄像头，或者视频游戏和 UI 交互中的屏幕截图。我们考虑了多个环境类型，称为“领域”，这些领域涵盖了各种动作空间，如机器人控制、基于高级指令的控制方式以及计算机 UI 交互。研究的目标是学习一个通用策略，能够在不同的环境中进行适应和执行任务，每个环境由一组观测、动作、目标和奖励构成。

GEA 架构

通用具身智能体（GEA）通过接收环境提示、任务指令和历史观察及动作，预测并执行适当的动作。该系统依据环境的具体情况（包括任务描述和先前的动作与观察）来生成动作，以便在不同环境中有效地执行任务。

为了让 GEA 适应多种动作形式（离散和连续动作），我们使用了一个“多具身动作标记器”。具体来说，GEA 的动作分为两类：离散动作和连续动作。离散动作通过自然语言描述，并将其转化为一系列文本标记。而对于连续动作，使用一个学习到的动作标记器，将连续的动作映射为新的标记序列，这些标记序列的词汇表是根据需要生成的。这样，通过对这些动作进行统一标记和编码，GEA 能够处理不同类型的动作并在各种任务中应用。

图 2. GEA 利用预训练的 MLLM 和多具身动作标记器，使通用智能体能够在广泛的领域、具身形式和动作空间中操作。GEA 通过具身提示和指令以及观测视觉（下方）作为输入，获取有关具身形式和期望任务的信息。它生成 LLM 词汇表中的一系列动作标记，这些标记由多具身动作去标记器解码成适用于相应具身形式和动作空间的动作。

训练过程

GEA 从基础的多模态大语言模型（MLLM）开始，首先训练连续动作标记器。图 3 中展示了该过程，MLLM 通过监督微调（SFT）在具身经验数据集上被适配为 GEA-Base。接下来，GEA-Base 通过监督学习和强化学习进一步调整，形成完整的 GEA 模型。

图 3. GEA 训练阶段。首先，通过在交互数据上使用 SFT 微调整个 MLLM，将其适配为 GEA-Base。接下来，GEA-Base 在原始数据上使用 LoRA 联合进行在线强化学习（PPO）和 SFT 微调。

基础 MLLM

在选择基础模型时，除了其视觉-语言能力外，关键考虑因素是其能够处理长上下文的能力，因为具身数据包含了长时间序列的交替观察和动作。我们因此选择了 LLaVA-OneVision 作为基础模型，它专门用于处理图像序列，并通过图文对和视频进行训练，适应 GEA 在长时间观测历史上的表现。

连续多具身动作标记器

为了获得连续动作的词汇表（Vcont）和相应的标记器/解标记器，我们采用了 Szot 等人的方法，并基于动作向量训练了残差 VQ-VAE（RVQ）模型。RVQ 是一个变分自编码器，利用离散嵌入序列来表示数据。具体来说，它将一个动作表示为 M 个标记的序列，每个标记表示从学习词汇表中选出的代码。

与 Szot 等人不同的是，我们训练了一个单一的标记器/解标记器，适用于所有连续动作空间，这些空间包括各种机器人控制类型，如末端执行器、关节速度和关节位置控制。为了训练统一的 RVQ，我们对所有动作向量进行填充，并在推理时根据具体的具身动作空间调整输出维度。

阶段 1：监督指令微调（SFT）

GEA 的第一个阶段是使用监督指令微调（SFT）来调整基础 MLLM 以进行具身决策。我们使用来自所有环境的数据集 D 来训练模型，并在交互数据或视觉-语言数据上应用标准的交叉熵损失函数。训练过程中，我们最大化每个样本的负对数似然。

阶段 2：在线强化学习（RL）

尽管 SFT 训练可以得到一个功能强大的 GEA-Base 智能体，但它只在有限的专家轨迹上进行训练，且很少涉及像错误恢复等多样化行为。因此，我们在第二阶段使用在线 RL 来继续训练 GEA-Base，获得最终的 GEA 模型。在这个阶段，GEA-Base代理在有限的专家轨迹基础上继续进行RL训练，并结合SFT（监督微调）以获得最终的GEA模型。

PPO算法 ：使用PPO算法进行RL训练，并结合SFT目标优化。为了稳定训练，采用了PopArt归一化技术，确保不同环境之间的奖励分布不会影响训练效果。PPO中的价值函数由MLP网络构成，输入包括MLLM模型的最终层激活和视觉编码器的视觉嵌入。此外，训练过程中通过约束解码确保动作采样在有效动作空间内，并对不同环境的动作分布进行熵归一化。在硬件和训练设置方面，为了减少内存消耗，采用LoRA对LLM进行微调，并使用多个GPU节点并行训练。每个环境的滚动长度为128，训练使用了特定的学习率、熵系数和价值函数学习损失，并在100M步数内完成训练。总的来说，这一阶段通过强化学习进一步提升了GEA模型的泛化能力和任务表现。

训练细节 : RL 训练引入了 GPU 内存开销，因此我们使用 LoRA 来微调 LLM，同时冻结其他组件。每个环境使用 128 的回合长度、3e-4 的学习率和 1e-4 的熵系数，并训练 100M 步。

数据集与环境

使用了一套多样化的领域及相关环境和数据集（参见表 1）。本节介绍这些领域，并解释我们如何在训练过程的第 1 阶段和第 2 阶段使用它们。

静态操作：这些数据集包含固定的机器人操控臂与物体的交互。一些数据集是模拟的桌面交互，涉及刚性物体，如 Meta-World、CALVIN 和 Maniskill。还利用了一个包含真实机器人平台交互的大型数据集。这些数据集涵盖了末端执行器控制和关节控制的多种控制空间。摄像头通常固定在一个静态位置，以确保工作空间和机器人臂始终可见。

从多模态大模型到通用具身智能体：方法与经验

正文

请到「今天看啥」查看全文