迈向通才机器人策略：构建视觉-语言-动作模型的关键是什么

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-14 00:01

正文

24年12月来自清华、字节、上海交大和新加坡国立的论文“Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models”。

基础视觉语言模型 (VLM) 在多模态表征学习、理解和推理方面表现出强大的能力。通过将动作组件注入 VLM，可以自然形成视觉-语言-动作模型 (VLA)，并且表现出良好的性能。现有工作已经证明 VLA 在多种场景和任务中的有效性和泛化能力。然而，从 VLM 到 VLA 的迁移并不简单，因为现有的 VLA 在主干、动作预测公式、数据分布和训练方案方面有所不同。这导致缺少对 VLA 设计选择的系统理解。这项工作揭示显著影响 VLA 性能的关键因素，并专注于回答三个基本设计选择：选择哪个主干、如何制定 VLA 架构以及何时添加跨具身数据。所获得的结果解释为什么更喜欢 VLA 并开发一个新的 VLA 系列 RoboVLM ，它只需要很少的手动设计，并在三个模拟任务和真实世界实验中实现最佳性能。通过大量实验，其中包括 8 个多个 VLM 主干、4 个策略架构和 600 多个不同的设计实验， RoboVLMs 框架也已公开，该框架支持轻松集成新的 VLM 和自由组合各种设计选择。已经开源所有细节 robovlms.github.io ：代码、模型、数据集和工具包，以及详细的训练和评估配方。

如图所示：这项工作主要考虑基于 VLM 构建 VLA 的四个问题：为什么更喜欢 VLA；使用哪个主干；如何制定 VLA；何时使用跨具身数据作为额外数据源。借助提出的 RoboVLM ，可以轻松地将 VLM 转换为支持多种具身、各种场景和任务的通才机器人策略。

构建能够根据人类指令感知、推理并与物理环境交互的通才机器人策略，一直是机器人技术领域的长期挑战 [4, 5, 7, 35]。最近，人们积极探索，对机器人数据进行某些架构调整来微调视觉语言模型 (VLM) ，学习机器人基础模型。由此产生的模型也称为视觉-语言-动作模型 (VLA) ，在模拟和现实世界任务中都表现出良好的效果 [7, 22, 24]1。除了 VLA，还存在各种通用策略，例如来自视频模型的策略，甚至是从头开始的策略。因此，一个自然而然的问题出现了：为什么更喜欢基于大规模预训练 VLM 构建的 VLA？与其他通用策略相比，人们普遍认为使用基于 VLM VLA 的原因是，通过对网络规模数据进行大量训练，VLM 已展示出强大的能力，能够学习多模态数据（如文本、图像/视频）的广义和鲁棒表示。这种能力可以启发机器人基础模型的适应性，以弥合高度多样化的开放世界场景和有限的机器人数据之间的差距。然而，大规模视觉语言预训练在多大程度上促进通才机器人策略，这仍然是一个悬而未决的问题。此外，大量不同的 VLM 迅速涌现，它们具有不同类型的 LLM 主干、训练数据、模型大小、架构和训练配方。哪种 VLM 主干更适合机器人操作也是开发成功的 VLA 的关键问题。

除了不同主干的多样性之外，对于包括 VLA 在内的通才机器人策略，结构更复杂，形式各异。基于现有的最流行研究 [4、7、20、22、24、34、35、39、47、55]，提出一种分类，其依据是 1）历史和动作信息如何融入 VLA 以及 2）动作空间是连续的还是离散的。如图所示，考虑四种类型的结构公式。对于历史信息建模，确定了两种形式：1）单步建模，仅利用当前状态或观察来产生动作；2）历史建模，处理历史状态或观察的滑动窗口。关于历史信息的聚合，将其分为两种方法：a）交错建模，以交错格式集成历史观察和动作序列；b）策略头，分别处理每个历史步并在不同的策略头中融合信息以进行动作预测。不同的结构以不同的方式利用预先训练的 VLM。因此，在面对不同类型的环境和任务时，它们在稳健性、泛化能力和数据效率方面可能具有不同的特征。因此，理解以下问题在实践中很重要，但尚未得到充分探索：应该如何制定 VLA，以便在实践中充分利用 VLM 的强大功能？

除了 VLA 本身之外，用于开发 VLA 训练数据的质量和多样性也同样至关重要。随着著名 VLA [4、7、22、35、39] 取得的最新进展，来自不同来源的大规模数据对于进一步提高在针对分布外任务和环境的稳健性和泛化方面的性能非常重要。然而，它们在详细的训练方案上有很大不同：一些利用额外的数据进一步预训练 VLM，将表征细化得更接近机器人操作任务 [4]，而另一些则与域内任务一起训练 VLA [7、22、35、39]。此外，通过对各种操作技能进行充分的预训练，机器人策略有望通过最少的演示学习新技能 [13]。因此，在开发高效 VLA 的情况下，何时利用大规模跨具身数据成为一个有趣的问题。

为了彻底研究上述问题并找到最有效的 VLA 解决方案，本文研究选择 4 种 VLA 结构、8 种不同的主干和 3 种不同的训练数据配方来训练 VLA 模型。在实验中，提出一个新框架 RoboVLMs ，以便轻松地将 VLM 迁移为 VLA 并进行公平的比较。在模拟中根据两个流行的机器人操作基准评估这些模型：CALVIN [32] 和 SimplerEnv [37]。此外，还在一个收集的真实世界机器人操作数据集上训练和评估构建的 VLA，该数据集包含 100 个操作任务和总共 74K 条轨迹。具体来说，最初选择三种常用的 VLM—— LLaVA 、 Flamingo 和 KosMos 作为骨干，将每个 VLM 与四种 VLA 结构相结合，以检查动作空间、观察范围和历史聚合方法的影响。由于发现具有连续动作空间的策略头建模效果最佳，将 8 种不同的 VLM 作为主干结构与策略头进行比较，以回答哪个主干结构更合适。同时，比较不同 VLA 结构的泛化和数据效率。对于何时利用跨具身数据的问题，比较预训练（使用 Open X-Embodiment 训练的 VLA）、微调（使用目标数据集训练的 VLA）和后训练（使用 Open X-Embodiment 预训练并使用目标数据集进一步微调的 VLA）。最后，为了确认具有最佳配置的 VLA 在现实世界中的适用性，在现实世界的机器人操作场景中对它们进行训练和评估，展示了在 1）未见过的干扰物、2）未见过的背景、3）未见过的目标物体和 4）新技能描述中的泛化。

通过广泛而全面的研究，本文围绕以下问题获得构建高性能 VLA 的重要见解：

为什么更喜欢 VLA？事实证明，基于预训练 VLM 构建的 VLA 对于通才机器人策略既有效又高效。在所有实验中，包括模拟和现实世界的操作任务，VLA 始终以显著的优势胜过开源的最先进 VLA。此外，预训练的 VLM 在泛化和数据效率方面表现出显着优势，使其成为现实世界机器人应用的理想选择。
哪种 VLM 主干更适合 VLA？对 8 种不同的 VLM 主干进行广泛的研究，发现两种卓越的 VLM 主干，即 KosMos [36] 和 Paligemma [3]，它们的表现明显优于其他主干。这些结果强调，全面的视觉语言预训练对于实现卓越的 VLA 性能至关重要。
应该如何制定 VLA？通过广泛的研究和实验，连续动作始终优于自回归离散动作，而结合历史背景对于提高性能和解决部分可观测性至关重要。对于模型架构，直接与策略头集成的视觉语言模型 (VLM) 由于一致的使用而比其他公式表现出更好的性能，即视觉语言token应以其原始的预训练格式进行处理，并添加策略头以整合过去的视觉和本体感受观察，进行有效决策。最后，更大的 VLM 进一步提高效率，需要更少的数据来实现更高的性能。
什么时候应该利用跨具身数据集？虽然人们普遍认为使用跨具身数据进行预训练或后训练可以提高性能，但这种观点尚未得到严格的验证。我研究结果表明，使用跨具身数据进行预训练并不能始终如一地显着提高最终性能。但是，在目标数据集上对跨具身预训练模型进行后训练可以显着提高性能。此外，利用来自相同机器人或任务的操作数据可以明显提高性能。

在整个研究过程中，提出一个新框架 RoboVLMs ，它将 VLM 转换为 VLA，并提供一个统一、灵活、易于使用的开源框架，以最小的努力将任何 VLM 无缝集成到 VLA 中，让机器人从业者可以研究、比较和部署未来的 VLA。此外，由 RoboVLM 构建的 VLA 在广泛的基准和实际任务中表现出强大的泛化、灵巧性和灵活性。

为了全面评估 VLA 的性能，在模拟和现实世界中的一系列不同的基准和机器人操作任务上对所有模型进行基准测试。具体来说，如图所示，选择了两个著名且广泛使用的模拟基准（CALVIN [32] 和 SimplerEnv [40]）和一个现实世界的机器人操作实验来评估 VLA 模型：

CALVIN [32] 是一个多任务桌面操作的模拟基准。该数据集根据不同的场景设置包含四个部分 A、B、C 和 D，总共提供 34 个基本任务，其中包含 24K 个带有语言指令注释的人类遥控演示。评估指标包括完成 1 ∼ 5 个连续任务的成功率，以及成功执行的平均任务数（简称为 Avg. Len.）。

SimplerEnv [25] 被设计为一套真实到模拟的环境，并能够在模拟中评估机器人策略。它创建一个可比较的舞台，用于对 Google Robot [6, 7] 和 Bridge V2 [45] 等现实环境中机器人策略成功率进行基准测试。

用于实际实验的机器人系统建立在 7-DoF Kinova Gen3 机械臂上，搭配 Robotiq 2F-85 夹持器，如图所示。对于输入，分别为机器人头部和手腕上配备的两个摄像头拍摄 RGB 图像。头部摄像头提供工作空间的概览，而夹持器摄像头提供对末端执行器与环境之间交互区域的近距离观察。

在真实机器人基准上微调 RoboVLMs 构建的 Octo-Base、OpenVLA 和 KosMos P.H。RoboVLMs 构建的最佳 VLA（KosMos P.H.）在所有评估设置中都实现了最佳性能，尤其是在简单和未见过的背景下，证明了它们的有效性和泛化能力，这与 SimplerEnv 和 CALVIN 模拟中的结果一致。

CALVIN 中各种 VLA 结构的性能总结，得出以下关键观察结果：

• 连续动作很重要：通过比较两种类型的动作空间，即连续和离散，在单帧公式下，连续动作空间始终优于离散动作空间，尤其是在任务范围增加时。这一发现很直观：连续动作可以表示高精度浮点值，而离散动作仅限于索引动作间隔。对于长范围任务，复合误差的累积会显著降低离散动作的性能。
• 历史观察很重要：在相同的 VLM 结构（编码器-解码器或仅解码器）下，将历史观察作为输入的模型始终优于单步模型，在所有任务中都实现了更高的成功率。无论使用何种历史融合策略，这种改进都有效。此外，增加可观察历史的长度可以提高性能，尽管代价是更高的计算开销。
• 策略头改善历史融合：在使用历史的公式中，交错历史公式的表现比通过额外的策略头合并历史更差。假设策略头保留 VLM 原始的视觉语言融合能力，同时有效地整合历史信息。此外，交错公式在训练和推理过程中会产生更高的内存和 FLOPs 成本。这表明，将历史与额外的策略头结合起来是一种更有效、更高效的方法。

用 CALVIN 数据集在不同数据规模上训练具有不同架构和公式的模型，评估使用 RoboVLM 构建的不同 VLA 泛化和数据效率：

• 对于泛化性能，最佳模型基于 KosMos 主干并利用策略头进行历史融合，在零样本设置中仅表现出轻微的性能下降。相比之下，其他公式的性能下降明显。这一发现强调了模型架构对泛化有显著影响。
• 对于数据效率，其趋势与泛化相似。当训练数据缩小时，最佳模型始终能实现最高性能，与其他公式相比，性能下降速度明显较慢。此外，对不同规模的编码器-解码器 VLA 进行比较表明，较大的模型往往具有更高的数据效率。

迈向通才机器人策略：构建视觉-语言-动作模型的关键是什么

正文

请到「今天看啥」查看全文