Manipulate-Anything：操控一切! VLM实现真实世界机器人自动化

自动驾驶之心 · 公众号 · · 2024-10-14 07:30

正文

点击下方卡片，关注“ 具身智能 之心 ”公众号

作者 | 具身智能之心编辑 | 具身智能之心

本文只做学术分享，如有侵权，联系删文

原标题：Manipulate-Anything: Automating Real-World Robots using Vision-Language Models

论文链接：https://robot-ma.github.io/MA_paper.pdf

项目链接：https://robot-ma.github.io/

作者单位：华盛顿大学圣巴勃罗天主教大学艾伦人工智能研究所 NVIDIA

MANIPULATE-ANYTHING解决了什么？

大规模项目如RT-1以及社区广泛参与的项目如Open-X-Embodiment已经为扩展机器人演示数据的规模做出了贡献。然而，仍然存在提升机器人演示数据质量、数量和多样性的机会。尽管视觉-语言模型已经被证明可以自动生成演示数据，但它们的应用仅限于具有特权(privileged)状态信息的环境中，并且需要手工设计的技能，同时只限于与少量物体实例的交互。本文提出了MANIPULATE-ANYTHING，一种用于真实世界机器人操作的可扩展自动生成(scalable automated generation)方法。与以往的工作不同，本文的方法无需特权(privileged)状态信息或手工设计的技能，能够在真实环境中操作任何静态物体。在两个设置下对本文的方法进行了评估。首先，MANIPULATE-ANYTHING 成功生成了所有7个真实世界任务和14个仿真任务的轨迹，显著优于现有方法如VoxPoser。其次，MANIPULATE-ANYTHING生成的演示数据相比人类演示数据或VoxPoser、Scaling-up以及Code-As-Policies生成的数据，能够训练出更稳健的行为克隆策略。我们相信，MANIPULATE-ANYTHING 可以成为一种可扩展的方法，既能为机器人生成数据，也能在零样本环境下解决新任务。

更多具身智能内容，欢迎加入国内首个具身智能全栈学习社区： 具身智能之心知识星球 ，这里有多有你想要的。

MANIPULATE-ANYTHING的设计

现代机器学习系统的成功从根本上依赖于其训练数据的数量、质量和多样性。大规模互联网数据的可用性使视觉和语言领域取得了显著进展。然而，数据匮乏阻碍了机器人领域的类似进展。人类演示数据的收集方法难以扩展到足够的数量或多样性。像RT-1这样的项目展示了收集了17个月的高质量人类数据的实用性。其他研究则开发了用于数据收集的低成本硬件。然而，这些方法都依赖于昂贵的人类数据收集过程。

自动化数据收集方法在多样性上难以实现足够的扩展。随着视觉-语言模型（VLMS）的出现，机器人领域涌现了许多利用VLMS来指导机器人行为的新系统。在这些系统中，VLMS将任务分解为语言计划或生成代码以执行预定义技能。尽管这些方法在仿真中取得了一定成功，但在现实世界中的表现不佳。有些方法依赖于仅在仿真中可用的特权(privileged)状态信息，需要手工设计的技能，或者仅限于操作已知几何形状的固定物体实例。

随着视觉-语言模型（VLMs）性能的提升，以及它们展示出的广泛常识知识，我们是否能够利用它们的能力来完成多样化任务并实现可扩展的数据生成？答案是肯定的——通过精心的系统设计以及正确的输入和输出形式，我们不仅可以利用VLMs以零样本的方式成功执行多样化任务，还可以生成大量高质量的数据，用于训练行为克隆策略。

本文提出了 MANIPULATE-ANYTHING ，一种可扩展的自动化演示生成方法，用于真实世界中的机器人操作。 MANIPULATE-ANYTHING 能够生成高质量、大规模的数据，并且能够操作多种物体来执行多样化的任务。当被置于现实环境中并给定任务时（例如，图2中的“打开上层抽屉”）， MANIPULATE-ANYTHING 能够有效利用视觉-语言模型（VLMS）来指导机械臂完成任务。与之前的方法不同的是，它不需要特权(privileged)状态信息、手工设计的技能，也不局限于特定的物体实例。不依赖特权(privileged)信息使得 MANIPULATE-ANYTHING 能够适应各种环境。 MANIPULATE-ANYTHING 会规划一系列子目标，并生成相应的动作来执行这些子目标。它还可以使用验证器检查机器人是否成功完成了子目标，如有需要可以从当前状态重新规划。这种错误恢复机制使得系统能够识别错误、重新规划并从失败中恢复，并且将恢复行为注入到收集的演示数据中。本文还通过引入多视角推理，进一步增强了VLM的能力，显著提升了性能。

通过两个评估设置展示了 MANIPULATE-ANYTHING 的实用性。首先展示了它可以应对一个全新的、前所未见的任务，并以零样本的方式完成任务。本文在7个真实世界任务和14个RLBench仿真任务中进行了量化评估，并展示了在多个日常现实任务中的能力（详见补充材料）。在零样本评估中，本文的方法在14个仿真任务中的10个任务上显著优于VoxPoser。它还能推广到VoxPoser因物体实例限制而完全失败的任务中。此外，本文展示了该方法能够以零样本方式解决真实世界中的操作任务，任务平均成功率达到38.57%。其次展示了 MANIPULATE-ANYTHING 可以生成有用的训练数据，用于行为克隆策略的训练。将 MANIPULATE-ANYTHING 生成的数据与人工收集的真实演示数据以及VoxPoser、Scaling-up和 Code-As-Policies生成的数据进行比较。令人惊讶的是，基于本文数据训练的策略在12个任务中的5个任务上表现优于人工收集数据，并且在另外4个任务中表现相当（通过RVT-2评估）。与此同时，基准方法在某些任务上无法生成训练数据。 MANIPULATE-ANYTHING 展示了在非结构化的现实环境中大规模部署机器人的广泛可能性，同时也突显了其作为训练数据生成器的实用性，有助于实现扩大机器人演示数据规模这一关键目标。

图1： MANIPULATE-ANYTHING 是一种用于真实世界环境中机器人操作的自动化方法。与之前的方法不同，它不需要特权(privileged)状态信息、手工设计的技能，也不局限于操作固定数量的物体实例。它能够引导机器人完成多样化的未见任务，操纵不同的物体。此外，生成的数据可以用于训练行为克隆策略，其效果优于使用人类演示数据进行的训练。

图2： MANIPULATE-ANYTHING 框架。该过程首先将场景表示和自然语言任务指令输入到视觉-语言模型（VLM），模型识别出物体并确定子任务。对于每个子任务，本文提供多视角图像、验证条件和任务目标给动作生成模块，生成与任务相关的抓取姿势或动作代码。随后达到一个临时目标状态，子任务验证模块对其进行评估以进行错误恢复。当所有子任务完成后，本文对轨迹进行筛选，获得成功的演示数据，用于后续策略训练。

Manipulate-Anything：操控一切! VLM实现真实世界机器人自动化

正文

MANIPULATE-ANYTHING解决了什么？

MANIPULATE-ANYTHING的设计

请到「今天看啥」查看全文