GR-2：用于机器人操纵的网络规模知识生成视频-语言-动作（VLA）模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-10-23 03:57

正文

24年10月来自字节的论文“GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation”。

GR-2，是一款先进的通用机器人智体，可用于多功能和可泛化的机器人操纵。GR-2 首先在大量互联网视频上进行预训练，捕捉世界的动态。这项大规模预训练涉及 3800 万个视频片段和超过 500 亿个tokens，使 GR-2 能够在后续的策略学习中泛化到各种机器人任务和环境。此后，GR-2 针对视频生成和使用机器人轨迹的动作预测进行了微调。它表现出多任务学习能力，在 100 多项任务中实现了 97.7% 的平均成功率。此外，GR-2 还展示了对新的、以前从未见过的场景的出色泛化能力，包括新的背景、环境、目标和任务。值得注意的是，GR-2 可以随着模型大小的有效扩展，凸显其持续增长和应用的潜力。

高容量基础模型的兴起为语言 [1]、图像 [2] 和视频 [3] 处理任务的成功做出了重大贡献。这些模型最初在大规模多样化数据集上进行预训练，随后可以适应特定的下游任务，使其在应用中具有多功能性。这种范式允许这些模型在以不同的输入（例如语言提示 [4]）为条件时使用单个通才模型处理各种任务。

遵循在其他领域建立的基础模型，本文目标是通过对综合数据集进行大规模预训练来开发基础通才操作智体。这将通过有效的微调实现对各种新型操纵任务的快速适应。通才操作智体应该能够执行各种操纵技能。更重要的是，它应该在获取新技能和处理干扰方面表现出强大的性能。尽管人工智能最近取得了进展并转向数据驱动学习，但由于数据收集方法效率低下和真实机器人系统可扩展性有限，收集大规模机器人数据仍然是一项重大挑战。研究表明，对视频生成进行预训练可以有效地将视频中的有价值知识转移到策略学习中，从而提高动作预测能力 [5]。

回顾相关工作。

通才机器人操纵。机器人研究的一个长期目标是开发一个通才机器人智体，能够在不同的环境中完成广泛的任务。指定任务的最灵活方法之一是通过自然语言 [15、29、5、28、30、31、27、26、32、33、34、35、36、37]。先驱研究探索使用大规模机器人数据集来学习能够完成各种任务的通才策略 [32、15、29、38]。为了在未见过的场景中实现泛化，一些现有的研究将来自其他领域的数据与机器人数据相结合进行策略训练 [39、5、29]。最近，许多研究提出对已经在互联网规模数据上进行预训练的视觉语言模型进行微调，以获得稳健且可泛化的机器人策略 [28、29、40]。此外，最近的一些研究利用 3D 信息 [41、42、43、44]，利用 3D 数据中包含的几何信息实现高效的策略学习。另一系列研究提出用目标图像而不是语言来调节策略 [45、46、47、48、49]。之前的方法还探索对齐目标图像和语言的潜空间，在训练期间同时实现目标图像条件和语言条件 [27、31、33]。

预训练机器人学习。受到视觉 [50] 和语言 [51] 领域成功的启发，预训练在机器人学习中越来越受欢迎，因为它可以增强策略的泛化能力和鲁棒性 [52、53、54、55、56、57、58、40、5]。一种流行的方法是首先通过掩蔽建模 [53、59、60、52] 或对比学习 [54、61、62、63] 学习有用的视觉表征。然后将学习的表征用于下游策略学习。RPT [55] 进行自我监督的预训练，并展示使用大型机器人数据集进行预训练的效果，始终优于从头开始训练。在强化学习 (RL) 中，先前的研究提出首先训练一个世界模型以获得潜状态表征，然后使用它们来训练 RL 智体 [64、56、59]。VIPER [65] 使用专家数据训练了一个视频预测模型，并将其用作无动作奖励信号来训练强化学习策略。一些基于模型的方法训练一个视频预测模型，并将其与逆动力学模型 [66, 58, 67] 或模型预测控制（MPC） [68, 69] 相结合，以执行机器人操作。VPT [70] 首先使用少量标有动作的数据训练一个逆动力学模型，然后使用它来标注从网络上收集的大量未标注数据，以便在 Minecraft 中进行策略训练。基于端到端微调 [28]、与机器人数据共同训练 [29, 40] 或双流架构 [71] 等，最近的研究在互联网规模数据上预训练模型，训练策略。该策略可以利用从策略学习的预训练中获得网络规模知识，并在前所未见的场景中展示强大的泛化能力。

语言调节的视觉机器人操纵，视为实现通才机器人操纵的方法，因为语言是人类为机器人指定任务的最灵活方式之一。在这种情况下，单个机器人策略必须通过理解不同的无约束语言指令来解决多个复杂的操纵任务。具体来说，希望训练一个通用策略 π，它将语言指令 l、环境观察序列 o/t-h:t 和机器人状态序列 s/t-h:t 作为输入。该策略以端到端的方式输出a/t:t+k 的动作轨迹。

如图所示，GR-2 是一个语言调节 GPT 风格视觉操控的策略模型。训练分为两个阶段：视频生成预训练和机器人数据微调。在预训练阶段，在精选的大规模视频数据集上训练 GR-2。之后，在机器人数据上对 GR-2 进行微调，同时预测动作轨迹和视频。

用冻结文本编码器 [6] 来token化语言指令。对于视频中的图像帧，用 VQGAN [7] 将每个图像转换为离散tokens。VQGAN 在大量互联网数据以及域内机器人数据上进行训练，并在训练过程中保持冻结状态。这种方法有助于快速训练并支持生成高质量的视频。机器人状态包含末端执行器的位置和旋转，以及二元夹持器状态。状态通过线性层进行编码，可在微调阶段进行训练。

在预训练阶段的目标是让 GR-2 具备预测未来视频的能力。这使模型能够开发出强大的先验知识来预测未来事件，从而增强其做出准确动作预测的能力。该模型建立在 GPT 风格的Transformer上，将token化的文本和图像序列作为输入，并输出未来图像的离散tokens。未来的图像将使用 VQGAN 解码器从这些tokens中解码出来。强调的是，与以前利用视频预训练的方法相比，GR-2 在大量视频数据上进行预训练。预训练数据包括常用的人类活动公共数据集，例如 Howto100M [8]、Ego4D [9]、Something-Something V2 [10]、EPIC-KITCHENS [11] 和 Kinetics-700 [12]。为了为机器人操纵任务定制预训练数据，精心建立包括手动滤波 [13] 和重新生成字幕 [14] 在内的数据处理流水线。此外，还包括公开可用的机器人数据集，例如 RT-1 [15] 和 Bridge [16]。总的来说，用于预训练的视频片段数量为 3800 万个，相当于约 500 亿个tokens。如图显示人类活动和视频样本的分布。

真实机器人系统由 7 自由度 Kinova Gen3 机械臂和 Robotiq 2F-85 夹持器组成。用两个摄像头：一个静态头部摄像头提供工作空间的概览；另一个摄像头安装在末端执行器上，提供夹持器与环境之间相互作用的特写视图。

GR-2 在笛卡尔空间中生成动作轨迹。为了确保机械臂准确遵循该轨迹，开发一种全身控制 (WBC) 算法，该算法采用轨迹优化进行运动跟踪 [20]。生成的轨迹首先经过优化以提高其平滑度和连续性。随后，WBC 算法将笛卡尔轨迹转换为低级关节动作，这些动作以 200 Hz 的频率在真实机器人上执行。此过程将碰撞约束和可操作性集成到优化框架中。

在两种设置下执行大规模真实机器人实验：多任务学习和端到端拾取。

如图所示，在多任务学习中，旨在评估 GR-2 学习多种不同任务的能力。还在多个具有挑战性的分布外设置中进行评估，以验证其泛化能力。

实验设置包含一个源篮子和一个目标篮子（图(a)）。机器人的任务是从源篮子中拾取物体并以无缝和端到端的方式将它们放入目标篮子中。总共收集了 55 个物体的约 94,000 条拾取和放置轨迹用于训练。语言指令非常简单：将任何物体从右篮子移到左篮子。

GR-2：用于机器人操纵的网络规模知识生成视频-语言-动作（VLA）模型

正文

请到「今天看啥」查看全文