GR-1：为视觉机器人操控释放大规模视频生成预训练模型

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-10-23 03:57

正文

23年12月来自字节的论文“GR-1: Unleashing Large-Scale Video Generative Pre-Training For Visual Robot Manipulation“。

通过学习有用的表征，生成式预训练模型在语言和视觉领域表现出有效性。本文扩展这种有效性的范围，表明视觉机器人操纵可以受益于大规模视频生成式预训练。GR-1，是一个简单的 GPT 风格模型，专为多任务语言条件视觉机器人操作而设计。GR-1 将语言指令、观察图像序列和机器人状态序列作为输入。它以端到端的方式预测机器人动作以及未来图像。由于设计灵活，GR-1 可以在大规模视频数据集上进行预训练后，无缝地在机器人数据上进行微调。对具有挑战性的 CALVIN 基准和真实机器人进行大量实验。在 CALVIN 基准上，该方法优于最先进的基线方法，并将成功率从 88.9% 提高到 94.9%。在零样本未见过场景的泛化设置中，GR-1 将成功率从 53.3% 提高到 85.4%。在实际机器人实验中，GR-1 也优于基线方法，并显示出对未见过场景和物体的强大泛化潜力。

最近，生成式预训练模型在自然语言处理 (NLP) 和计算机视觉 (CV) 方面都表现出色 (Brown，2020；Chen，2020；He，2022；Touvron，2023)。它们以生成的方式对输入序列进行建模，并在大规模数据集上进行预训练，然后再对特定任务进行微调。大规模预训练使这些模型能够从大型数据集中学习通用模式，从而使它们能够轻松推广到继承泛化性和鲁棒性的相关微调任务。机器人数据也具有生成性，因为只有在采取行动后才会发现观察结果。然而，与 NLP 和 CV 不同，机器人数据是稀疏的，因为它的收集通常需要昂贵且耗时的人工演示。此外，机器人数据是多模态的，包括图像、机器人状态、动作和语言指令。为了应对这些挑战，先前的研究已经深入研究了各种预训练方法，旨在增强机器人的学习能力（Nair，2022；Radosavovic，2022；Seo，2023；Radosavovic，2023；Parisi，2022；Shah，2023；Lin，2023；Kumar，2022；Liu，2022；Yen-Chen，2020）。

视频生成预训练是一项与机器人动作学习密切相关的任务，因为机器人轨迹本身包含视频序列。根据过去的图像和语言指令预测未来帧的能力使机器人能够预测即将发生的事件，从而有助于产生相关和适当的动作。如图所示，GR-1 用大规模视频数据集进行视频预测任务的预训练。然后，它根据机器人数据进行微调，以学习多任务视觉机器人操控。

将多任务语言为条件的视觉机器人操控公式化为学习模型 π，该模型将语言指令 l 和一系列观察图像 o/t-h:t 和状态 s/t-h:t 从时间步 t-h 到当前时间步 t 映射到动作 a/t。此外，在预训练阶段添加类似于视频预测的未来图像预测。

语言指令 l 描述机器人被指示完成的任务，例如“将红色块向左滑动”。观察序列 o/t-h:t 包含来自环境的视觉观察图像。状态序列 s/t-h:t 表示机器人状态，即末端执行器姿势和二元夹持器状态。还假设可以访问包含 M 个不同任务的 N 条专家轨迹 D = {τi} 数据集。每条轨迹都由一个语言指令和一个观察图像、机器人状态和动作序列组成：τ ={l, o1, s1, a1, o2, s2, a2, ..., oT, sT, aT}。

如上图所示，GR-1 是一个简单的 GPT 风格Transformer（Radford，2018），它能够将不同的模态作为输入并输出未来的图像和动作。下图所示是GR-1 输入：

• 语言输入。语言 l 通过文本编码器进行编码（图 (a)）。遵循（Shridhar，2022；2023），用 CLIP（Radford，2021）作为语言编码器。
• 视觉输入。视觉观察 o 通过用 MAE 预训练的视觉 Transformer (ViT) 进行编码（He，2022）（图(c)）。输出 CLS token zCLS 用作图像的全局表示。输出patch token zo/p1:i 用作局部表示，并通过感知器重采样器（Jaegle，2021）进一步处理以减少token数量。
• 机器人状态输入。机器人状态 s 包含机器人末端执行器 s/arm ∈ SE(3) 的 6D 姿势和夹持器 sgripper ∈ {0,1} 的二进制状态。用线性层对它们进行编码（图(b)）。

在输入因果Transformer之前，所有模态的嵌入都会经过线性层以对齐维度。对于动作预测，学习一个动作预测tokens嵌入来预测手臂和夹持器的动作。为简便起见，称为 [ACT]。对于视频预测，学习几个观察预测tokens嵌入来预测未来的帧。为简便起见，称为 [OBS]。

遵循生成式预训练模型中通常使用的因果注意机制，但所有 [ACT] 和 [OBS] 标记都被屏蔽。也就是说，在预训练期间，tokens可以关注先前位置中除 [OBS] tokens 之外的所有tokens；在微调期间，tokens 可以关注先前位置中除 [ACT] 和 [OBS] tokens 之外的所有tokens。

对于视频预测，附加一个由自注意块和多层感知器 (MLP) 组成的 Transformer 解码器。解码器对对应于 [OBS] tokens 和掩码 tokens 的输出进行操作（上图（d））。每个掩码tokens都是一个共享且可学习的嵌入，并添加相应的位置编码。对应于掩码tokens的输出重建预测的未来图像patches。按照 He（2022）的研究，损失函数 Lvideo 计算像素空间中重建图像和原始图像之间的均方误差 (MSE)。[ACT] tokens 的输出通过线性层来预测手臂和夹持器的动作（上图（e））。由于手臂动作是连续的，用 Smooth-L1 损失 Larm 进行训练。使用二元交叉熵 (BCE) 损失 Lgripper 优化夹持器动作。

首先对 GR-1 进行视频预测预训练，然后根据机器人数据对其进行微调。在预训练和微调阶段，冻结 CLIP 文本编码器和 MAE 图像编码器。

预训练。大规模视频生成预训练的数据来源于最近提出的 Ego4D 数据集（Grauman，2022），其中包含大规模人与物体的交互。Ego4D 包含超过 3,500 小时的数据。每个视频片段还包含描述视频中人物行为的自然语言注释。从每个视频中裁剪出一个时长为 3 秒的短片段。通过这种策略，总共收集 800,000 个包含 8M 帧的视频片段。在预训练期间，随机抽样视频序列并训练 GR-1 以预测 o/t+∆t。网络使用因果视频预测损失 Lvideo 进行优化。

机器人数据微调。在微调过程中，从机器人数据集中随机抽取序列，并使用因果行为克隆损失和视频预测损失对 GR-1 进行端到端优化：Lfinetune = Larm + Lgripper + Lvideo。

CALVIN 是一个具有挑战性的基准，专注于学习语言条件策略，以实现长远的机器人操作（如图所示）。它包含 34 项任务，具有不受约束的语言指令。环境包含一个带有平行钳口夹持器的 Franka Emika Panda 机器人和一张带滑动门的桌子、一个可以打开或关闭的抽屉、不同颜色的积木、一个 LED 和一个可以打开或关闭的灯泡。

GR-1：为视觉机器人操控释放大规模视频生成预训练模型

正文

请到「今天看啥」查看全文