Moto：潜运动token作为机器人操作的桥接语言

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-10 00:05

正文

24年12月来自香港大学、腾讯公司和UC Berkeley的论文“Moto: Latent Motion Token as the Bridging Language for Robot Manipulation”。

最近，在大量语料库上预训练的大语言模型 (LLM) 的发展已显示出在各种自然语言处理 (NLP) 任务中仅需极少的微调就取得显著成功。这一成功为机器人技术带来了新的希望，长期以来，机器人技术一直受到动作标注数据高成本的制约。一个要问的问题：鉴于包含交互相关知识的丰富视频数据可作为丰富的“语料库”，是否可以有效地应用类似的生成式预训练方法来增强机器人学习？关键挑战是确定一种有效的自回归预训练表示，以使机器人操作任务受益。受人类通过观察动态环境学习新技能方式的启发，本文提出有效的机器人学习应该强调与动作相关的知识，这些知识与低级动作密切相关并且与硬件无关，从而有助于将学到的动作迁移到实际的机器人动作。为此，引入 Moto ，通过潜运动token化器将视频内容转换为潜运动token序列，以无监督的方式从视频中学习运动的桥接“语言”。通过运动token自回归对 Moto-GPT 进行预训练，使其能够捕获各种视觉运动知识。经过预训练后，Moto-GPT 展示生成语义上可解释的运动token、预测合理的运动轨迹以及通过输出可能性评估轨迹合理性的良好能力。为了将学习的运动先验迁移到真实的机器人动作，实施一种共同微调策略，无缝地连接潜运动token预测和真实的机器人控制。

自然语言处理 (NLP) 的最新进展源于通过下一个单词预测对大型文本语料库进行自回归预训练的成功 [6, 18, 44, 46, 50]。预训练的大语言模型 (LLM) 在对较小的数据集进行微调后，在各种下游 NLP 任务中表现出色。这一成功为机器人技术开辟了新的机会，而该技术一直受到动作标注数据高成本的限制。鉴于互动丰富的视频数据丰富 [3, 57]，不禁要问一个问题：能否利用视频数据的自回归预训练来提高机器人的学习能力？

主要的挑战是找到一种适合视频数据自回归预训练的表示方法，以有效地捕获机器人操作的先验知识。机器人视频预训练的先驱研究主要集中在静态帧上，强调帧级视觉细节 [9, 19, 54]。然而，人类通过观察动态环境来学习技能，关注状态的变化——称之为运动。因此，机器人技术的有效自回归应该优先考虑与运动相关的知识，这些知识与低级机器人动作紧密相关，并且与硬件无关，有助于通过微调将学习的动作迁移到实际的机器人动作中。

最近的研究越来越多地使用 Transformer 作为统一的视觉-语言-动作 (VLA) 架构，从连续观察和语言指令中生成机器人动作 [5, 25, 48]。受到视觉语言 Transformer 预训练成功的启发 [1, 6, 36, 44]，VLA 模型预训练得到了广泛的关注。一种方法是从在大型图像文本数据集上预训练的强大视觉-语言模型中微调策略模型 [16, 32, 62]。另一种方法探索在带有动作标签的各种跨具身机器人数据上训练通才策略模型 [15, 28, 42, 52]。

除了 VLA 模型之外，还有一些贡献致力于提高机器人操纵性能。一些研究将单视角 RGB 图像的输入观测值扩展到包含多视角视图和深度信息 [8, 35, 59]。动作分块和策略扩散等技术也提高了动作精度 [13, 22, 27]。此外，一些研究 [20, 34] 将高级语言指令分解为在模仿学习过程中通过辅助训练目标学习的潜技能。

视频提供了有关物理动力学的丰富知识，使其成为机器人学习的理想选择。早期的研究 [38, 43] 利用以自我为中心的视频进行对比学习，以增强视觉表现以供操纵。一些研究 [4, 17, 29, 30, 33] 生成视频或图像作为指导低级控制的中间规划。最近的研究 [9, 23, 54] 已转向生成视频预训练，然后进行微调以创建端到端策略模型

Escontrela [19] 预训练自回归视频预测模型，为强化学习提供奖励信号。这些研究主要使用视频帧的像素值或patch 级别 token 作为预训练目标。

此外，一些研究通过动作条件视频生成构建世界模型 [21, 55, 56]，促进强化学习或用作交互式环境。值得注意的是，Genie [7] 提出从大规模视频中无监督学习潜动作，以创建一个多功能的 2D 游戏模拟器。同时，Ye [58] 预训练了一个策略模型来预测一步未来的潜动作，而 Chen [12] 使用潜动作作为低级策略的中间目标。

Moto 利用潜运动token序列进行自回归生成预训练，从视频中学习运动先验，然后对带有动作标注的数据进行共同微调，以控制机器人。如图所示，Moto 包含三个阶段：1）潜运动token化器的无监督训练，2）生成模型 Moto-GPT 的预训练，以及 3）机器人动作策略的共同微调。

如图所示，潜运动token化器学习一种潜“语言”，以无监督的方式捕捉连续视频帧之间的基本视觉运动。该架构遵循标准的自动编码器设计，用于运动token化和去token化。token化采用 M-Former，这是一种多层Transformer，使用冻结的预训练 ViT 编码器从当前帧和前一帧的最后一层patch特征中提取运动特征 [24]。将 8 个可学习的查询嵌入与这些patch特征连接起来，作为 M-Former 的附加输入，其中查询通过自注意层进行交互。然后，输出的查询特征由词汇量为 128 的 VQ 码本处理，以生成离散的潜运动tokens。

对于去token化，用 ViT 解码器进行图像重建，该解码器采用前一时刻特征的线性嵌入块并根据潜运动token恢复当前时刻特征的像素值。MLP 将潜运动token的连接量化嵌入投影到紧凑嵌入（1 个token）中，并将其添加到每个输入块嵌入中。这种条件嵌入充当编码器和解码器之间的信息瓶颈，使 ViT 解码器能够捕获帧之间的细微变化并准确地将前一时刻特征转换为当前特征。

使用标准 VQ-VAE 目标 [51] 联合优化潜运动token化器的组件，其中包括重建损失、矢量量化损失和承诺损失。特别用 ViT 解码器的输出像素值与当前特征真实像素值之间的 MSE 损失作为重建损失。经过训练后，潜运动token化器将冻结，通过“双帧”token化为视频生成统一的连续运动表示。此外，借助初始观察和指定的潜运动token，解码器可以充当“模拟器”，生成可视化环境变化的展开。

Moto：潜运动token作为机器人操作的桥接语言

正文

请到「今天看啥」查看全文