Octo：一个开源通才机器人策略

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-08-31 00:08

正文

24年5月来自UC Berkeley、Stanford、CMU和Deepmind的论文“Octo: An Open-Source Generalist Robot Policy”。

在各种机器人数据集上预训练的大策略有可能改变机器人学习：这种通用机器人策略无需从头开始训练新策略，只需使用少量域内数据即可进行微调，但具有广泛的泛化能力。然而，为了广泛应用于各种机器人学习场景、环境和任务，这些策略需要处理各种传感器和动作空间，适应各种常用的机器人平台，并轻松高效地微调到新域。这项工作旨在为开发开源、广泛适用的通才机器人操作策略奠定基础。作为第一步，引入 Octo，一种基于大型 Transformer 的策略，在 Open X-Embodiment 数据集（迄今为止最大的机器人操作数据集）上的 800k 条轨迹上进行训练。它可以通过语言命令或目标图像进行指示，并且可以在标准消费级 GPU 上在几个小时内通过新的感官输入和动作空间有效地微调到机器人设置。在 9 个机器人平台上进行的实验中，Octo 可以作为一种多功能的策略初始化，可以有效地微调以适应新的观察和行动空间。

机器人学习的常用方法，是针对特定机器人和手头任务收集的数据集训练策略。以这种方式从头开始学习需要为每个任务进行大量的数据收集工作，并且生成的策略通常仅表现出狭窄的泛化能力。原则上，从其他机器人和任务中收集的经验提供了一种可能的解决方案，将模型暴露于各种机器人控制问题，这可能会提高下游任务的泛化能力和性能。然而，即使通用（general purpose）模型在自然语言 [68, 88]）和计算机视觉 [76, 44] 中变得无处不在，构建可以控制许多机器人执行许多任务的类似“通用机器人模型”也已证明具有挑战性。在机器人技术中训练统一的控制策略提出了独特的挑战，需要处理不同的机器人实施例、传感器设置、动作空间、任务规范、环境和计算预算。

朝着这个方向，一些研究提出了机器人基础模型，这些模型直接将机器人观察结果映射到动作，并为新领域和机器人提供零样本或少样本泛化。将这些模型称为“通才（generalist）机器人策略”（GRP），强调它们能够在任务、环境和机器人系统中执行低级视觉运动控制 [75、9、23、103、10、81、1、91、35、94、45]。例如，GNM 模型 [80] 适用于不同的机器人导航场景，RoboCat 模型 [9] 处理目标条件任务的不同机器人实施例，RT-X 模型 [67] 适用于五种机器人实施例执行语言条件操作。虽然这些模型代表了迈向真正的“通用机器人模型”的重要一步，但它们在多个重要方面受到限制：它们通常将下游用户限制在一组预定义且通常具有限制性的输入观察中，例如单个摄像机流；它们缺乏对新领域进行有效微调的支持；重要的是，这些模型中最大的模型不向公众开放。

本文设计了一个系统，用于预训练通才机器人策略，使其更适合下游机器人应用中的接口多样性。模型的核心是一个Transformer架构，它将任意输入tokens（根据观察和任务创建）映射到输出tokens（然后解码为动作），这些tokens可以在多样化的机器人和任务数据集上进行训练。无需额外训练，此策略可以接受不同的摄像头配置（例如，工作区或腕式摄像头），可以控制不同的机器人，并且可以通过语言命令或目标图像进行引导 - 只需更改输入到模型中的tokens即可。最重要的是，添加适当的适配器并使用小型目标域数据集和可访问的计算预算，进行微调，该模型可以适应具有新感官输入、动作空间或形态的新机器人设置。

如图所示Octo 模型架构。左图：Octo 分别使用预训练语言模型和轻量级 CNN 对任务描述（绿色）和输入观察（蓝色）进行token化。上图：Transformer 主干处理任务和观察tokens序列并生成读数的 tokens（紫色），这些tokens会传递到输出头以产生动作。下图：Transformer 的逐块注意结构允许在微调期间添加或删除输入和输出：例如，可以添加新的观察（蓝色，虚线）或动作空间（紫色，虚线），而无需修改任何预训练参数。

如图所示训练数据组合：这些数据集具有图像观察、末端执行器动作并表现出不同的行为。饼图直观地显示了每个数据集对每个训练批次的平均贡献分数。数据集权重由每个数据集中的样本数量决定，并进行小幅修改以平衡数据集大小和多样性。

使用条件扩散解码头来预测连续的多模态动作分布 [34, 17]。重要的是，每个动作预测只执行一次 Transformer 主干网络的前向传递，之后多步去噪过程完全在小扩散头内进行。这种策略参数化在零样本和微调评估中都优于使用 MSE 动作头或离散化动作分布 [10] 训练的策略。为了生成动作，采样高斯噪声向量 xK ∼ N （0, I），并使用学习到的去噪网络 εθ(xk, e, k) 应用 K 步去噪，该网络取决于上一个去噪步骤的输出 xk、步骤索引 k 和 Transformer 动作读数的输出嵌入 e ：

Octo：一个开源通才机器人策略

正文

请到「今天看啥」查看全文