机器人操作模仿学习中的数据规模化定律

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-11-22 00:15

正文

24年10月来自清华、上海姚期智研究院和上海AI实验室的论文“Data Scaling Laws In Imitation Learning For Robotic Manipulation”。

数据规模化彻底改变了自然语言处理和计算机视觉等领域，为模型提供了卓越的泛化能力。本文研究在机器人技术（特别是机器人操作）中是否存在类似的数据规模化规律，以及适当的数据规模化是否可以产生单任务机器人策略，这些策略可以在任何环境中对同一类别中的任何目标进行零样本部署。为此，本文对模仿学习中的数据规模化进行全面的实证研究。通过收集大量环境和目标的数据，研究策略的泛化性能如何随训练环境、目标和演示的数量而变化。在整个研究过程中，收集超过 40,000 次演示，并按照严格的评估协议执行超过 15,000 次真实世界的机器人演示。研究结果揭示几个结果：策略的泛化性能，与环境和目标的数量大致呈幂律关系。环境和目标的多样性，远比演示的绝对数量重要；一旦每个环境或目标的演示次数达到某个阈值，额外的演示效果就会微乎其微。基于这些见解，本文提出一种有效的数据收集策略。四名数据收集员工作一个下午，收集了足够的数据，使两项任务的策略在未见过目标的新环境中实现约 90% 的成功率。

如图所示所有任务：对“倒水”和“鼠标排列”进行大量实验得出了数据规模化规律，并在包括“折叠毛巾”和“拔下充电器”在内的其他任务上进一步验证了这些发现。

虽然数据规模化赋予了 NLP 和 CV 模型出色的泛化能力（Achiam2023；Kirillov 2023），但当今的大多数机器人策略仍然缺乏可比的零样本泛化能力（Xie，2024）。从一开始，本文就将可泛化的操作技能视为一等公民，强调现实世界的泛化能力，而不是受控实验室环境中的评估。在此背景下，旨在研究以下基本问题：适当的数据规模化能否产生能够在任何环境中对几乎任何目标进行操作的机器人策略？

规模化定律。规模化定律首先在神经语言模型中发现（Kaplan ，2020 ），揭示了数据集大小（或模型大小、计算）与交叉熵损失之间的幂律关系。随后，在判别图像建模（Zhai ，2022 ）、生成图像建模（Peebles & Xie，2023）、视频建模（Henighan ，2020 ）和其他领域（Hilton ，2023 ；Liu ，2024 ）中也观察到了规模化定律。这些定律不仅验证了神经网络的可扩展性——这是近期基础模型成功的关键因素（Bommasani ，2021 ；Brown ，2020 ；Touvron ，2023 ），而且还能够根据较小模型对较大模型进行性能预测，从而指导更有效的资源分配（Achiam ，2023 ）。

机器人操作中的数据规模化。与 NLP 和 CV 领域类似，机器人操作也经历了数据规模化的趋势（Sharma et al., 2018; Kalashnikov et al., 2018; Mandlekar et al., 2018; Dasari et al., 2019; Ebert et al., 2021; Jang et al., 2022; Brohan et al., 2022; Walke，2023；Fang ，2023a；Padalkar ，2023；Zhao ，2024）。现有最大的数据集 Open X-Embodiment (OXE) 包含来自 22 个机器人实施例的 100 多万条机器人轨迹 (Padalkar ，2023)。扩展 OXE 的主要目标是开发一个基础机器人模型，以促进不同机器人之间的正向迁移学习。但是，在新环境中部署此类模型仍然需要收集数据进行微调。Gao (2024) 还探索了有效数据规模化策略以增强泛化能力。然而，他们的工作仅限于域内组合泛化。

机器人操作中的泛化。创造一个可泛化的机器人一直是机器人界长期以来的愿望。一些研究旨在提高对新目标实例的泛化能力 (Mahler ，2017 ；Mu ，2021 ；Fang ，2023b ；Zhu ，2023a )，而其他研究则侧重于使机器人能够适应未见过的环境 (Hansen ，2020 ；Xing ，2021 ；Teoh ，2024 ；Xie ，2024 )。最近，人们非常关注开发可以泛化到新任务指令的策略 (Jang ，2022 ；Bharadhwaj ，2023 ；Brohan ，2023 ；Team ，2024 )。感兴趣的是泛化的前两个维度：创建一种能够在任何环境中对同一类别中几乎任何目标进行操作的单任务策略。这种单任务策略可以作为规划算法的原始技能（Ahn ，2022；Hu ，2023a），也是进一步研究多任务通才策略的基础（Kim ，2024）。UMI（Chi ，2024）表明，对不同演示进行训练可显著提高策略在新环境和新目标中的泛化性能。同时，RUM（Etukuru ，2024）开发能够在新环境中零样本部署的策略。然而，UMI 和 RUM 都没有深入分析泛化与不同数据维度之间的关系——这是空白。

泛化维度。用行为克隆 (BC) 来训练单任务策略，这是学习现实世界操作技能的主要方法。然而，许多 BC 训练的策略表现出较差的泛化性能。这种泛化问题体现在两个维度上：(1) 环境 ——泛化到以前未见过的环境，可能涉及照明条件、干扰目标、背景变化等变化；(2) 目标 ——泛化到与人类演示中的目标属于同一类别的新目标，在颜色、大小、几何形状等属性上有所不同。

该领域的先前研究试图通过独立控制特定因素来隔离每个维度内的变化（Xie ，2024；Pumacay ，2024）。例如，可以使用特殊的照明设置来仅改变照明的颜色，或者 3D 打印目标可能被设计为仅在大小上发生变化而不改变其形状或几何形状。虽然这种方法可以精确控制单个因素，但它不能解释所有可能的变化因素。更重要的是，现实世界的表现并不取决于对单个因素的概括，而是取决于处理同时变化的多个因素复杂相互作用。为了解决这个问题，专注于跨两个维度（环境和目标）的泛化，这两个维度共同涵盖了策略在自然的现实世界场景中可能遇到的所有因素。对于环境变化，通过收集不同野外环境中的人类演示来扩展真实场景的数量。对于目标变化，通过获取同一类别中的大量日常物品来扩展可访问目标的数量。这种对现实世界多样性的强调增强了研究结果在更多样化和更实际环境中的适用性。

数据规模化定律公式。为简单起见，考虑这样一种场景，其中跨 M 个环境（E/1、E/2、...、E/M）和 N 个同一类别的操作目标（O/1、O/2、...、O/N）收集操作任务的演示数据集。每个环境可以包含任意数量的干扰目标，只要它们与操作目标不属于同一类别。对于环境 Ej 中的每个目标 O/i，都会收集 K 个演示 (D/ij1、D/ij2、...、D/ijK)。用在训练期间未见过的环境和目标的测试分数 S 来评估策略的性能。本文中的数据规模化定律旨在：（1）描述 S 与变量 M、N 和 K 之间的关系，具体来说，泛化能力如何取决于环境、目标和演示的数量；（2）根据这种关系确定有效的数据收集策略以达到所需的泛化水平。

数据来源。现有的机器人操作数据集没有为单个任务提供足够的环境和目标来满足要求。因此，选择使用通用操作接口 (UMI) ，一种手持式夹持器（Chi，2024），独立收集大量演示。UMI 的便携性、直观的设计和低成本使其成为满足数据收集需求的理想工具。它可以实现高效的数据收集，并允许以最少的设置时间在不同的野外环境之间无缝切换。但是，由于 UMI 依赖 SLAM 来捕获末端执行器动作，因此它可能会在缺乏纹理的环境中遇到挑战。收集的演示中大约 90% 是有效的。

策略学习。采用扩散策略来模拟收集的大量数据，因为它在现实世界的操作任务中表现出色，并且最近得到了广泛的应用（Shafiullah ，2024 ；Ze ，2024 ）。继（Chi 2023）之后，用基于 CNN 的 U-Net (Ronneberger et al., 2015) 作为噪声预测网络，并使用 DDIM (Song et al., 2020a) 来减少推理延迟，实现实时控制。

为了进一步提高性能，做了两项改进：

(1) DINOv2 视觉编码器：在实验中，微调 DINOv2 ViT (Oquab et al., 2023) 优于 ImageNet 预训练的 ResNet (He et al., 2016; Deng et al., 2009) 和 CLIP ViT (Radford et al., 2021)。这一改进归因于 DINOv2 特征能够明确捕获图像中的场景布局和目标边界 (Caron et al., 2021)。这些信息对于增强空间推理至关重要，这对于机器人控制尤其有益（Hu et al., 2023b; Yang et al., 2023; Kim et al., 2024）。为了确保模型容量不会成为扩展数据时的瓶颈，用足够大的模型 ViT-Large/14（Dosovitskiy ，2020 ）。
(2) 时域集成：扩散策略每 T1 步预测一个动作序列，每个序列的长度为 T2（T2 > T1），并且只执行前 T1 步。执行的动作序列之间不连续性会导致切换过程中的动作不连贯。为了解决这个问题，实施 ACT （Zhao 2023）提出的时域集成策略。具体来说，该策略在每个时间步进行预测，从而产生重叠的动作序列。在任何给定的时间步，使用指数加权方案对多个预测动作进行平均，从而平滑过渡并减少运动不连续性。

评估。严格的评估是为了确保结果的可靠性。首先，为了评估策略的泛化性能，专门在未见过的环境或目标中对其进行测试。其次，用测试人员分配的分数作为主要评估指标。每个操作任务分为几个阶段或步骤（通常为 2-3 个），每个阶段或步骤都有明确定义的评分标准。每个步骤最多可获得 3 分，报告一个标准化分数，定义为标准化分数 = 总测试分数/（3×步数），最大值为 1。与常用的成功率不同（这是一个过于稀疏的信号，缺乏区分策略的粒度），该评分机制可以捕捉到更细微的行为。虽然验证集上的动作均方误差 (MSE) 是另一个潜在指标，但它通常与现实世界的表现不相关。最后，为了最大限度地减少测试人员的主观偏见，同时评估在不同大小的数据集上训练的多个策略；每个推出都是从这些多个策略中随机选择的，同时确保目标和机械臂的初始条件相同，从而实现跨策略的公平比较。

机器人操作模仿学习中的数据规模化定律

正文

请到「今天看啥」查看全文