专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
相关文章推荐
新疆司法行政  ·  兵地公共法律服务领域融合发展座谈会召开 ... ·  昨天  
丁香妈妈  ·  1 ... ·  4 天前  
51好读  ›  专栏  ›  学姐带你玩AI

斯坦福又一力作!基于改进3D扩散策略的通用人形机器人操控

学姐带你玩AI  · 公众号  ·  · 2024-12-09 18:23

正文

来源:投稿  作者:橡皮
编辑:学姐

论文链接:https://arxiv.org/abs/2410.10803

项目主页:https://humanoid-manipulation.github.io/

摘要:

能够在各种环境中自主操作的人形机器人一直是机器人专家的目标。然而,人形机器人的自主操作在很大程度上仅限于一个特定的场景,这主要是因为难以获得可推广的技能。3D 视觉运动策略的最新进展,例如 3D 扩散策略 (DP3),已显示出将这些功能扩展到更狂野环境的前景。然而,3D 视觉运动策略通常依赖于相机校准和点云分割,这对在人形机器人等移动机器人上部署提出了挑战。在这项工作中,我们引入了改进的 3D 扩散策略 (iDP3),这是一种新颖的 3D 视觉运动策略,它通过利用以自我为中心的 3D 视觉表示来消除这些限制。我们证明 iDP3 使全尺寸的人形机器人能够仅使用实验室收集的数据在各种现实世界场景中自主执行技能。

1 引言

能够在非结构化环境中执行各种任务的人形机器人一直是机器人界的一大目标。最近,人形机器人硬件的开发取得了长足的进步。同时,用于控制这些机器人的视觉模仿学习方法也越来越受欢迎,使它们能够自主执行复杂的技能。然而,这些自主操作技能中的大多数仍然在很大程度上局限于特定场景,这主要是由于视觉模仿学习方法的泛化能力有限。

3D 视觉运动策略的最新进展已显示出将所学技能推广到更复杂和多样化场景的巨大潜力。其中,3D 扩散策略 (DP3) 在各种模拟和现实世界任务中都有效,涵盖不同的实施例。这些任务包括使用灵巧的手或移动手臂进行可变形物体操作、长距离双手操作以及使用四足机器人进行局部操作。尽管 DP3 具有通用性,但它的应用仅限于使用带有校准固定摄像头的第三人称视角执行的任务,这主要是因为需要精确的摄像头校准和点云分割,而这两者都是 3D 视觉运动策略中固有的挑战。

在这项工作中,我们旨在使用 3D 视觉运动策略开发可推广的人形机器人操控技能。为了解决现有人形机器人 3D 视觉运动策略的局限性,我们提出了 改进的 3D 扩散策略 (iDP3), 这是一种新颖的 3D 模仿学习方法,它利用相机框架中的自我中心 3D 表示,无需相机校准和点云分割。此外,我们还引入了一些修改,以显著提高 iDP3 的有效性。

图 1. 在各种未见过的场景中进行人形操控。仅通过从单个场景收集的数据,我们的改进型 3D 扩散策略 (iDP3) 便可使全尺寸人形机器人在各种现实环境中执行实用技能。这些场景并非精心挑选。视频可在我们的网站上找到。

为了收集数据,我们设计了一个整个上身的远程操作系统,该系统将人类的关节映射到全尺寸的人形机器人上。与常见的双手操纵系统不同,我们的远程操作结合了腰部自由度和主动视觉,大大扩展了机器人的操作空间,尤其是在处理不同高度的任务时。

通过大量的真实世界实验和消融研究,我们证明 iDP3 在不同场景中表现出显著的泛化能力,并表现出强大的视角不变性以及很高的有效性。

我们的核心贡献总结如下:

  • 我们引入了改进的 3D 扩散策略 (iDP3),这是一种可应用于任何机器人的 3D 视觉运动策略,支持自我中心和第三人称视角,同时实现高效率和强大的泛化能力。
  • 我们为人形机器人开发了整个上身遥控系统,能够高效地收集人类的数据。
  • 我们证明,部署在人形机器人上的策略可以成功地将接触丰富的操作技能推广到广泛的现实世界场景,并在单个场景中收集数据。

2 相关工作

A. 视觉运动策略学习

经典方法依赖于状态估计来解决机器人操作任务。最近,以端到端的方式学习视觉运动策略来解决机器人问题的趋势日益增长。主要有两种途径:模仿学习和模拟到现实的强化学习。这项工作专注于视觉模仿学习,因为它在完成复杂、多样和长期任务方面具有优势。

基于图像的模仿学习方法,如扩散策略,已经取得了显著的成功,但其有限的泛化能力限制了它们在复杂的现实环境中的应用。最近的几项研究旨在解决这些限制 。其中,3D 扩散策略 (DP3) 已表现出显着的泛化能力和对各种机器人任务的广泛适用性 。尽管如此,3D 视觉运动策略本质上依赖于精确的相机校准和细粒度的点云分割,这限制了它们在人形机器人等移动平台上的部署。这项工作解决了这个重要问题,并将 3D 视觉运动策略的应用扩展到更一般的环境中。

此外,最近的几项研究也展示了与我们类似的能力。Maniwhere通过大规模模拟数据实现了现实世界场景的泛化。然而,由于模拟与现实之间存在巨大的差距,它们只展示了在看不见的场景中推动等任务,而不是拾取和放置等接触丰富的任务。机器人实用模型也通过模仿学习将技能推广到新环境中,但它们必须使用从 20 个场景收集的数据进行场景泛化,而我们只使用 1 个场景。VISTA使用视图合成模型展示了令人印象深刻的视图泛化。与他们复杂的流程相比,我们发现以自我为中心的 3D 表示自然能够实现鲁棒的视图不变性。

B. 人形机器人学习

人形机器人在复杂的现实环境中自主执行各种技能一直是机器人技术的核心目标。最近,基于学习的方法已显示出实现这一目标的良好进展,特别是在运动、操纵和位置操纵领域。虽然有几部作品已成功展示了人形机器人在非结构化现实环境中的运动,但在看不见的环境中的操作技能仍未得到充分探索。在本文中,我们向前迈出了重要一步,展示了重新利用的 3D 视觉运动策略框架如何使人形机器人能够在看不见的现实场景中执行操纵任务。

3 改进的 3D 扩散策略

3D 扩散策略 (DP3) 是一种有效的 3D 视觉运动策略,它将稀疏点云表示与扩散策略结合在一起。尽管 DP3 在广泛的操作任务中表现出色,但由于其固有对精确相机校准和细粒度点云分割的依赖,它不能直接部署在人形机器人或移动机械手等通用机器人上。此外,DP3 的准确性需要进一步提高才能在更复杂的任务中有效发挥作用。在下文中,我们详细介绍了几种修改以实现有针对性的改进。由此产生的改进算法称为改进的 3D 扩散策略 (iDP3)。

以自我为中心的 3D 视觉表现。 DP3 利用世界坐标系中的 3D 视觉表示,轻松分割目标对象。然而,对于像人形机器人这样的通用机器人,相机支架并不固定,这使得相机校准和点云分割不切实际。为了解决这个问题,我们建议直接使用相机坐标系中的 3D 表示,如图 3 所示。我们将这类 3D 表示称为以自我为中心的 3D 视觉表示。

扩大视觉输入。 利用以自我为中心的 3D 视觉表示在消除无关点云(例如背景或桌面)方面存在挑战,尤其是在不依赖基础模型的情况下。为了缓解这种情况,我们提出了一个简单但有效的解决方案:扩大视觉输入。我们没有像以前的系统那样使用标准稀疏点采样,而是显著增加了采样点的数量以捕捉整个场景。尽管这种方法很简单,但在我们的实际实验中证明它是有效的。

图 3. iDP3 利用摄像机框架中的 3D 表示,而包括 DP3 在内的其他近期 3D 策略的 3D 表示均在世界框架中,这依赖于精确的摄像机校准,并且不能扩展到移动机器人。

改进的视觉编码器。 我们用金字塔卷积编码器替换了 DP3 中的 MLP 视觉编码器。我们发现,在从人类数据中学习时,卷积层的行为比全连接层更平滑,而结合来自不同层的金字塔特征可以进一步提高准确性。

更长的预测期。 人类专家的抖动和嘈杂的传感器使得从人类演示中学习变得非常困难,这导致 DP3 难以进行短期预测。通过扩大预测范围,我们可以有效地缓解这个问题。

实施细节。 为了进行优化,我们使用 AdamW 对 iDP3 和所有其他方法进行了 300 个 epoch 的训练。对于扩散过程,我们使用 DDIM 进行 50 个训练步骤和 10 个推理步骤。对于点云采样,我们用级联体素采样和均匀采样取代了 DP3 中使用的最远点采样 (FPS),从而确保采样点以更快的推理速度覆盖 3D 空间。

4 改进的 3D 扩散策略的人形操控

在本节中,我们将介绍部署在全尺寸人形机器人上的真实世界模仿学习系统。图 2 提供了该系统的概述。

A. 平台

人形机器人。 我们使用的是 Fourier GR1,这是一款全尺寸人形机器人,配备两只 Inspire Hands。我们启用整个上半身(头部、腰部、手臂、手部),总共 25 个自由度 (DoF)。我们禁用下半身以保持稳定性,并使用推车进行移动。

激光雷达相机。 为了捕捉高质量的 3D 点云,我们使用了固态 LiDAR 摄像头 RealSense L515。该摄像头安装在机器人头部,提供自我中心视觉。先前的研究表明,深度感应精度较低的摄像头(例如 RealSense D435)会导致 DP3 的性能不佳。但值得注意的是,即使是 RealSense L515 也无法产生完全准确的点云。

高度可调的推车。 将操控技巧推广到真实环境的一个主要挑战是场景条件的广泛变化,特别是桌面的高度不同。为了解决这个问题,我们使用了高度可调的推车,无需复杂的全身控制。虽然这简化了操控过程,但我们相信,一旦全身控制技术变得更加成熟,我们的方法将同样有效。

B. 数据

整个上身远程操作。 为了远程操作机器人的上半身,我们采用了 Apple Vision Pro (AVP),它可以精确跟踪人类的手、手腕和头部姿势。机器人使用 Relaxed IK 来准确跟随这些姿势。我们还将机器人的视觉回传给 AVP。与此不同,我们将腰部纳入远程操作管道,从而实现更灵活的工作空间。

远程操作的延迟。 使用 LiDAR 传感器会严重占用机载计算机的带宽/CPU,导致遥控操作延迟约 0.5 秒。我们还尝试使用两个 LiDAR 传感器(其中一个安装在手腕上),这会导致极高的延迟,从而使数据收集变得不可行。

用于学习的数据。 我们在远程操作过程中收集观察动作对的轨迹,其中观察由两部分组成:1)视觉数据,例如点云和图像,2)本体感受数据,例如机器人关节位置。动作由目标关节位置表示。我们还尝试使用末端执行器姿势作为本体感受/动作,发现性能没有显著差异。

C.学习和部署

我们根据收集到的人类示范来训练 iDP3。值得注意的是,我们不依赖前面提到的相机校准或手动点云分割。因此,我们的 iDP3 策略可以无缝转移到新场景,而无需校准/分割等额外工作。

表1. iDP3 与基线相比的效率。为了提高基线的稳健性,我们在训练期间为所有基于图像的方法添加了随机裁剪和颜色抖动增强。所有方法都经过 100 多次试验的评估,确保在实际评估中随机性较小。

5 实验与分析

为了评估我们系统的有效性,我们的实验将使用 Pick&Place 的基本任务作为我们分析的主要基准。

A. 实验设置

任务描述。 在这个任务中,机器人抓住一个轻便的杯子并将其移开。对于拥有灵巧双手的人形机器人来说,挑战在于杯子的大小与手的大小相似;因此,即使是很小的错误也会导致碰撞或抓错。这项任务比使用平行夹持器需要更高的精度,平行夹持器可以张得更大以避免碰撞。

任务设置。 我们在四种设置下训练 Pick&Place 任务:{1st-1、1st-2、3rd-1、3rd-2}。“1st”使用自我中心视角,“3rd”使用第三人称视角。后面的数字代表用于训练的演示次数,每个演示由 20 轮成功执行组成。训练数据集保持较小以突出方法之间的差异。物体位置在 10cm×20cm 区域中随机采样。

评估指标。 我们为每种方法运行三集,每集包含 1,000 个动作步骤。总共,每种方法都经过大约 130 次试验进行评估,以确保对每种方法进行全面评估。我们记录了成功抓取的次数和抓取尝试的总次数。成功抓取的次数反映了策略的准确性。总尝试次数可衡量策略的流畅度,因为正如我们在实验中观察到的那样,抖动策略往往会徘徊不前,并且尝试次数很少。

B. iDP3 的有效性

我们将 iDP3 与几个强基线进行了比较,包括:a)DP:带有 ResNet18 编码器的扩散策略;b)DP(❄R3M):带有冻结 R3M 编码器的扩散策略;c)DP(✶R3M):带有微调 R3M 编码器的扩散策略;d)iDP3(DP3 编码器):使用 DP3 编码器的 iDP3。所有基于图像的方法都使用与 iDP3 相同的策略主干,并使用随机裁剪和颜色抖动增强来提高鲁棒性和泛化能力。RGB 图像分辨率为 224 × 224,由 RealSense 摄像头的原始图像调整大小。

图 4. 以自我为中心的 2D 和 3D 观测的可视化。该图突出了各种现实世界场景的复杂性。
图 5. 训练场景中三个任务的轨迹,包括 Pick&Place、Pour 和 Wipe。我们精心挑选日常任务,以便它们在各个场景中都能发挥作用。

表1中显示的结果显示,iDP3 的表现明显优于 vanilla DP、使用冻结 R3M 编码器的 DP 以及使用 DP3 编码器的 iDP3。但是,我们发现使用微调 R3M 的 DP 是一个特别强大的基线,在这些设置中表现优于 iDP3。我们推测这是因为微调预训练模型通常比从头开始训练更有效,并且目前没有类似的预训练机器人 3D 视觉模型。

尽管 DP+finetuned R3M 在这些设置下更有效,但我们发现基于图像的方法对特定场景和对象过度拟合,无法推广到野生场景,如第6节所示。

表2. iDP3 上的消融。结果表明,从 iDP3 中删除某些关键修改会显著影响 DP3 的性能,导致无法从人类数据中学习或准确性降低。所有方法都经过 100 多次试验进行评估,确保在实际评估中随机性较小。

此外,我们认为 iDP3 仍有改进空间。由于传感硬件的限制,我们目前的 3D 视觉观察结果非常嘈杂。我们预计,更准确的 3D 观察可以实现 3D 视觉运动策略的最佳性能,正如模拟所证明的那样。

C. iDP3 上的消融

我们对 DP3 的几项修改进行了消融研究,包括改进的视觉编码器、缩放的视觉输入和更长的预测范围。我们的结果(见表2)表明,如果没有这些修改,DP3 要么无法有效地从人类数据中学习,要么准确率会显著降低。

更具体地说,我们观察到 1)我们改进的视觉编码器可以同时提高策略的平滑度和准确性;2)缩放的视觉输入是有帮助的,而在我们的任务中,性能会随着点的增多而达到饱和;3)适当的预测范围至关重要,如果没有它,DP3 就无法从人类演示中学习。

图6. 基于图像的方法在新场景中的失败案例。这里的 DP 对应于表 I 中的 DP (✶R3M),这是我们拥有的最强的基于图像的基线。我们发现,即使在训练期间添加了颜色增强,基于图像的方法在新场景/对象中仍然会遇到困难。
表3. iDP3 的功能。虽然 iDP3 保持了与 DP (✶R3M)(简称 DP)类似的效率,但它以出色的泛化能力脱颖而出,非常适合实际部署。为了在新场景中进行评估,我们使用图 6 所示的厨房场景,其中还包括看不见的物体。我们没有在泛化设置中测试 Wipe,因为 Wipe 在所有方法中都具有很高的成功率。

此外,图 7 展示了 iDP3 的训练时间,与 Diffusion Policy 相比,训练时间显著缩短。即使点云数量增加到 DP3 的几倍,这种效率仍然保持。

图7. 训练时间。由于使用 3D 表示,即使我们扩大了 3D 视觉输入,iDP3 也比扩散策略 (DP) 节省了训练时间。当演示数量变大时,这一优势变得更加明显。

6 能力

在本节中,我们展示了 iDP3 在人形机器人上的更多功能。我们还对 iDP3 和 DP (✶R3M)(本节中简称为 DP)进行了更多比较,并表明 iDP3 更适用于具有挑战性和复杂性的现实世界。结果见表 III。

任务。 我们选择了三个任务,即拾取和放置、倒出和擦拭,以展示我们系统的功能。我们确保这些任务在日常生活中很常见,并且对人类有用。例如,倒出经常在餐厅进行,擦拭经常在家庭清洁桌子时进行。

数据。 我们为每个任务收集 10 个演示。对于 Pick&Place 任务,每个演示包含 10 个拾取和放置轨迹。在每个演示中,物体姿势都是随机的,限制在 10cm×10cm 的区域中。我们不会在更大的区域中收集数据,因为我们发现更大的任务区域需要更多的数据。此外,由于使用 AVP,收集大规模数据是不可行的。

有效性。 如表三所示,iDP3 和 DP 在训练环境中针对训练对象均取得了较高的成功率。

性质1:视图不变性。 我们的以自我为中心的 3D 表示表现出令人印象深刻的视角不变性。如图 8 所示,iDP3 即使在视角变化较大的情况下也能始终如一地抓取物体,而 DP 甚至难以抓取训练物体。DP 仅在视角变化较小的情况下偶尔成功。值得注意的是,与最近的研究不同,我们没有采用针对等变性或不变性的特定设计。

图 8:iDP3 的视角不变性。我们发现以自我为中心的 3D 表征具有令人惊讶的视角不变性。此处的 DP 对应于表1中的 DP (✶R3M),这是我们拥有的最强的基于图像的基线。

属性2:对象泛化。 我们在训练杯旁边评估了新种类的杯子/瓶子,如图 9 所示。虽然 DP 由于使用了颜色抖动增强,偶尔可以处理看不见的物体,但成功率很低。相比之下,由于使用了 3D 表示,iDP3 可以自然地处理各种物体。







请到「今天看啥」查看全文