能够在各种环境中自主操作的人形机器人一直是机器人专家的目标。然而,人形机器人的自主操作在很大程度上仅限于一个特定的场景,这主要是因为难以获得可推广的技能。3D 视觉运动策略的最新进展,例如 3D 扩散策略 (DP3),已显示出将这些功能扩展到更狂野环境的前景。然而,3D 视觉运动策略通常依赖于相机校准和点云分割,这对在人形机器人等移动机器人上部署提出了挑战。在这项工作中,我们引入了改进的 3D 扩散策略 (iDP3),这是一种新颖的 3D 视觉运动策略,它通过利用以自我为中心的 3D 视觉表示来消除这些限制。我们证明 iDP3 使全尺寸的人形机器人能够仅使用实验室收集的数据在各种现实世界场景中自主执行技能。
3D 视觉运动策略的最新进展已显示出将所学技能推广到更复杂和多样化场景的巨大潜力。其中,3D 扩散策略 (DP3) 在各种模拟和现实世界任务中都有效,涵盖不同的实施例。这些任务包括使用灵巧的手或移动手臂进行可变形物体操作、长距离双手操作以及使用四足机器人进行局部操作。尽管 DP3 具有通用性,但它的应用仅限于使用带有校准固定摄像头的第三人称视角执行的任务,这主要是因为需要精确的摄像头校准和点云分割,而这两者都是 3D 视觉运动策略中固有的挑战。
在这项工作中,我们旨在使用 3D 视觉运动策略开发可推广的人形机器人操控技能。为了解决现有人形机器人 3D 视觉运动策略的局限性,我们提出了
改进的 3D 扩散策略 (iDP3),
这是一种新颖的 3D 模仿学习方法,它利用相机框架中的自我中心 3D 表示,无需相机校准和点云分割。此外,我们还引入了一些修改,以显著提高 iDP3 的有效性。
图 1. 在各种未见过的场景中进行人形操控。仅通过从单个场景收集的数据,我们的改进型 3D 扩散策略 (iDP3) 便可使全尺寸人形机器人在各种现实环境中执行实用技能。这些场景并非精心挑选。视频可在我们的网站上找到。
基于图像的模仿学习方法,如扩散策略,已经取得了显著的成功,但其有限的泛化能力限制了它们在复杂的现实环境中的应用。最近的几项研究旨在解决这些限制 。其中,3D 扩散策略 (DP3) 已表现出显着的泛化能力和对各种机器人任务的广泛适用性 。尽管如此,3D 视觉运动策略本质上依赖于精确的相机校准和细粒度的点云分割,这限制了它们在人形机器人等移动平台上的部署。这项工作解决了这个重要问题,并将 3D 视觉运动策略的应用扩展到更一般的环境中。
此外,最近的几项研究也展示了与我们类似的能力。Maniwhere通过大规模模拟数据实现了现实世界场景的泛化。然而,由于模拟与现实之间存在巨大的差距,它们只展示了在看不见的场景中推动等任务,而不是拾取和放置等接触丰富的任务。机器人实用模型也通过模仿学习将技能推广到新环境中,但它们必须使用从 20 个场景收集的数据进行场景泛化,而我们只使用 1 个场景。VISTA使用视图合成模型展示了令人印象深刻的视图泛化。与他们复杂的流程相比,我们发现以自我为中心的 3D 表示自然能够实现鲁棒的视图不变性。
B. 人形机器人学习
人形机器人在复杂的现实环境中自主执行各种技能一直是机器人技术的核心目标。最近,基于学习的方法已显示出实现这一目标的良好进展,特别是在运动、操纵和位置操纵领域。虽然有几部作品已成功展示了人形机器人在非结构化现实环境中的运动,但在看不见的环境中的操作技能仍未得到充分探索。在本文中,我们向前迈出了重要一步,展示了重新利用的 3D 视觉运动策略框架如何使人形机器人能够在看不见的现实场景中执行操纵任务。
3 改进的 3D 扩散策略
3D 扩散策略 (DP3)
是一种有效的 3D 视觉运动策略,它将稀疏点云表示与扩散策略结合在一起。尽管 DP3 在广泛的操作任务中表现出色,但由于其固有对精确相机校准和细粒度点云分割的依赖,它不能直接部署在人形机器人或移动机械手等通用机器人上。此外,DP3 的准确性需要进一步提高才能在更复杂的任务中有效发挥作用。在下文中,我们详细介绍了几种修改以实现有针对性的改进。由此产生的改进算法称为改进的
3D 扩散策略 (iDP3)。
以自我为中心的 3D 视觉表现。
DP3 利用世界坐标系中的 3D 视觉表示,轻松分割目标对象。然而,对于像人形机器人这样的通用机器人,相机支架并不固定,这使得相机校准和点云分割不切实际。为了解决这个问题,我们建议直接使用相机坐标系中的 3D 表示,如图 3 所示。我们将这类 3D 表示称为以自我为中心的 3D 视觉表示。
扩大视觉输入。
利用以自我为中心的 3D 视觉表示在消除无关点云(例如背景或桌面)方面存在挑战,尤其是在不依赖基础模型的情况下。为了缓解这种情况,我们提出了一个简单但有效的解决方案:扩大视觉输入。我们没有像以前的系统那样使用标准稀疏点采样,而是显著增加了采样点的数量以捕捉整个场景。尽管这种方法很简单,但在我们的实际实验中证明它是有效的。
图 3. iDP3 利用摄像机框架中的 3D 表示,而包括 DP3 在内的其他近期 3D 策略的 3D 表示均在世界框架中,这依赖于精确的摄像机校准,并且不能扩展到移动机器人。