专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
九派新闻  ·  武汉籍知名歌手亮相央视!旋律一响就哭了 ·  23 小时前  
九派新闻  ·  武汉籍知名歌手亮相央视!旋律一响就哭了 ·  23 小时前  
新浪科技  ·  【#iPhoneSE4预计下周发布#】第四代 ... ·  昨天  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

具有改进 3D 扩散策略的可通用人形机器人操控

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-12-04 00:05

正文

2024年10月来自斯坦福、Simon Fraser、Upenn、UIUC和CMU的论文“Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies”。

能够在多种环境中自主操作的人形机器人一直是机器人专家的目标。然而,人形机器人的自主操作很大程度上仅限于某一特定场景,这主要是由于难以获得可推广的技能。3D 视觉运动策略的最新进展,例如 3D 扩散策略 (DP3),已显示出将这些功能扩展到更野外环境的前景。然而,3D 视觉运动策略通常依赖于相机标定和点云分割,这对于在人形机器人等移动机器人上部署带来了挑战。改进的 3D 扩散策略 (iDP3),是一种 3D 视觉运动策略,它通过利用自我为中心 3D 视觉表示来消除这些限制。iDP3 使全尺寸的人形机器人能够仅使用在实验室中收集的数据,在各种现实世界场景中自主执行技能。


能够在非结构化环境中执行各种任务的人形机器人一直是机器人界的一个重要目标。最近,人形机器人硬件的开发取得了实质性进展 [1]–[5]。同时,用于控制这些机器人的视觉模仿学习方法也越来越受欢迎,使它们能够自主执行复杂的技能 [6]–[11]。然而,这些自主操作技能中的大多数仍然局限于特定场景 [6]–[11],主要是由于视觉模仿学习方法的泛化能力有限 [12]–[16]。

3D 视觉运动策略的最新进展显示出将学习的技能推广到更复杂和多样化场景的巨大潜力 [17]–[21]。其中,3D 扩散策略 (DP3, [17]) 在不同具身中的各种模拟和现实世界任务中都有效。这些包括使用灵巧手 [17] 或移动臂 [22] 进行可变形体操作、长距离双手操作 [10] 以及使用四足机器人进行局部操作 [23]。尽管 DP3 具有普遍性,但它的应用仅限于使用经过标定的固定摄像机从第三人称视角执行的任务,这主要是因为需要精确的摄像机标定和点云分割,这两者都是 3D 视觉运动策略中固有的挑战。

经典方法依赖于状态估计来解决机器人操作任务 [24]。最近,以端到端的方式学习视觉运动策略来解决机器人问题 [12]、[17]、[25]–[28] 的趋势日益增长。主要有两种途径:模仿学习 [12]、[15]–[21]、[29]–[34] 和模拟-到-现实的强化学习 [35]–[44]。这项工作侧重于视觉模仿学习,因为它在完成复杂、多样和长期任务方面具有优势。

基于图像的模仿学习方法,如扩散策略 [12],取得了显著的成功 [10]、[17]、[22]、[30]、[45],但它们有限的泛化能力限制了它们在复杂的现实环境中应用。最近的几项研究旨在解决这些限制 [17]、[22]、[45]–[47]。其中,3D 扩散策略 (DP3, [17]) 已表现出显著的泛化能力和对各种机器人任务的广泛适用性 [10]、[11]、[22]、[23]。尽管如此,3D 视觉运动策略本质上依赖于精确的相机标定和细粒度的点云分割 [17]、[18]、[21]、[39]、[47],这限制了它们在人形机器人等移动平台上的部署。这项工作解决了这个重要问题,并将 3D 视觉运动策略的应用扩展到更一般的环境中。

此外,Maniwhere [37] 通过大规模模拟数据实现了真实世界场景的泛化。然而,由于模拟与现实之间存在巨大的差距,它们只展示了在未见过场景中推动之类的任务,而不是拾取和放置等接触丰富的任务。机器人实用模型 [48] 也通过模仿学习将技能泛化到新环境中,但它们必须使用从 20 个场景收集的数据进行场景泛化。VISTA [47] 使用视图合成模型展示了令人印象深刻的视图泛化。

人形机器人在复杂的现实环境中自主执行各种技能一直是机器人技术的核心目标。最近,基于学习的方法已显示出实现这一目标的良好进展,特别是在运动 [36]、[49]–[52]、操纵 [9]、[11]、[53] 和机动操纵 [6]–[8]、[54] 领域。虽然有几个工作成功地展示了人形机器人在非结构化现实环境中的运动 [36]、[49]、[50],但在未见过环境中的操作技能仍未得到充分探索 [6]、[8]、[9]。


3D 扩散策略 (DP3, [17]) 是一种有效的 3D 视觉运动策略,它将稀疏点云表示与扩散策略结合在一起。尽管 DP3 在广泛的操作任务中都表现出了令人印象深刻的效果,但由于其固有对精确相机标定和细粒度点云分割的依赖,它不能直接部署在人形机器人或移动机械手等通用机器人上。此外,DP3 的准确性需要进一步提高,才能在更复杂的任务中有效发挥作用。

本文对 DP3 进行修改,实现有针对性的改进。由此产生的改进算法,称为改进的 3D 扩散策略 (iDP3)。

以自我为中心的 3D 视觉表示 。DP3 利用世界坐标系中的 3D 视觉表示,轻松分割目标对象 [17],[53]。然而,对于像人形机器人这样的通用机器人来说,相机支架不是固定的,这使得相机标定和点云分割不切实际。为了解决这个问题,直接使用来自相机框架的 3D 表示,如图所示。这类 3D 表示称为以自我为中心的 3D 视觉表示。


扩展视觉输入 。利用以自我为中心的 3D 视觉表示在消除无关点云(例如背景或桌面)方面存在挑战,尤其是在不依赖基础模型的情况下。为了缓解这种情况,提出一个简单但有效的解决方案:扩展视觉输入。没有像以前的系统 [17]、[22]、[53] 那样使用标准稀疏点采样,而是显著增加了采样点的数量以捕捉整个场景。尽管这种方法很简单,但它在实际实验中被证明是有效的。

改进的视觉编码器 。用金字塔卷积编码器替换 DP3 中的 MLP 视觉编码器。在从人类数据中学习时,卷积层比全连接层产生更平滑的行为,并且结合来自不同层的金字塔特征可以进一步提高准确性。

更长的预测范围 。人类专家的抖动和嘈杂的传感器,在从人类演示中学习时表现出很大的困难,这导致 DP3 在短期预测方面遇到困难。通过扩大预测范围,有效地缓解了这个问题。

实施细节 。为了进行优化,用 AdamW [55] 为 iDP3 和所有其他方法训练 300 个 epoch。对于扩散过程,使用 DDIM [56] 进行 50 个训练步骤和 10 个推理步骤。对于点云采样,用体素采样和均匀采样的级联替换 DP3 [17] 中的最远点采样 (FPS),这确保采样点以更快的推理速度覆盖 3D 空间。


如图所示,系统主要由四部分组成:人形机器人平台、数据收集系统、视觉运动策略学习方法和真实世界部署。对于学习部分,开发了改进的 3D 扩散策略 (iDP3) 作为通用机器人的视觉运动策略。


人形机器人 。用 Fourier GR1 [5],这是一款全尺寸的人形机器人,配备两个 Inspire Hands [57]。启用整个上半身(头部、腰部、手臂、手部),总共 25 个自由度 (DoF)。禁用下半身以保持稳定性,并使用推车移动。

激光雷达摄像头







请到「今天看啥」查看全文