2024年10月来自斯坦福、Simon Fraser、Upenn、UIUC和CMU的论文“Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies”。
能够在多种环境中自主操作的人形机器人一直是机器人专家的目标。然而,人形机器人的自主操作很大程度上仅限于某一特定场景,这主要是由于难以获得可推广的技能。3D 视觉运动策略的最新进展,例如 3D 扩散策略 (DP3),已显示出将这些功能扩展到更野外环境的前景。然而,3D 视觉运动策略通常依赖于相机标定和点云分割,这对于在人形机器人等移动机器人上部署带来了挑战。改进的 3D 扩散策略 (iDP3),是一种 3D 视觉运动策略,它通过利用自我为中心 3D 视觉表示来消除这些限制。iDP3 使全尺寸的人形机器人能够仅使用在实验室中收集的数据,在各种现实世界场景中自主执行技能。
3D 扩散策略 (DP3, [17]) 是一种有效的 3D 视觉运动策略,它将稀疏点云表示与扩散策略结合在一起。尽管 DP3 在广泛的操作任务中都表现出了令人印象深刻的效果,但由于其固有对精确相机标定和细粒度点云分割的依赖,它不能直接部署在人形机器人或移动机械手等通用机器人上。此外,DP3 的准确性需要进一步提高,才能在更复杂的任务中有效发挥作用。
本文对 DP3 进行修改,实现有针对性的改进。由此产生的改进算法,称为改进的 3D 扩散策略 (iDP3)。
以自我为中心的 3D 视觉表示
。DP3 利用世界坐标系中的 3D 视觉表示,轻松分割目标对象 [17],[53]。然而,对于像人形机器人这样的通用机器人来说,相机支架不是固定的,这使得相机标定和点云分割不切实际。为了解决这个问题,直接使用来自相机框架的 3D 表示,如图所示。这类 3D 表示称为以自我为中心的 3D 视觉表示。
扩展视觉输入
。利用以自我为中心的 3D 视觉表示在消除无关点云(例如背景或桌面)方面存在挑战,尤其是在不依赖基础模型的情况下。为了缓解这种情况,提出一个简单但有效的解决方案:扩展视觉输入。没有像以前的系统 [17]、[22]、[53] 那样使用标准稀疏点采样,而是显著增加了采样点的数量以捕捉整个场景。尽管这种方法很简单,但它在实际实验中被证明是有效的。