3D 扩散策略：简单 3D 表示进行可泛化视觉运动的策略学习

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-09-24 00:04

正文

24年6月来自上海姚期智研究院、上海交大、清华和上海AI实验室的论文“3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations”。

模仿学习为教授机器人灵巧技能提供了一种有效的方法；然而，稳健且可泛化地学习复杂技能通常需要大量的人工演示。为了解决这个具有挑战性的问题，提出 3D 扩散策略 (DP3) ，这是一种视觉模仿学习方法，它将 3D 视觉表征的强大功能融入扩散策略（一类条件动作生成模型）。DP3 的核心设计是利用紧凑的 3D 视觉表征，其通过高效的点编码器从稀疏点云中提取。在涉及 72 项模拟任务的实验中，DP3 仅用 10 次演示就成功处理了大多数任务，并以 24.2% 的相对改进超越了基线。在 4 个真实的机器人任务中，DP3 展示精确的控制，每个任务仅需 40 次演示就能以 85% 的高成功率实现，并且在空间、视点、外观和实例等不同方面表现了出色的泛化能力。有趣的是，在真实的机器人实验中，DP3 很少违反安全要求，而基线方法则经常违反安全要求，需要人工干预。

如图所示：3D 扩散策略 (DP3) 是一种视觉模仿学习算法，它将 3D 视觉表示与扩散策略相结合，在各种模拟和现实世界任务中实现了令人惊讶的有效性，并具有实用的推理速度。

然而，视觉模仿学习的普遍性是以大量演示为代价的 [16, 10, 11]。例如，最先进的方法扩散策略 [10] ，需要为每个现实世界任务收集 100 到 200 个人工演示。为了收集所需的大量演示，整个数据收集过程可能要持续数天，因为它具有长期性和易出错性。一种解决方案是在线学习 [16]，其中策略通过与环境的交互和从专家演示中学习到的奖励函数不断发展。然而，现实场景中的在线学习带来了自身的挑战，例如安全考虑、自动重置的必要性、人工干预和额外的机器人硬件成本。因此，如何使（离线）模仿学习算法以尽可能少的演示来学习稳健且可推广的技能是一个基本问题，尤其是对于实际的现实世界机器人学习而言。

扩散模型是一类生成模型，它逐步将随机噪声转换为数据样本，在高保真图像生成方面取得了巨大成功 [23, 63, 51, 62]。由于其令人印象深刻的表现力，扩散模型最近已应用于机器人技术领域，包括强化学习 [70, 2]、模仿学习 [10, 39, 50, 72, 64, 41]、奖励学习 [25, 37]、抓取 [71, 66, 61] 和运动规划 [52, 27] 等领域。

模仿学习为机器人提供了一种获得类似人类技能的有效方法，通常依赖于专家演示中的大量观察-动作对。鉴于准确估计现实世界中物体状态的挑战，图像等视觉观测已成为一种实用的替代方案。虽然基于 2D 图像的策略 [38、11、10、35、16、56、68、15] 占据了该领域的主导地位，但 3D 的重要性越来越受到认可 [60、82、80、14、13、28、69]。最近基于 3D 的策略，包括 PerAct [60]、GNFactor [82]、RVT [14]、ACT3D [13] 和 NeRFuser [74]，在低维控制任务中取得了显着进步。然而，这些工作面临两个主要挑战：

1）不切实际的环境。这些方法使用关键帧姿势提取将模仿学习问题转换为预测和规划范例。虽然有效，但这种公式不太适合高维控制任务。
2）推理速度慢。这些方法的复杂架构导致推理速度慢。例如，PerAct [60] 的推理速度为 2.23 FPS，很难处理需要密集命令的任务，例如高度动态的环境。另一项密切相关的工作 3D Difuser Actor [28] 以 1.67 FPS 运行，主要是由于对语言tokens的使用和任务设置的差异。

让机器人拥有类似人类的操控技能，一直是机器人研究人员追求的目标。强化学习是这一努力的关键工具，它使拥有灵巧双手的机器人能够掌握各种任务，例如倒水 [47, 81]、开门 [49, 21, 8]、旋转物体 [44, 76, 78, 45]、重新定向物体 [18, 7, 6]、旋转笔 [33]、抓取工具 [1]、执行交接 [83, 24] 和搭建乐高积木 [9]。模仿学习提供了另一条途径，DIME [3] 和 DexMV [47] 等方法通过重定位和从人类视频中学习，将人类手部动作转化为机器人动作。

3D 扩散策略（DP3）主要由两个关键部分组成：（a）感知；DP3 使用点云数据感知环境，并使用高效的点编码器将这些视觉观测处理为视觉特征；（b）决策；DP3 利用富有表现力的扩散策略 [10] 作为行动制定的主干，根据 3D 视觉特征生成动作序列。如图所示。上图：在训练阶段，DP3 使用专家演示以端到端的方式同时训练其感知模块和决策过程。在评估期间，DP3 根据对环境的视觉观测确定动作。下图：DP3 通过单视角点云感知其环境。轻量级 MLP 编码器将它们转换为紧凑的 3D 表示。随后，DP3 使用基于扩散的主干生成以这些 3D 表示和机器人状态为条件的动作。

对于模拟和现实世界，从单个摄像机获得大小为 84 × 84 的深度图像。然后，用摄像机外部参数和内部参数将深度转换为点云。不使用颜色通道以获得更好的外观泛化。

点云处理。由于从深度转换的点云可能包含冗余点，例如来自桌子和地面的点，因此裁剪掉这些点，只留下边框内的点。

通过最远点采样（FPS，[42]）进一步下采样点，与均匀采样相比，这有助于充分覆盖 3D 空间并降低点云采样的随机性。在实践中，我们发现下采样 512 或 1024 个点足以完成模拟和现实世界中的所有任务。

3D 扩散策略：简单 3D 表示进行可泛化视觉运动的策略学习

正文

请到「今天看啥」查看全文