专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

RSS 2024 | 三维扩散策略：基于简单3D表征的广义视觉运动策略学习

将门创投 · 公众号 · 科技创业 · 2024-07-12 08:22

正文

该工作提出了一种三维视觉表示-扩散策略相结合的高效视觉模仿学习算法，无论是高维度还是低维度的控制任务，该算法都能以实际可行的推理速度运行，使得机器人操作更加智能且高效。

论文标题：

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

论文链接：

https://arxiv.org/pdf/2403.03954

项目主页：

https://3d-diffusion-policy.github.io/

一、引言

模仿学习为机器人广泛的运动技能教学提供了一种高效的方法，例如抓取、脚部运动、灵巧操作等。其中，视觉模仿学习是一种利用高维视觉观察的算法，如图像或深度图，用于特定于任务的状态估计。然而，能够稳健地学习复杂技能往往需要大量的专家演示，比如最前沿的技术Diffusion Policy在每个真实任务中需要100-200个人类收集的演示。这是耗时的，且容易在收集过程中发生故障。虽然在线学习是一种解决前期收集问题的方法，但现实世界场景中存在安全考虑、自动重置的必要性、人工干预和额外的机器人硬件成本，也为在线学习带来挑战。因此，对于真实世界机器人学习来说，如何使（离线）模仿学习算法能够在尽可能少的演示中学习到稳健和可推广的技能是一个挑战。

本次导读论文介绍了一种新的视觉模仿学习方法，将3D视觉表示的力量纳入Diffusion Policy，这是一类条件动作生成模型。其核心设计是利用高效的点编码器从稀疏的点云中提取得到紧凑的三维视觉表示。随后,模型以该紧凑的三维视觉表示和机器人姿态作为条件，将随机噪声降噪为连贯的动作序列。通过这种方法，模型能够在复杂的环境中准确理解并模拟专家的行为，而不需要大量的训练样本。在涉及7个领域里72个模拟任务的实验中，该方法仅使用10个演示就成功处理了大多数任务，并且相对于基线方法取得了55.3%的相对改进；在4个真实机器人任务中，该方法仅使用每个任务40个示范就展示了精确控制，成功率高达85%，并且在空间、视点、外观和实例等多个方面展现了出色的泛化能力。

二、技术贡献

本工作主要贡献如下：

提出了一种 高效的视觉运动策略 ，可以用 少量的演示 实现不同方面的任务；
在 广泛的模拟和真实世界任务 中评估了模型，显示3D Diffusion Policy的普遍性；
能够使用灵巧的手执行真实世界中可变形物体操作，且只需40次演示，证明了 复杂的高维任务可以在几乎没有人类数据的情况下处理 。

三、方法介绍

首先是问题的定义，给定一小组包含复杂机器人技能轨迹的专家演示，3D Diffusion Policy（简称DP3）想学习一种视觉运动策略，该策略将视觉观察映射到动作，目标是使机器人不仅可以再现专家演示的技能，并且可以在训练数据之外进行推广。

DP3方法由Perception和Decision两个模块组成，如图1所示。第一部分利用点云数据感知环境，并利用高效的点编码器将这些视觉观测结果处理成紧凑的视觉特征，第二部分利用了Diffusion Policy作为动作生成的支干，该策略根据3D视觉特征生成动作序列。

‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

图1 网络结构图

Perception

对于第一部分，DP3侧重于仅使用单视图摄像机对所有任务进行策略学习，这为现实应用场景提供了实用性。对于模拟和现实世界，从单个相机获得大小为84×84的深度图像。然后使用相机外参和内参将深度转换为点云。为了获得更好的外观泛化效果，不使用彩色通道。由于从深度转换而来的点云可能包含冗余点，因此需要裁剪掉这些点，仅保留在一个边界框内的点。通过最远点采样 (FPS) 对点进行降采样，这有助于充分覆盖3D空间，并减少了点云采样的随机性。最后使用轻量级MLP网络将处理得到的稀疏点云编码为紧凑的三维表示。

‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

图2 模拟任务中经过处理后的稀疏点云

Decision

第二部分可以被表述为一个条件去噪扩散模型，该模型以三维视觉特征和机器人姿态为条件，然后将随机高斯噪声去噪为动作序列。具体来说，从一个高斯噪声开始，去噪网络逐步执行次迭代，将去噪成无噪声的动作，即：

‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

其中，是高斯噪声，是的函数，取决于噪声调度器。

训练目标是预测添加到原始数据中的噪声，即：

其中和是执行一步噪声添加时的噪声调度。

四、部分结果展示

4.1 使用少量演示下的泛化能力

图3展示了DP3的核心能力。使用MetaWorld作为示例任务，该任务目标是让手持器准确的到达指定目标点。为了评估DP3不仅适应训练数据的有效性，还要泛化到新场景的能力，在3D空间中可视化了"•"训练点和"•"成功评估点。如图3所示，仅用五个训练点，DP3就能到达分布在3D空间中的点，展示了该模型在有限数据情况下的优越泛化能力和效率。

‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

图3 相较于现有方法，DP3在少量演示下的泛化能力有较大提高

4.2 效率和有效性

接下来是DP3与基线Diffusion Policy对比下的效率及有效性，主要体现在以下四个方面：

准确率 ：DP3在近30个任务中实现了超过90%的成功率，而Diffusion Policy在不到15个任务中实现了超过90%的成功率；
学习效率 ：DP3在所有任务大概300轮已经达到收敛，相反，Diffusion Policy倾向于以慢得多的速度收敛或收敛到次优结果；
演示效率 ：DP3在一些任务上使用较少的演示可以达到与Diffusion Policy相当的精度；
推理速度 ：DP3实现的推理速度略超Diffusion Policy，这主要归功于使用稀疏点云和紧凑的三维表示。

图4展示了DP3和Diffusion Policy在模拟任务 (Simulation)、真实世界任务 (Real World)、四种泛化任务 (Generalization) 下的成功率以及推理速度对比结果。其中，四种泛化任务指的是真实世界任务中对视觉观察进行空间、外观、实例、视图四种泛化能力测试。可以证明DP3具有对各个方面的强大泛化能力，并在真实环境中造成的安全违规较少，有更高的成功率。

‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

图4 DP3与Diffusion Policy不同任务的成功率与推理速度对比

图5展示了DP3和Diffusion Policy对不同任务使用不同演示数量进行训练后的成功率变化。例如，在Adroit任务中，DP3和Diffusion Policy都执行合理，而DP3使用较少的演示中可以达到了相当的精度。而在简单的MetaWorld任务中，即使演示次数增加，Diffusion Policy的成功率也明显落后于DP3。

‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

图5 DP3与Diffusion Policy不同演示数量下的成功率变化对比

4.3 真实世界任务效果

DP3在2个不同机器人的4个任务中进行评估，包括：把黏土多次卷起来 (Roll-Up)、包饺子 (Dumpling)、抓住钻头触碰物体 (Drill)、将碗中食物倒进对应位置 (Pour)。真实机器人任务的结果见表1。在现实世界的实验中观察到，DP3在只训练40个专家演示的情况下，可以处理与模拟结果一致的复杂任务，而基于图像和基于深度的基线Diffusion Policy方法平均精度相对较低。

‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

表1 DP3与Diffusion Policy在真实机器人实验的成功率

图6、图7分别可视化出DP3和Diffusion Policy在Roll-Up任务上的执行效果。可以看出，在现实场景中，相比于Diffusion Policy，DP3在使用灵巧手执行可变形对象的复杂操作时显示出了很高的准确率。

‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

图6 Roll-Up任务上的执行效果（来自DP3）

‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

图7 Roll-Up任务上的执行效果（来自Diffusion Policy）

五、总结与展望

本文工作中介绍了3D Diffusion Policy (DP3)，这是一种高效的视觉模仿学习算法，只需要一小组演示，DP3可以在模拟和真实环境中管理广泛的机器人任务。DP3的本质在于将精心设计的三维表示与扩散策略的表达性相结合。在72个模拟任务中，DP3的性能比2D任务高出24.2%。在现实场景中，DP3在使用灵巧手执行可变形对象的复杂操作时显示出了很高的精度。更重要的是，本文工作证明了DP3在各个方面具有健壮的泛化能力，并且在现实场景中导致更少的安全违规。

本文工作已开发了一个高效架构，如何控制最优三维表示以及处理极长期范围的任务，仍有待探索。

六、思考与讨论

Q: 为什么DP3使用三维表示代替了Diffusion Policy的二维图像输入，可以提升多个方面的泛化能力？

A: 三维表示包含了空间信息，并且移除颜色通道，在一定程度上确保鲁棒的空间以及外观泛化。作者同时也进行了大量消融实验，包括三维模式（深度图、体素、点云）的选择、编码器的设计等，使得DP3在输入端更好的学习视觉观察，并且比其他设计更适合用于扩散策略。DP3的成功不仅是由于三维视觉表征的使用，而得益于对架构的精心设计。

Q: DP3和Diffusion Policy相比，推理速度相差较小，能否在尽可能保证成功率的情况下提升策略速度？

A: Diffusion Policy[1]中提到，基于扩散的策略主干在推理过程中为高质量的动作合成需要相当多的采样步骤。因此，DP3通过删除UNet主干中的冗余组件，该改进版本提供了2倍的推理速度，同时保持了较高的准确性。除此之外，目前最新的工作ManiCM[2]通过对扩散过程施加一致性约束，实现了17ms的决策运行时间，比以前的主流方法快10倍。

以下是开放性问题，欢迎读者朋友留言讨论：

Q: DP3是基于模仿学习的算法，需要对每个任务进行演示数据收集、策略训练及推理。那DP3能否实现多任务策略，并作为初始权重进行后续微调？这样不仅可以加快技能学习过程，也可以实现更通用的模型框架。

作者：王璐 ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍ ‍

来源：公众号【深圳大学可视计算研究中心】

llustration From IconScout By Delesign Graphic

-The End-

RSS 2024 | 三维扩散策略：基于简单3D表征的广义视觉运动策略学习

正文

图1 网络结构图 (adsbygoogle = window.adsbygoogle || []).push({});

Perception

图2 模拟任务中经过处理后的稀疏点云

Decision

4.1 使用少量演示下的泛化能力

图3 相较于现有方法，DP3在少量演示下的泛化能力有较大提高

4.2 效率和有效性

图4 DP3与Diffusion Policy不同任务的成功率与推理速度对比

图5 DP3与Diffusion Policy不同演示数量下的成功率变化对比

4.3 真实世界任务效果

表1 DP3与Diffusion Policy在真实机器人实验的成功率

图6 Roll-Up任务上的执行效果（来自DP3）

图7 Roll-Up任务上的执行效果（来自Diffusion Policy）

请到「今天看啥」查看全文

图1 网络结构图