专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
相关文章推荐
英国那些事儿  ·  “我上班时放了个屁,结果hr直接...”Re ... ·  3 天前  
最英国  ·  唐顿移民问答| ... ·  昨天  
英国大家谈  ·  英国大家谈商务合作及转载须知 ·  2 天前  
51好读  ›  专栏  ›  学姐带你玩AI

MATCH POLICY:从点云配准到操作策略的简单流程

学姐带你玩AI  · 公众号  ·  · 2025-01-27 18:26

正文

来源:投稿  作者:橡皮
编辑:学姐

论文链接:https://arxiv.org/abs/2409.15517

项目主页:https://haojhuang.github.io/match_page/

摘要:

许多操作任务需要机器人重新排列彼此相对的物体。此类任务可以描述为一组刚体各部分之间的一系列相对姿势。在这项工作中,我们提出了 MATCH POLICY,这是一种简单但新颖的管道,用于解决高精度拾取和放置任务。我们的方法不是直接预测动作,而是将拾取和放置目标注册到存储的演示中。这将动作推理转移到点云注册任务中,并使我们能够在没有任何训练的情况下实现非平凡的操作策略。MATCH POLICY 旨在解决具有关键帧设置的高精度任务。 通过利用任务的几何交互和对称性,它实现了极高的采样效率和对看不见的配置的通用性。我们在 RLbench 基准上展示了它在各种任务中与几个强大的基线相比的最先进的性能,并在一个有六个任务的真实机器人上对其进行了测试。

1 引言

许多复杂的操作任务可以分解为一系列拾取-放置动作,每个动作都可以进一步解释为推断两种几何关系:拾取姿势是夹持器和拾取目标之间的相对姿势,放置姿势是拾取目标和放置目标之间的相对姿势。先前的模仿学习方法经过大量演示训练后,根据整个观察信号直接预测拾取-放置动作。然而,这些方法没有突出局部几何关系的重要性,因此很难学习高精度操作策略,例如解决 RLBench中的插头充电器和插入刀任务所需的策略。同时,最近的研究利用分段点云来推理对象实例之间的几何交互。然而,它们通常需要大量的努力才能应用于真正的机器人。像 NDF及其变体这样的方法需要对每个对象进行大量的预训练,因此不能简单地用于不同的对象集。Tax-Pose和 RPDiff等方法经过数小时的训练后也只能预测单步骤单任务动作,这极大地限制了它们在多步骤和长期任务上的潜力。

为了解决当前方法的限制,并为机器人拾取放置策略提供一种方便的工具,这些策略只需付出很少的努力即可在不同任务中部署,我们提出了MATCH POLICY,这是一种将操作策略学习转移到点云配准 (PCR) 的简单管道。MATCH POLICY 使用分段点云构建所需场景的组合点云,其中对象按预期配置排列。如图 1 所示,我们存储了来自演示数据的组合点云集合。在推理过程中,拾取和放置对象的点云被配准到这些存储的点云,并使用生成的配准姿势来计算动作。与之前需要大量训练的工作不同,我们使用基于优化的方法实现了这个管道:MATCH POLICY使用 RANSAC 和 ICP,并在演示集合之后立即生成拾取放置策略。

图 1. MATCH POLICY 的流程。(a)。为了生成拾取动作,我们将夹持器 (Pˆa) 和手机 (Pˆb) 注册到演示的组合点云 (Pab)。两个注册姿势 (Tˆa、Tˆb) 用于计算将夹持器转换为所需拾取配置的动作。(b)。位置动作预测遵循类似的流程。

我们提出的方法有几个关键优势。 首先,PCR 步骤将演示中显示的局部几何细节与新观察结果相对应,使代理能够解决插头充电器和插入刀等高精度任务。其次,MATCH POLICY 展示了出色的样本效率,即能够通过相对较少的专家演示来学习良好的策略。我们证明它仅通过一次演示就可以实现引人注目的性能,并且可以通过各种实验推广到许多不同的新姿势。最后,在使用不同的相机设置(例如单相机视图和低分辨率相机)以及具有长视野和铰接物体的任务进行测试时,MATCH POLICY 表现出很高的适应性。

我们在这项工作中的贡献如下。1)我们提供了一个简单而新颖的流程,无需任何训练即可实现操纵拾取策略。2)我们展示了该方法的精度和样本效率的优势。3)我们证明它在模拟和真实机器人实验中都实现了令人信服的性能。

2 相关工作

点云配准。 点云配准 (PCR) 被定义为找到与两组点云匹配的最佳变换。当前的方法可以分为非学习优化方法和基于深度学习的技术。非学习方法包括两种代表性方法,即迭代最近点 (ICP) 和 RANSAC及其变体。 ICP) 及其变体通常需要初始猜测。他们搜索最近的对应点并估计变换直到收敛。基于 RANSAC 的方法可以解释为一种异常值检测方法,并且也已证明有效的配准结果。这些非学习方法对于任何对象都是即插即用的,尽管它们通常需要足够的重叠才能保证成功配准。当前的研究还侧重于深度学习模型,以学习局部和全局几何表示来计算对应关系。Deep Closet Point (DCP) 利用 DGCNN嵌入局部特征,并使用指针网络计算对应关系。 PRNet引入关键点识别来解决部分到部分点云配准问题。最近,Predator和 PEAL等方法引入了注意块来定位重叠区域并产生对应关系。在这项工作中,我们研究了机器人拾取数据的非学习优化方法。

基于点云的操作学习。 作为机器人操作环境的灵活且信息丰富的表示,点云已表现出比其他视觉格式(例如 RGB-D 图像)更出色的效果。最近的研究已将这种丰富的表示广泛应用于各种机器人操作问题,包括强化学习、闭环策略学习、基于关键点的方法和机器人拾取。然而,利用以前的策略学习框架面临的一个主要挑战是它们的计算复杂性以及使它们适应新任务所需的巨大努力。相比之下,我们的方法提供了一种简单方便的解决方案,无需参数化和训练即可实现操作拾取策略。它可以在演示收集后立即有效部署。

具有样本效率的操作学习。 在 3D 欧几里得空间中定义的机器人任务对于平移、旋转和反射是不变的,这些平移、旋转和反射重新定义了坐标系,但不会对任务进行其他改变。等变建模方面的最新进展为编码机器人中的对称性提供了强大的工具。一些工作使用等变模型来利用选择对称性进行抓取学习。还有的工作在预训练的等变视觉表示的基础上提出了一种用于可变形和铰接物体操纵的等变策略。一些工作使用等变图实现高效规划。其他工作利用拾取和放置中的对称性实现了较高的采样效率。另外,一些工作探索语言条件策略下的对称性,并利用语言可控核实现小样本学习。最近,很多工作实现了等变闭环策略,并以较少的演示展示了更好的泛化性能。与以前的工作相比,我们的方法利用点云配准来实现等变策略,并显示出样本效率的提高。

3 问题表述

考虑一组专家演示 ,每个演示 由一系列的拾取和放置组成。我们用以对象为中心的点云及其形式为 的变换表示每个拾取或放置样本,其中 是表示两个感兴趣对象的点云, 是 SE(3) 中的两个刚性变换,以齐次坐标表示,可以将 转换为所需的配置,ℓ 是解释动作和对象的语言描述。在我们的设置中,如果 ℓ 表示拾取动作,则 ( , ) 将表示夹持器和拾取目标。如果它表示预放放置动作,则 ( , ) 分别表示放置和要布置的对象。我们的目标是对策略函数 进行建模,该函数输出夹持器运动 ,并可推广到不同配置下新观察到的点云。该策略被制定为以开环方式生成多步拾取放置动作,并且每个单步动作都用 进行参数化。

4 方法

我们首先解释 MATCH POLICY 的流程(图 1),该流程以分割点云为输入,输出关键帧动作 。我们将 表示为推理过程中观察到的点云,以将它们与演示的点云区分开来。

A. MATCH POLICY的程序

存储组合点云 我们首先通过以下方式从演示样本 构建组合点云

其中·将两个具有 的分割点云转换为所需配置,∪将两个转换后的点云连接起来。换句话说, 表示所需的拾取配置或所需的预放/放置配置,如图 1 所示。与使用整个场景的点云相比,这种方法减少了遮挡并过滤掉了不相关的信息。每个 都由语言描述 ℓ 来描述。以图 1 和图 2 所示的 Phone_on_Base 任务为例,有三个 用三个描述表示,“拿起电话”、“将电话预放在底座上方”和“将电话放在底座上”。我们将每对 (ℓ, ) 存储为每个演示的键值元素。它会生成一个涵盖所有任务和所有演示的字典。

配准到 。在推理过程中,我们首先从观察中提取感兴趣对象的点云。在使用语言描述 ℓ 作为键检索 之后,我们的配准模型 将与 匹配的姿态输出到组合点云 。我们使用基于优化的配准方法实现 fr。具体来说,我们首先应用 RANSAC获得初始对齐,然后使用彩色 ICP进行迭代细化。

除了推断配准姿势外,我们还计算适应度得分 ,以衡量配准质量。我们使用随机种子对与密钥匹配的每个样本运行配准模型 fr 数次,并计算适应度得分。我们多次运行该模型,因为 RANSAC 是一种随机算法。它会生成一组配准结果 ,我们使用 上的最高平均适应度得分来选择最佳配准姿势对。

计算 apick、apreplace 和 aplace。 在使用语言键 ℓ 分别估计 pick、preplace 和 place 的注册姿势 后,我们将拾取动作计算为将夹持器排列到当前拾取目标 的相对姿势,即 。通过移动拾取目标 同时保持位置 静止来确定预放置和放置动作,以匹配所需配置,即 。最后,我们的方法输出 ,可用于控制机械臂。可以重复此过程以推断一系列关键帧动作来解决复杂任务。

B. MATCH POLICY样本效率分析

然后,我们通过适度假设的等变性视角分析我们方法的等变性。 由于 RANSAC 是随机投票方案,通过计算更多迭代次数,产生最佳配准的概率会增加,尤其是当重叠面积超过 50% 时。我们可以假设我们的配准模型 fr 在经过足够的运行时间后是最佳的:

假设1: 是最佳的。

对于所有 g ∈ SE(3),fr 均具有以下属性:

通过假设 1,我们得出了 MATCH POLICY 的三个等变性质,这些性质可以提高采样效率。 在下文中,我们将仅包含 apick 和 aplace 以减少冗余。我们使用 fpick 和 fplace 来表示策略函数 f 的挑选和放置预测器。

不变对称性。 我们首先证明,当演示点云 Pab 变换时,MATCH POLICY 会生成 (apick, aplace) 的不变预测。

命题 1:apick 和 aplace 对于作用于 Pab 的变换 g ∈ SE(3) 不变。

证明:根据假设 1a,如果 Pab 由 g ∈ SE(3) 变换,则计算出的配准姿态将变换为 g · ˆTa 和 g · ˆTb。新的拾取动作可以计算为 。类似地,新的放置动作

命题 1 指出,许多不同的演示会产生不同变换的 ,但使用同一组中的一个演示,会导致相同的动作预测。 这使得我们的方法能够以很少的演示实现良好的性能。

双等变位置对称性。 如前文所述,将对象 B 重新排列为另一个对象 A 的相对位置动作是双等变的。 也就是说,对象 A 的独立变换(ga ∈ SE(3))和对象 B 的独立变换(gb ∈ SE(3))会导致变化(a ′ place = gaaplaceg −1 b ),从而在新的配置下完成重新排列。利用双等变对称性可以将存储的位置知识推广到不同的配置并提高采样效率。

命题 2:MATCH POLICY 的地点动作推理是双等变的:







请到「今天看啥」查看全文