专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
相关文章推荐
素食星球  ·  椰香四溢的纯素雪花酥,颠覆传统的味蕾体验 ·  14 小时前  
素食星球  ·  椰香四溢的纯素雪花酥,颠覆传统的味蕾体验 ·  14 小时前  
赛博禅心  ·  超级硬广:输入 ikun,解锁 ... ·  昨天  
赛博禅心  ·  超级硬广:输入 ikun,解锁 ... ·  昨天  
吉林果粉天天报  ·  吉林市两所学校揭牌成立 ·  2 天前  
吉林果粉天天报  ·  吉林市两所学校揭牌成立 ·  2 天前  
吉林生态环境  ·  来啦 !吉林省生态环境分区管控应用平台正式上线 ·  3 天前  
51好读  ›  专栏  ›  学姐带你玩AI

斯坦福&MIT&英伟达联手打造!CPM:基于可组合零件的操纵

学姐带你玩AI  · 公众号  ·  · 2024-11-04 18:24

正文

来源:投稿  作者:橡皮
编辑:学姐

论文链接:https://arxiv.org/abs/2405.05876

项目主页:https://sites.google.com/view/part-based-manipulation

unset unset 摘要: unset unset

在本文中,我们提出了可组合的基于部件的操作 (CPM),这是一种利用对象-部件分解和部件-部件对应关系来提高机器人操作技能的学习和泛化的新方法。通过考虑对象部件之间的功能对应关系,我们将功能动作(例如倾倒和约束放置)概念化为不同对应约束的组合。CPM 包含一组可组合的扩散模型,其中每个模型捕获不同的对象间对应关系。这些扩散模型可以根据特定的对象部件生成操作技能的参数。利用基于部件的对应关系以及将任务分解为不同的约束,可以对新对象和对象类别进行强大的泛化。我们在模拟和现实世界场景中验证了我们的方法,证明了其在实现稳健和泛化操作能力方面的有效性。

unset unset 1 引言 unset unset

组合性为机器人操作提供了引人注目的好处,因为它可以实现高效的学习、推理和规划。先前的研究已经广泛研究了将场景分解为对象及其关系,以及将长期计划划分为原始技能,以便导航复杂环境并制定长期计划。在本文中,我们通过考虑基于功能(例如边缘、手柄、主体)的对象部分分解来呈现组合性的不同观点,并利用这种分解来改进机器人操作的几何和物理关系的学习。

图 1:CPM 组成基于部分的扩散模型,直接从点云预测目标物体的姿势。在这个例子中,我们展示了“倾倒”动作被分解为三个基于部分的对应关系,这些对应关系将操作推广到跨物体类别,并从模拟到现实世界。

在对象的语言描述中,部件名称不仅描述了部件的几何形状,还捕捉了它们的功能可供性。例如,如图 1 所示,对于“倒”这个动作,边缘定义了物体之间对齐的边界,倒水容器的主体应该为该动作倾斜,而其手柄则对物体倒水时应面向的方向进行了约束。利用对部件可供性的认识,我们假设一系列功能动作,例如倒水和约束放置,可以概念化为对象部件之间功能对应的组合。使用这种分解对动作进行建模产生了两个重要的概括。首先,它使得动作能够泛化到来自同一对象类别的新实例。其次,更重要的是,它有助于泛化到看不见的对象类别。例如,在学习了“倒”动作的部分可供性之后,我们经过“从碗里倒”和“...锅里倒”训练的机器人可以推广到“从杯子里倒”,并且不需要额外的训练就可以操作新的物体类别。

受这些见解的启发,我们提出了可组合的基于部件的操作 (CPM)。CPM 包含一组扩散模型,其中每个模型捕获不同物体各部分之间的对应关系。这些条件扩散模型将物体各部分的几何形状作为输入,并生成操作技能的参数,例如倒水动作过程中碗的起始和结束姿势。具体来说,每个模型都会输出满足特定对应关系的可行轨迹分布。在学习了一组可组合扩散模型后,我们将动作表示为部件-部件对应的组合。在推理过程中,我们利用原始扩散模型的组合来采样遵循所有部件对应的轨迹。与不推理部件和可组合对应约束的模型相比,这种方法提高了对新物体类别的泛化能力。

总结一下,本文做出了两个关键贡献。首先,我们提出了可组合的基于部件的操作,将操作动作建模为对象之间部件与部件对应的组合。其次,我们开发了扩散模型,这些模型经过训练可以捕获原始功能对应关系,这些对应关系可以在推理过程中灵活地重新组合。CPM 在各个维度上实现了强大的泛化,包括新颖的对象实例和对象类别。我们在基于 PyBullet 的模拟和真实机器人实验中验证了 CPM 的有效性。

unset unset 2 相关工作 unset unset

用于操作的对象表示。 先前的研究使用常见对象部件(例如,刀片、盖子和手柄)的分割来操作铰接式物体以及转移到新物体。一种已证明在不同操作领域有效的常见方法首先预测机器人应该关注物体的哪个部分(例如,手柄),然后预测相对于该部分的动作。与此密切相关的是视觉可供性检测,它将物体分割成不同的功能区域,例如可抓取部分和物体的支撑表面。这些功能区域可以由更多不同的物体共享,并且可用于在物体类别之间推广面向任务的抓取。关键点是另一种表示,它显示出对类别内大形状变化和拓扑变化的鲁棒性。每个关键点集都可以提供先前分割方法所缺乏的基本姿势信息,以支持诸如通过把手将杯子挂在挂钩上之类的任务。最初的监督方法已扩展到从交互和未标记视频中发现关键点的方法。最近,隐式对象表示已用于提供同一对象类别中任何点之间的对应关系,并可跨 6-DoF 姿势变化进行推广。大型预训练视觉模型还支持对象表示的开发;最近的研究利用这些模型显着减少了特定领域的训练数据,在开放词汇部分分割、少量可供性分割和对来自同一类别的任何新对象的一次性姿势估计方面表现出色。尽管取得了巨大进步,但我们仍然缺乏支持将操作强泛化到新对象类别的对象表示。我们专注于解决这个问题。

学习物体的交互。 机器人领域的研究已经确立了对物体交互进行建模的重要性。最近的方法直接在 3D 观测上工作,而不依赖于已知的物体模型。学习物体之间的空间关系使得能够在特定位置拾取和放置物体,例如将物体放在中间抽屉中、堆叠物体和摆放桌子。这些关系可以扩展为表示世界的逻辑状态,以支持长期任务的规划。其他研究侧重于学习物体之间的低级交互,例如将物体稳定地放置在凌乱的桌面上并使用工具推动物体。例如,O2O-afford使用点卷积关联从两个物体中提取的特征图,并输出逐点交互热图。在对象有向距离函数之上定义的函数还可以表示对象之间交互的约束,例如接触和包含。基于流的方法还可以直接从点云中学习对象之间的静态关系以及工具使用。我们的工作与这些方法之间的主要区别在于,我们通过对象部分分解和学习部分部分对应关系来桥接交互建模和对象表示,并享受经验验证的泛化改进。

可组合扩散模型。 最近的一系列研究调查了扩散模型在机器人技术中的潜力。研究表明,扩散模型可以生成动作的多模态分布,并且可以处理对称物体中的空间模糊性。在图像领域,先前的研究表明条件扩散模型与基于能量的模型之间存在联系,并提出了通过组合不同语言条件下的扩散噪声来生成图像的技术。最近的研究提供了一种使用 MCMC 从单独训练的模型中采样的更有原则的方法。另一种方法是通过使用额外训练的适配器来生成人脸来组合扩散模型。CPM 结合了这两条工作路线,提出了用于机器人操作的可组合扩散模型。在此过程中,我们必须解决两个挑战,即使扩散模型适应 (1) 输出姿势而不是像素,以及 (2) 组合不同部分帧中的动作,同时保留对不同分布的泛化。

图 2:(a) 给定一个任务、锚点和功能对象的部分点云,以及从学习到的分割模型 gϕ 中提取的它们的部分,我们从学习到的分布 pθ 中采样一系列变换来参数化功能对象的轨迹。(b) CPM 可以推广到新的对象类别,因为它将每个动作分解为对象部分之间的功能对应关系集合。为了对满足所有功能对应关系的目标变换进行采样,CPM 在推理时结合了来自原始扩散模型集合的噪声预测。(c) 每个原始扩散模型根据对象部分的点云学习满足特定部分-部分对应关系的目标姿势分布。

unset unset 3 可组合的基于部件的操作 unset unset

在本研究中,我们的目标是对涉及保持静态的锚对象 A 和正在主动操纵的功能对象 F 的功能动作进行建模。如图 2 (a) 所示,给定任务** M 和世界框架 {W} **中两个对象 的部分点云,我们希望预测一系列 SE(3) 变换,即 ,它参数化了功能对象 **F 在世界框架中的轨迹,以实现与锚对象 A 的所需交互(例如,倒水)。在整篇论文中,我们选择 N = 2;即,我们预测物体运动的起始姿势和结束姿势。然后,我们在两个姿势之间使用 SE(3) 插值来生成连续运动轨迹。我们定义 {A} {F} **的对象框架以各自点云 的质心为中心,并且具有与世界框架相同的方向。因此,世界坐标系中的每个变换 都可以通过两个物体之间的相对姿态 来计算,即 。我们要解决的一个关键挑战是将训练对象的功能动作推广到未见过的物体实例,更重要的是,推广到机器人在训练期间可能从未遇到过的新物体类别。

3.1 动作作为基于部分的功能对应

可组合部件操作 (CPM) 将每个动作 M 建模为对象部件之间功能对应的组合。我们将每个对应关系 的符号表示形式化为 ,其中 是 M 的对应集,Si 是空间关系, 分别是锚点和功能对象的两个部分。考虑从杯子倒水到碗中的例子,如图 1 所示。这个“倒水”动作包含以下三个对应关系: ⟨align,rim(mug),rim(bowl)⟩ ⟨tilt,body(mug),body(bowl)⟩ ⟨facing-up,handle(mug),body(bowl)⟩

预测机器人运动的任务可以转化为寻找一条同时满足所有基于部件的功能对应的机器人轨迹的任务。我们不根据物体点云及其姿势手动指定这些约束,而是学习一个神经网络 ,根据物体的点云识别物体的功能部件,并学习另一个生成模型 ,参数化 T 的分布。使用 ,我们可以提取给定部件的点云,例如 。学习识别功能部件可以视为预测每个点的部件分割问题,在先前的工作中已经得到了广泛的研究。因此,我们专注于第二部分,即基于识别出的部件,让机器人学习物体的操作轨迹。

3.2 使用扩散模型进行功能对应的生成建模

对于每个函数对应元组 ,我们学习一个生成分布 。这里 表示相对变换 。我们使用点云条件扩散模型来参数化该分布。具体而言,每个原始扩散去噪模型 都将当前扩散时间步长 t、两部分点云 以及噪声变换 作为输入,并预测 上的噪声。如图 2 c所示,该模型基于Transformer编码器。首先,我们使用点云transformer分别对两部分的点云进行编码。然后,我们使用训练有素的 MLP 对每个变换进行编码。我们将点云和变换编码以及扩散时间步长 t 输入到Transformer编码器。Transformer 编码器的输出是变换 上的预测噪声。我们在附录 A 中提供了该架构的详细信息。

在训练期间,我们针对随机采样的扩散时间步长 t 和从多元高斯分布中采样的随机高斯噪声 ϵ 优化以下损失:

其中 是要预测的目标变换,βt 是扩散噪声计划。添加的噪声和预测的噪声都在 SE(3) 的切线空间中。我们以 SE(3) 去噪分数匹配 (DSM) 模型中引入的技术为基础,但使用去噪扩散概率模型 (DDPM) 进行更稳定的训练。在实践中,我们首先计算变换的指数图,然后应用噪声。这可以看作是预测 SE(3) 姿势的指数能量函数的得分函数。

3.3 扩散模型的推理时间组成

扩散模型的一个关键特征是其组合性。也就是说,假设我们有一组扩散模型,每个模型都针对一种特定类型的功能对应关系进行训练,我们可以在推理时将它们预测的噪声组合起来,以生成符合所有功能对应的轨迹,如图 2 (b) 所示。由于每个扩散模型都通过其噪声预测隐式地参数化了一个基于能量的模型: ,从扩散模型的组合中采样对应于从各个功能对应关系的分布的“交集”中采样,或者正式地从 中采样。

图 3:我们使用 PartNet 和 ShapeNetSem 数据集为“浇注”和“安全放置”任务生成任务演示。我们为各种功能和锚点对象组合创建演示。

具体来说,在推理期间,从标准高斯分布中随机采样的 开始,给定约束集 ,我们通过以下方式迭代更新姿势预测:

其中 T 是扩散步骤数, 是去噪方案, 是累积去噪方案,σt 是固定采样时间噪声方案,ϵ 是随机采样的高斯噪声。可微分运算







请到「今天看啥」查看全文