专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
目录
相关文章推荐
新闻株洲  ·  陈恢清调研北斗规模应用项目 ·  昨天  
51好读  ›  专栏  ›  将门创投

RSS 2024 | 复杂堆叠场景中的安全高效抓取

将门创投  · 公众号  ·  · 2024-07-30 08:24

正文

本文提出了 直观、准确、鲁棒 的物体支撑关系 图推理算法 ,并基于该推理算法实现了 机械臂在复杂堆叠场景中的安全高效抓取 。作者利用 particle-based 动力学模型,和在文章中提出的多体问题“相邻递归广播”思想,在物体关系判断准确性和任务执行成功率、高效性等多个指标上,取得了远超前人工作的结果,为实现具身智能理解复杂物理场景提出了具有启发性和延拓性的新思路。

论文标题:

Broadcasting Support Relations Recursively from Local Dynamics for Object Retrieval in Clutters

论文链接:

https://arxiv.org/abs/2406.02283

代码链接:

https://github.com/lyttttt3333/Broadcast_Support_Relation

项目主页:

https://lyttttt3333.github.io/broadcast.github.io/

视频1. 工作介绍


一、研究背景

图1
物体杂乱堆叠场景在日常生活中广泛存在(如图1),并且往往对操作的安全性具有较高要求。例如在厨房洗碗池中,大量的瓷制、玻璃制餐具杂乱堆叠,物体材质脆弱,物体间支撑关系复杂,如果操作不当发生碰撞或者掉落,容易造成物体破碎。此外,书桌、餐桌、橱柜、吧台等场景下,都存在多物体的杂乱堆叠摆放,这些场景中的操作任务,也被赋予较高的安全性要求。

图2
在本文中,我们研究了物体杂乱堆叠场景中的安全抓取任务。具体而言,对于存在多个物体、且物体之间存在支撑关系的场景,要求取出某个指定物体,同时避免物体间的碰撞或掉落。如图2所示,我们指定 A 作为目标抓取物体时,BCD 被 A 所支撑,要安全取出 A,就需要首先将这些被支撑物体(即 BCD)取出,否则,如果直接进行抓取操作,就会造成其他物体的掉落。同时,当我们抓取 BCD 时,也要注意其内部的支撑顺序,如需要先抓取 C 才能抓取 B,否则都会造成物体的掉落损坏。

图3

这一任务对机器人具有极大的挑战性,其最大的困难在于需要机器人拥有对复杂场景深入的物理理解,进行物体之间支撑关系推理,从而规划安全合理的抓取路径。多体复杂场景结构千变万化,物体间支撑关系非常复杂,长程支撑关系广泛存在(两个物体之间不直接接触,而是通过一个或者多个中间物体形成间接支撑关系。

如图3所示,A 和 D 没有任何接触,但其通过 B、C 形成支撑关系)。其结构的复杂性和多样性要求的不仅是普遍意义上的泛化能力,更是对物理规律的学习与建模。因此, 强化学习、模仿学习等端到端方法几乎无法完成该任务,而图神经网络等方法则可以在一些简单场景上取得效果,但常规的建图方法也无法实现复杂场景上的有效推理

二、方法

基于此前研究的经验与基础,从多物体蕴含的“图”结构出发,本文作者提出“递归邻接广播”作为核心思想和基本架构,并借助 particle-based 动力模型,实现了在复杂堆叠场景中任意目标物体支撑关系精准推理,取得了远超此前方法的表现。

研究者首先尝试了图神经网络的方法,经过实验发现,当物体数量较少或者图的规模较小时,图神经网络可以较为精确地推理出物体间的支撑关系,而当图神经网络中节点数量提高时,推理正确率则急剧下降。基于这点观察,研究者发现可以通过多个局部图逐步建构起全场景精确的物理关系图,并最终提出“递归邻接广播”算法。

图4

具体而言,该算法从目标物体开始,构建“目标物体-邻接物体集合”的局部关系图,判断在邻接物体集合中哪些物体被目标物体支撑,将这些被支撑物体视为目标物体的子节点,我们将这样的过程称为“邻接广播”。对于在上次推理中得到的目标物体的子节点,则以这些物体为“源”再次进行“邻接广播”,求得这些物体的子节点……以此循环,直到某次推理后没有新增子节点,则说明我们已经完全探索出目标物体下的全部物体关系,并可以以此规划出一条可行的抓取路径。“邻接广播”的的递归实现,在保留局部关系推理精准性的同时,将物理关系图逐步拓展到场景全局,不论是物体间的直接支撑关系,还是上述的长程支撑关系,该算法都可以精准捕捉,使机器人对复杂场景的精准物理理解成为可能。

对于“目标物体-邻接物体集合”局部关系图的构建,考虑到真实场景中物体丰富的几何形状与姿态,我们采取 particle-based 动力模型估计两个物体之间的支撑关系。particle-based 模型不进行物体层级的特征提取,而是将其表现为大量粒子,通过估计粒子的运动判断物体的被支撑与否。这样粒子层次的表征解构了物体复杂的几何形态,使得物体关系推理可以泛化到一系列具有复杂多样几何形态的物体上,使其可以实现邻接物体间关系的精准判断,为全场景关系图 的构建打下基础。图4展示了整套方法。

图5
此外,物体堆叠场景存在大量遮挡,如两个具有支撑关系的物体的接触点可能被遮挡。这种不完全观测可能影响关系推理的准确性。面对这个问题,如图5所示,作者提出长程动态调整方法,即在操作过程中,当下一个抓取物体的邻接集合发生变化时,重新估计其支撑关系 。由于物体遮挡逐步被消除,更多细节信息暴露,让我们可以根据更新后的细节信息进行更为准确的支撑关系判断。在上述物体关系推理架构的基础上,我们又通过视觉先验方法训练物体抓取点位和姿态预测模型,实现了完整的物体堆叠场景下理解-操作框架。

三、实验结果

在模拟环境中,我们在 Isaac Sim 仿真软件上基于 ShapeNet 等数据集物体素材搭建了物体堆叠场景数据集,分为书桌、餐桌、杂物等场景类别,包含大量多样、丰富、真实的物体和场景实例。我们在这个数据集上进行实验用以评估本文提出的方法,并将其与 SafePick 等先前工作提出的方法进行对比。实验结果表明,我们的方法在理解堆叠物体支撑关系和安全抓取方面有着非常优异的表现,先对于此前工作有着大幅度领先。深入而广泛的消融实验也证明了本文提出模型的合理性,尤其是局部动态估计的递归广播算法的重要意义。

视频2. 真实世界中物体支撑关系理解

视频3. 真实世界中的抓取(1)

视频4. 真实世界中的抓取(2)

视频5. 真实世界中的抓取(3)

在真实世界实验中,我们的算法也表现出优秀的性能,在一系列日常真实场景中成功理解了物体的支撑关系,并成功完成抓取任务。

四、总结

本文提出了一套 完整的面向真实世界堆叠场景的复杂物理关系推理与安全抓取的模型框架 。其通过递归推理方式,仅需 RGBD 输入便可实现多物体复杂支撑关系推理,并进一步安全抓取的目标。此外,本文提出的递归广播方法也具有较强的拓展性,可以将局部信息的准确估计扩展到全局信息的准确判断,避免了直接进行全局信息判断造成的物理推理能力失真,对场景理解和物体操作领域具有启发性意义。

作者:李宜桐,吴睿海

来源:公众号【北京大学前沿计算研究中心】

llustration From IconScout By IconScout Store


-The End-

扫码 观看

本周 上新!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区( www.techbeat.net 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

[email protected]

或添加 工作人员微信( chemn493 投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“ 投稿 ”二字,获得投稿说明。








请到「今天看啥」查看全文