专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
笔吧评测室  ·  华硕无畏 16 锐龙版 2025 ... ·  昨天  
Alisha全球出海日记  ·  写个故事咋这么费劲?我真的 “栓 Q” 了 ·  2 天前  
Alisha全球出海日记  ·  写个故事咋这么费劲?我真的 “栓 Q” 了 ·  2 天前  
笔吧评测室  ·  未来人类预热 X98、X96 ... ·  3 天前  
出彩写作  ·  用deepseek写材料实操指南(附模板示例) ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

复杂形状如何抓取?麻省理工CGDF:快速生成稳定抓取策略

计算机视觉工坊  · 公众号  ·  · 2024-07-21 00:00

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 3DGS系列 计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?

这篇文章主要介绍了一种名为CGDF(Constrained Grasp Diffusion Fields)的抓取生成模型。该模型通过扩散技术,能够在复杂的几何对象上生成稳定的抓取姿势,特别是在需要约束抓取的情况下表现突出。文章通过实验验证了CGDF模型在单臂和双臂设置下的有效性,并与现有的抓取生成方法进行了比较。关键创新点在于使用部件引导的扩散策略,提高了模型在约束抓取任务中的样本利用效率,无需依赖大量的增强数据集。文章的贡献在于扩展了抓取生成技术的适用范围,尤其是在处理具有复杂几何结构的对象时,展示了优越的性能和泛化能力。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:Constrained 6-DoF Grasp Generation on Complex Shapes for Improved Dual-Arm Manipulation

作者:Gaurav Singh, Sanket Kalwar

作者机构:Massachusetts Institute of Technology等

论文链接:https://arxiv.org/pdf/2404.04643

2. 摘要

针对对象特定区域高效生成抓取姿势对各种机器人操作任务至关重要,特别是在双臂设置中。这种情况由于涉及复杂的几何形状而带来了重大挑战,需要深入理解局部几何以在指定的受限区域上高效生成抓取。现有方法仅探索涉及桌面/小物体的设置,并需要增强数据集进行训练,这限制了它们在复杂对象上的性能。我们提出了CGDF:受限抓取扩散场,一种基于扩散的抓取生成模型,它能够泛化到具有任意几何形状的对象,并在目标区域生成密集的抓取。CGDF采用部件引导的扩散方法,使其能够在不显式训练大量增强约束数据集的情况下实现高样本效率的受限抓取。我们使用分析度量和仿真提供定性和定量比较,分别在无约束和受限设置中展示我们的方法能够泛化到在复杂对象上生成稳定的抓取,特别适用于双臂操作设置,而现有方法则难以做到。项目页面:https://constrainedgrasp-diffusion.github.io/

3. 效果展示

在CGDF和基线方法VCGS 以及SE3Diff的双臂设置中,无约束和约束抓取生成的定性比较。所有基线方法在简单形状的对象上表现良好(如平面或细长形状)。然而,对于相对复杂的几何结构,如椅子、乐器等,CGDF能够生成密集的约束和无约束抓取,而基线方法则表现不佳。绿色表示非碰撞抓取,红色表示碰撞抓取。

4. 主要贡献

  • 我们提出了CGDF,一种在复杂形状上生成受限抓取的方法。CGDF通过卷积平面特征提供了有效存储局部几何的能力,从而实现了对复杂形状的密集抓取生成。

  • 我们提出了一种新颖的部件条件生成策略,以样本效率高的方式生成受限抓取,而无需显式训练有条件标记的数据集。

  • 我们进一步展示了我们方法在双臂抓取复杂设置中的有效性。我们展示了在双臂受限抓取设置中,CGDF优于现有方法,突出了我们方法的关键用例。

5. 基本原理是啥?

这篇文章基于SE(3)扩散场(SE(3) Diffusion Fields,简称SE(3) Diff)的基本原理来提出了一种新的约束抓取生成框架(Constraint Grasp Diffusion Fields,简称CGDF):

  • SE(3)扩散场:

SE(3) Diffusion Fields是一种用于生成多样化抓取姿态的模型。它利用了李群SE(3)的性质,通过在李代数空间中操作,能够有效地在复杂几何形状上生成稳定的抓取姿态。

  • 抓取生成模型:

CGDF利用SE(3) Diffusion Fields的结构,将其应用于约束抓取的任务。具体来说,给定一个物体的点云和一个约束区域(可以是整个物体或物体的局部区域),CGDF旨在高效地生成在约束区域内稳定的抓取姿态。

  • 模型架构:

点云编码器(Point Cloud Encoder):使用PointNet等技术,从输入的点云中提取局部和全局的特征表示。

SE(3)扩散模型(SE(3) Diffusion Model):将点云的特征表示输入到SE(3) Diffusion Fields中,生成抓取姿态的能量分布。

约束模型:通过对SE(3) Diffusion Fields生成的抓取姿态的能量进行评估,筛选出在约束区域内稳定的抓取姿态。

6. 实验结果

实验部分主要集中在评估了CGDF(Constraint and Grasp Development Framework)在抓取任务中的性能表现,特别是在处理复杂和大型对象时的效果:

实验设置

数据集和对象选择:

  • 使用了DA2数据集,该数据集包含从ShapeNetSem数据集获取的各种对象网格,经过缩放以适应抓取。对象包括各种大小和形状的物体,从小型桌面物体到大型物体如椅子、灯具等。

评估指标:

  • 力闭合(Force Closure):评估抓取的稳定性,确保夹具的接触力满足特定的闭合条件,以避免对象脱落。
  • 抓取成功率(Grasp Success Rate):评估抓取是否成功,即夹具是否能够正确地抓住并举起对象。
  • 目标抓取(Target Grasps):评估抓取是否在预定义的目标区域内,以验证抓取的准确性。

实验步骤和方法

约束抓取 vs 非约束抓取:

  • 约束抓取:使用最远采样获取查询点,并生成两个约束区域,确保抓取的目标点在指定区域内。

  • 非约束抓取:直接使用整个对象的点云进行抓取生成,不限制抓取点在特定区域内。

  • 双臂抓取生成:考虑到复杂和大型对象的抓取任务,使用双臂设置对抓取进行评估,以更好地模拟真实世界中的抓取操作。

与基线模型比较:

  • VCGS-Sampler:一种SoTA约束抓取采样方法,用作比较基准。

  • SE(3)-DiF:基于全局形状表示的抓取生成模型,用于比较非约束抓取生成的效果。

实验结果分析

CGDF的整体表现:

  • CGDF在力闭合、抓取成功率和目标抓取方面均优于现有方法。
  • 约束抓取方面,CGDF能够生成接近目标区域的抓取,并且能够更好地捕捉复杂对象的细节结构。
  • 非约束抓取方面,CGDF利用部件引导扩散策略,能够有效地生成稳定的抓取,避免了不必要的碰撞和接触不良的抓取姿势。

消融实验分析:

  • CGDF中的两个关键设计决策:卷积平面特征和部件引导扩散,显著提升了模型的抓取性能和泛化能力。
  • 部件引导扩散策略虽然增加了训练时间,但在实际测试中表现出较好的抓取效果,尤其在处理具有复杂几何结构的对象时效果显著。

7. 总结 & 未来工作

现有的数据驱动抓取生成方法主要集中在均匀生成稳定且无碰撞的抓取姿势上,这在需要在复杂几何体上进行约束抓取的场景中显得效果有限。为了解决这一局限性,我们引入了CGDF(Constrained Grasp Diffusion Fields),一种基于扩散的抓取生成模型,能够泛化到具有任意几何形状的对象,并在指定区域生成密集抓取。CGDF采用部件引导扩散方法,在约束抓取中实现高效的样本利用率,无需大量增加约束的数据集。通过在非约束和约束设置下的定性和定量评估,我们展示了CGDF在复杂对象的双臂操作中生成稳定抓取的能力,超越了现有方法的表现。

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉课程官网: www.3dcver.com






请到「今天看啥」查看全文