专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
苏州市场监管  ·  正式施行!事关公司登记管理! ·  20 小时前  
苏州市场监管  ·  正式施行!事关公司登记管理! ·  20 小时前  
内江市市场监督管理局  ·  内江市市场监督管理局关于对四川荣兵商贸有限公 ... ·  昨天  
内江市市场监督管理局  ·  内江市市场监督管理局关于对四川荣兵商贸有限公 ... ·  昨天  
现代快报  ·  重磅!DeepSeek获顶级域名认可 ·  3 天前  
红古发布  ·  曝光!这些App,高风险!速自查 → ·  3 天前  
红古发布  ·  曝光!这些App,高风险!速自查 → ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

首创!开源!ToolEENet:精准估计RGB-D的6D姿态

计算机视觉工坊  · 公众号  ·  · 2024-04-17 11:00

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

编辑:计算机视觉工坊
添加小助理 :dddvision,备注:3D高斯,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程 (星球成员免费学习)、 最新顶会论文 计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0.这篇文章干了啥?

这篇文章提出了一个框架,旨在通过 RGB-D 图像对机器人工具末端执行器(EE)的6D姿态进行估计。他们首先利用RGB图像获取工具和工具的EE的语义分割,然后使用分割和深度图像将观察到的点云投影到每个工具的EE点云中。接着,他们提出了一种对称感知的6D姿态表示,能够无需先验地进行6D姿态估计。通过大量实验,他们验证了自己合成的ToolEE数据集的合理性和质量,并且证明了他们的框架和姿态表示方法在数据集上优于基线方法。文章还探讨了他们方法的局限性,并提出了未来工作的方向,包括增加3D模型资产的多样性,扩展数据集,并在真实机器人上进行更多任务的实验。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目:ToolEENet: Tool Affordance 6D Pose Estimation

作者:Yunlong Wang, Lei Zhang等

作者机构:Universität Hamburg等

论文链接:https://arxiv.org/pdf/2404.04193.pdf

2. 摘要

最近,利用工具的机器人灵巧手的研究引起了相当大的关注。在这一领域面临的一个重要挑战是在抓握时精确感知工具的姿势,因为手部的遮挡通常会降低估计的质量。此外,工具的整体姿势通常无法准确表示接触交互,从而限制了基于视觉引导、依赖于接触的活动的有效性。为了克服这一限制,我们提出了创新的TOOLEE数据集,据我们所知,这是第一个具有工具末端执行器(EE)的功能分割及其基于使用方式的定义的6D姿势的数据集。此外,我们提出了ToolEENet框架,用于准确估计工具EE的6D姿势。该框架首先从原始RGBD数据中分割出工具的EE,然后使用基于扩散模型的姿势估计器进行特定类别水平的6D姿势估计。针对姿势估计中的对称性问题,我们引入了一种对称性感知的姿势表示,增强了姿势估计的一致性。我们的方法在这一领域表现出色,展示了高水平的精确性和泛化性。此外,它在接触式操纵场景中显示出巨大的应用前景。所有数据和代码均可在项目网站上找到:https://yuyangtu.github.io/projectToolEENet.html

3. 效果展示

第一行显示了锤子的结果,第二行是螺丝刀,第三行是扳手。左边包括了已见过的物体,而右边则属于新颖物体。"Object pose w prior" 表示首先估计整个物体的姿态,然后应用类别级别的姿态先验。"Symmetry-agnostic" 表示直接从模型中输出6D姿态。"Ours" 表示我们使用学习到的对称知识来调整基于模型输出的对称轴。"GT" 表示6D姿态的地面真实值。

真实机器人实验。我们使用一个影子手加UR10设置从人手中接过一个锤子,并使用该锤子驱动一根钉子,通过估计和调整接手后的锤子姿态来完成。图片中,左边是分割结果,右边是锤头的姿态估计结果。

4. 主要贡献

  • 开发了一个专门为可用性姿势估计量身定制的新颖合成数据集,特别关注灵巧工具操作的应用。这个数据集促进了对几何变化的影响的深入研究,特别是在点云数据的背景下。
  • 提出了一种创新的框架,能够从RGB-D输入准确估计工具的末端执行器(EE)的6D姿势。这个框架融合了我们新提出的对称性感知姿势表示,有效解决和解决了与姿势估计相关的对称性问题。
  • 进行了全面的实验,验证了我们的方法在估计工具的EE姿势方面的稳健性和有效性。这些实验表明了我们方法的高可靠性和优越性能,特别是在对称情况下。

5. 基本原理是啥?

这篇文章的详细原理包括以下几个方面:

  • TOOLEE 数据集:为了估计工具末端执行器(EE)的 6D 姿态,作者首先提出了 TOOLEE 数据集。该数据集包含了工具的 EE 分割、深度图像、RGB 图像、手遮挡的部分点云以及工具和工具的 EE 的标注。这个数据集的建立为研究提供了基础数据。
  • 工具的 EE 分割:为了进行 EE 的语义分割,作者使用了 Mask R-CNN 算法。通过输入 RGB-D 图像,首先对 RGB 部分进行 Mask R-CNN 处理,得到工具的 EE 的语义分割结果。然后利用语义分割结果和深度图像,将点云投影到 3D 空间中,得到每个工具的 EE 的点云。
  • 扩散模型:为了估计工具的 EE 的 6D 姿态,作者使用了扩散模型。该模型通过生成多个姿态候选,然后利用均值池化方法从未见部分点云中估计出姿态。这种方法可以有效处理部分观察点云和对称对象的多假设问题,提高了姿态估计的准确性。
  • 对称感知的 6D 姿态表示:为了解决工具的 EE 对称性问题,作者提出了对称感知的 6D 姿态表示。在输出层中,通过四个全连接层输出四个 3D 向量,其中 [ 𝑅𝑥 ∣ 𝑅𝑦 ] 表示连续旋转表示,𝑆 表示对称向量,𝑇 表示平移向量,从而构建了一个包含对称性质和 6D 姿态的 12 维表示。这种表示方式不仅能准确估计目标的 6D 姿态,还能识别哪个轴是模糊的,从而提高了姿态估计的精度和鲁棒性。

6. 实验结果

本文的实验主要集中在两个方面:可供性分割和 6D 姿态估计。首先,对于可供性分割,研究人员训练了一个分割模块并取得了较好的结果,证明所选分割算法能够有效地完成任务。其次,针对 6D 姿态估计,研究人员进行了深入的实验和分析,主要包括以下几个方面的内容:

  • 对称不变的 6D 姿态表示:研究人员提出了一种对称感知的 6D 姿态表示方法,通过将输入的每个工具端效应器的点云转换成两类点云,一类是以对象为中心的点云,另一类是以端效应器为中心的点云。通过在这两类点云之间比较距离,可以反映对象和工具端效应器的形状和尺度变化对姿态估计的影响程度。实验结果表明,端效应器为中心的点云具有更高的一致性,这证明了他们的假设是合理的。
  • 实验结果分析:研究人员进行了对称不变的 6D 姿态估计方法的详细实验分析。他们比较了使用对象为中心的点云和端效应器为中心的点云进行的姿态估计结果,并进一步比较了是否考虑对称感知的姿态表示方法的影响。实验结果表明,在翻译和旋转平均值方面,端效应器为中心的点云的分类级别姿态估计明显优于对象为中心的点云的分类级别姿态估计。然而,由于对称目标存在的多假设问题,分类姿态先验显示出其在姿态消除歧义方面的优势,因此,它比端效应器为中心的姿态估计更好。
  • 实际机器人实验:研究人员还将他们的方法应用于真实机器人实验中,主要用于钉锤任务。实验中,机器人首先接过一个锤子,然后利用 Kinect v2 摄像头获取 RGB-D 输入,并对 RGB 通道进行分割,以获得锤子端效应器的语义掩模。通过这种方式,机器人可以调整锤子端效应器的姿态,以成功地将钉子钉入块中。实验结果表明,相比于仅使用预定义轨迹而不调整锤子端效应器姿态的情况,使用他们的方法可以显著提高成功率。即使使用合成数据集训练模型,分割结果和姿态估计结果仍然良好。这是因为他们的合成数据集非常逼真,并且合成点云与真实点云之间的域差距相对较小,导致姿态估计的准确性很高。

7. 总结 & 未来工作

本研究提出了一个专门设计用于机器人工具操作中的可供性姿态估计的框架,利用我们定制开发的合成 ToolEE 数据集。我们研究了对称问题,提出了一种新颖的对称感知姿态表示,实现了无先验的 6D 姿态估计。我们的广泛实验验证了我们的 ToolEE 数据集的合理性和质量,并且我们的框架和对称感知姿态表示优于基于我们数据集的基线方法。局限性与未来工作:虽然我们的实验结果支持我们的假设并验证了所提出的方法,但我们的工作仍然存在一定的局限性。增加 3D 模型资产的多样性对于减轻数据集偏差,提高我们方法的鲁棒性和适用性至关重要。在未来的工作中,我们计划通过整合更广泛的工具类别并利用更多的真实世界数据来扩展我们的数据集。此外,我们计划在各种任务中使用真实机器人进行大量实验。虽然我们已经展示了在钉击任务中的成功,但未来的工作还将包括拔钉、用扳手拧紧和松开螺母、使用螺丝刀以及探索更多新类别工具的任务。

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000)







请到「今天看啥」查看全文


推荐文章
苏州市场监管  ·  正式施行!事关公司登记管理!
20 小时前
苏州市场监管  ·  正式施行!事关公司登记管理!
20 小时前
现代快报  ·  重磅!DeepSeek获顶级域名认可
3 天前
红古发布  ·  曝光!这些App,高风险!速自查 →
3 天前
红古发布  ·  曝光!这些App,高风险!速自查 →
3 天前