专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

透明物体抓取再升级！ReFlow6D：如何解决透明物体6D位姿估计的难题？

3D视觉工坊 · 公众号 · · 2025-01-22 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种新的透明物体 6D 位姿估计方法，称为 ReFlow6D，基于单目相机并结合了折射中间表示（Refractive Intermediate Representations, RFRs）。通过引入折射特性特征和表面区域注意力，ReFlow6D 提供了更精确的透明物体位姿估计。文章通过与现有最先进方法的比较，展示了 ReFlow6D 在真实世界场景中的优越性能，尤其是在复杂的背景、光照条件和不透明物体干扰下。实验结果表明，ReFlow6D 在透明物体抓取任务中的成功率达到 82.2%，验证了其在实际应用中的有效性。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：ReFlow6D: Refraction-Guided Transparent Object 6D Pose Estimation via Intermediate Representation Learning

作者：Hrishikesh Gupta, Stefan Thalhammer等

作者机构：Vision for Robotics Laboratory, Automation and Control Institute, TU Wien, Austria

论文链接：https://arxiv.org/pdf/2501.01993

2. 摘要

透明物体在日常生活中无处不在，因此其感知和机器人操作变得尤为重要。然而，由于透明物体独特的折射和反射特性，精确估计其6D姿态成为了一个重大挑战。为了解决这个问题，我们提出了ReFlow6D，一种新的透明物体6D姿态估计方法，它利用了折射引导的中间表示。与传统方法不同，我们的方法利用了一个对RGB图像空间变化不敏感且独立于深度信息的特征空间。我们借鉴图像抠图的思想，模拟光线通过透明物体的路径变形，从而生成一种独特的、由光折射引导的、与观察物体的环境无关的物体特定中间表示。通过将这些中间特征集成到姿态估计网络中，我们展示了ReFlow6D仅使用RGB图像作为输入即可实现透明物体的精确6D姿态估计。我们的方法进一步引入了一种新的透明物体合成损失，促进了优越的折射引导中间特征的生成。实证评估表明，我们的方法在TOD和Trans32K-6D数据集上显著优于现有的最先进方法。机器人抓取实验进一步证明，ReFlow6D的姿态估计精度有效地转化为实际的机器人任务。源代码可在以下地址获取：https://github.com/StoicGilgamesh/ReFlow6D 和 https://github.com/StoicGilgamesh/matting-rendering。

3. 效果展示

ReFlow 6D的定性结果：（a）TOD数据集的定性结果。(b)Trans 32 K-6D数据集的定性结果。估计值显示在裁剪的图像中，以便于查看。没有显示TGF-净方法的估计值，因为作者没有公布他们的代码。

掌握定性结果：在左边，我们展示了（a）所有三种不同情景的示例。(b)在所有3种场景中，掌握物体“储液罐”的示例。(c)在所有3个场景中，掌握物体“小瓶子”的示例。(d)在所有3个场景中，抓取物体“LargeBottle”。在右边，我们展示了四种照明情况（a）光线穿过覆盖房间唯一窗户的半透性百叶窗。(b)人造环境光。(c)自然光线而第四种照明情况，即人造环境光和自然光的叠加，则显示在图像的左侧，带有抓取传感器。推荐课程：机械臂抓取从入门到实战课程（理论+源码）。

4. 主要贡献

将折射引导的中间表示融入姿态估计架构，作为中间特征，建模通过透明物体的光路径变形，这是一种透明物体的独特透明度图，不受环境变化的影响，从而实现更鲁棒和准确的6D姿态估计；
与现有方法的评估结果表明，使用折射引导的中间表示相比几何中间表示，在透明物体的6D姿态估计中取得了显著改善；
通过机器人透明物体操作实验，展示了ReFlow6D的实际应用。

5. 基本原理是啥？

ReFlow6D 的基本原理是通过提出一种新颖的折射中间表示（Refractive-Intermediate Representations, RIRs），结合折射原理，来增强透明物体的 6D 位姿估计。透明物体在传统的视觉识别和位姿估计中存在挑战，因为它们具有独特的光学特性，如折射、反射等，这些都会影响物体的外观和被摄取的图像。

具体来说，ReFlow6D 的核心思路是通过捕捉透明物体的折射特性来获取更有意义的特征表示。这些折射特征属性（Refractive Feature Attributes, RFAs）被引入网络中，并与表面区域注意力（Surface-Region Attention）一起作为中间特征，帮助网络更加精确地估计透明物体的 6D 位姿。通过这种方式，ReFlow6D 能够更好地应对透明物体的光学复杂性，并且提高了估计的鲁棒性。

简而言之，ReFlow6D 通过以下几个步骤来实现透明物体的精确位姿估计：

折射特征的提取 ：通过折射中间表示提取透明物体的折射特征，增强透明物体的视觉信息。
表面区域注意力 ：利用表面区域的注意力机制，聚焦于透明物体的重要区域，从而提高估计精度。
6D 位姿估计 ：结合这些特征，通过神经网络对透明物体进行 6D 位姿估计（包括位置和朝向）。

6. 实验结果

在实验结果部分，ReFlow6D 方法在透明物体的 6D 位姿估计中表现出了显著的优势，尤其是在真实场景中的应用：

定性实验结果 ：

场景 1 ：仅包含训练数据中未见过的原始桌面平面，并随机放置一个透明物体。
场景 2 ：包含训练数据中未见过的随机纹理背景，并随机放置透明物体进行抓取实验。
场景 3 ：较为复杂的场景，包含多个透明物体和随机选择的 5 个不透明物体，并加上未见过的背景纹理。
实验展示了每个物体在不同场景下的表现。具体的图示展示了在真实机器人抓取过程中，ReFlow6D 如何有效估计透明物体的 6D 位姿。
每个场景中，都使用了不同的背景、光照条件以及物体摆放的随机性，测试了 ReFlow6D 在不同光照、背景和物体配置下的表现。
场景包括：

定量实验结果 ：

LargeBottle 在 30 次抓取实验中的成功率最低，为 **73.3%**，这一结果归因于其与机器人抓取器的尺寸相似，使得抓取任务变得更加困难。这个实验结果突出显示了准确抓取计划、物体检测和 6D 位姿估计的重要性，尤其是在精度要求较高的场景中。
成功率 ：ReFlow6D 在真实抓取实验中表现出色，总体的平均成功率为 **82.2%**，这表明该方法在真实环境中的鲁棒性。
不同物体的表现 ：

7. 总结 & 未来工作

在本研究中，我们提出了 ReFlow6D，一种专门针对透明物体的单目实例级 6D 位姿估计方法。我们的方法提出了一套新颖的折射中间表示，通过折射原理指导，从而实现对透明物体的鲁棒性位姿估计。我们证明了将这些折射特征属性（RFAs）与表面区域注意力结合作为中间特征，更好地引导网络朝向更精确的 6D 位姿估计，特别是对于透明物体。通过全面的实证评估，我们展示了与现有最先进方法相比，ReFlow6D 在现实世界场景中的有效性。这些结果强调了折射中间表示在透明物体位姿估计中相较于几何和边缘表示的优势。未来的工作将探讨更多复杂透明物体的位姿估计，这些物体具有不同的厚度、几何形状和折射率。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。