专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

慕尼黑工业最新SABER：在复杂遮挡下实现卓越隐式物体姿态估计！

3DCV · 公众号 · · 2024-10-05 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种新颖的方法SABER，用于在隐式空间中进行姿态估计。该方法通过学习从图像输入中表示物体的形状，采用DeepSDF（Deep Signed Distance Function）网络来表示物体在不同方向上的形状，从而在嵌入空间中学习姿态。SABER的旋转嵌入空间的学习不受对称性的影响，使其能够处理对称物体而不需要显式的对称标签。这种隐式旋转估计模型展示了在Occlusion-LineMOD和T-Less数据集上的优异性能，接近最先进的方法，证明了其在姿态估计中的有效性和竞争力。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：SABER-6D: Shape Representation Based Implicit Object Pose Estimation

作者：Shishir Reddy Vutukur等

作者机构：Technical University of Munich等

论文链接：https://arxiv.org/pdf/2408.05867

2. 摘要

本文提出了一种新颖的编码器-解码器架构，称为SABER，用于通过学习给定姿态下的形状表示来在嵌入空间中学习物体的6D姿态。该模型使我们能够通过对RGB图像输入执行目标姿态下的形状表示来学习姿态。我们将形状表示作为辅助任务，这有助于基于2D图像学习物体的旋转空间。图像编码器预测嵌入空间中的旋转，基于DeepSDF的解码器学习在给定姿态下表示物体的形状。由于我们的方法基于形状，因此该流程适用于任何类型的物体，不论其对称性如何。此外，我们只需要物体的CAD模型即可训练SABER。我们的流程基于合成数据，还可以处理没有对称标签的对称物体，因此无需额外的标注训练数据。实验评估表明，我们的方法在Occlusion-LineMOD和T-LESS数据集上对对称物体和非对称物体的性能接近基准结果。

3. 效果展示

编码器-解码器架构。 输入到图像编码器的是一张二维图像 ( I )，用于预测变换嵌入。一个三维点 ( x ) 被与变换嵌入拼接后输入到解码器中，以预测对应的 SDF 值。通过使用 marching cubes 生成网格，可以可视化输入图像和相应的学习到的形状表示。网格可以通过估计网格中三维点的 SDF 值来生成。

4. 主要贡献

– 我们提出了一种新颖的方法SABER，通过将形状预测以输入图像为条件，隐式地估计物体在嵌入空间中的6D姿态。

– 我们的网络可以处理没有对称标签的CAD模型，采用基于形状表示的方法。

5. 基本原理是啥？

形状表示学习 ：SABER 使用 DeepSDF（深度有符号距离函数）网络来学习物体在不同方向上的形状表示。这种表示方法使得模型能够捕捉到物体的几何特征，而这些特征在物体旋转时保持不变。
旋转嵌入学习 ：模型通过学习将物体的旋转嵌入到一个固定的空间中，这个空间不受物体对称性影响。这样，模型可以在嵌入空间中有效地处理物体的姿态而无需显式的对称标签。
隐式旋转估计 ：SABER 通过隐式的方式估计旋转，利用形状表示网络和图像数据进行姿态估计。由于隐式旋转估计模型的设计，使得它能够自然地处理对称物体，而不需要依赖对称标签。

6. 实验结果

Occlusion-LineMOD 数据集 ：SABER 在 Occlusion-LineMOD 数据集上接近于现有的最先进方法 SC6D。尽管 SC6D 在处理对称标签时表现略好，但 SABER 在处理严重遮挡情况下表现出强大的鲁棒性，达到了 0.55 的 AR 分数，与其他最先进的方法相当。
T-LESS 数据集 ：在 T-LESS 数据集上，SABER 的表现与 SC6D 相近。SABER 在处理无纹理和对称物体时表现良好，达到了较高的物体召回率（0.67），相比于 CosyPose 和 SurfEmb 表现更好，其中 SurfEmb 的推理时间为 2.2 秒，而 SABER 的推理时间仅为 30 毫秒。
LineMOD 数据集 ：SABER 在 LineMOD 数据集上的表现也接近最先进的方法 SC6D。尽管 SC6D 在对称标签处理上稍有优势，但 SABER 在不依赖对称标签的情况下依然取得了良好的结果。
性能差距 ：虽然 SABER 的表现接近 SC6D，但由于 SABER 需要在不同方向上重建物体，这比 SC6D 的旋转嵌入优化任务更具挑战。因此，SABER 在性能上略有差距。然而，SABER 具有较强的泛化能力，相较于 SurfEmb 和 SC6D，其能够处理更广泛的物体和场景。推荐学习：单目深度估计方法: 理论与实战
消融实验 ：消融实验表明，SABER 的两阶段管道（训练解码器和编码器）明显优于单阶段方法。形状损失函数的选择也显著影响了性能，其中 Signed Distance Function (SDF) 损失比 Chamfer 距离在本场景下表现更优。通过消融研究，SABER 的形状基础方法比基于对应关系的方法在没有对称先验的情况下表现更佳。

7. 总结 & 未来工作

在本文中，我们提出了一种新方法SABER，通过学习从图像输入中表示形状来估计隐式空间中的姿态。我们采用基于DeepSDF的形状表示网络来学习在各种方向上表示物体，这使我们能够在嵌入空间中学习姿态。旋转嵌入空间是通过利用形状和图像来学习的，这些形状和图像在对称性方面不会发生变化。采用隐式旋转估计模型使我们能够通过设计处理对称物体，而无需对称标签。我们在Occlusion-LineMOD和T-Less数据集上取得了接近最先进水平的成绩。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ，已沉淀6年，星球内资料包括： 秘制视频课程近20门