专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

提升20%！复杂遮挡&高反射&纹理缺失物体姿态估计的核心解决策略！

3D视觉工坊 · 公众号 · · 2024-12-17 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种新颖的方法，通过建模物体姿态、遮挡和估计误差之间的关系，并有针对性地生成新的训练数据，从而提升在纹理缺失物体上的姿态估计性能。通过在 ROBI 和 T-LESS 数据集上进行实验，展示了该方法在处理复杂遮挡和高反射物体时的显著优势。实验结果表明，使用这种方法可以提高物体姿态估计的正确检测率（CDR）达到 **20%**，并显著减少失败案例。此外，该方法还能够通过遮挡采样处理更为复杂的场景，在与现有方法的对比中，表现出更高的准确性和鲁棒性。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：基于估计姿态和遮挡误差的目标硬样本合成改进的目标姿态估计

作者：Alan Li and Angela P. Schoellig

作者机构：University of Toronto

论文链接：https://arxiv.org/pdf/2412.04279

2. 摘要

6D物体姿态估计是机器人技术中的一个基础组成部分，它能够实现与环境的高效互动。在箱内抓取应用中尤为具有挑战性，因为物体可能没有纹理且处于困难的姿态，而且相同类型物体之间的遮挡可能导致即便是经过充分训练的模型也出现混淆。我们提出了一种新颖的难样本合成方法，该方法不依赖于特定模型，利用现有模拟器和姿态误差建模，涵盖了相机到物体视球和遮挡空间的误差。通过评估模型在物体姿态和遮挡分布方面的表现，我们发现了高误差区域，并生成了针对这些区域的真实训练样本。通过这种训练方法，我们展示了使用最先进的姿态估计模型，在多个ROBI数据集物体上的正确检测率提高了最多20%。

3. 效果展示

使用随机箱(蓝色)生成的训练数据的位姿分布图与使用我们的方法生成的目标训练数据(红色)的图。我们的方法对物体不太常见的侧视图实现了更高的覆盖。

原始模型(左)和用我们的方法训练的模型(右)的视图和遮挡空间关键点误差。

4. 主要贡献

我们从训练集中开发了一种新的遮挡模型，该模型基于被遮挡的物体部分来模拟预期的检测误差，从而根据误差和可能性采样新的遮挡。该模型用于将生成的样本扩展为难例，以进一步训练特定类型的遮挡。
我们开发了一种方法，在箱内环境中合成逼真的新样本，给定所需的物体姿态和遮挡区域，从而提供一种在输入姿态空间中的目标区域生成新难例的方式。推荐课程：彻底搞懂大模型数学基础剖析、原理与代码讲解
我们通过一个持续学习过程展示了我们方法的有效性，在每个训练周期更新姿态误差分布，并基于更新后的误差分布生成新样本，表现优于静态训练集方法——收敛速度提高了最多30%，整体正确检测率提高了最多20%。

5. 基本原理是啥？

物体姿态、遮挡与估计误差的关系建模 ：该方法通过建模物体的姿态、遮挡以及估计误差之间的关系，解决了在难度较高的无纹理物体上进行姿态估计的问题。具体来说，通过理解这些因素如何影响姿态估计，可以有效地指导模型在面对不同姿态和遮挡条件时的学习过程。
有针对性地生成新的训练数据 ：通过模拟不同的物体姿态和遮挡情况，针对性地生成新的训练数据，从而增强模型的鲁棒性。这些新生成的数据能覆盖更多困难的场景，比如有较强遮挡或不常见的姿态，从而帮助模型更好地泛化。
合成数据与现实数据的结合 ：方法中使用了合成的模拟数据进行训练，并通过合成数据的多样性补充了真实世界中难以获得的样本。通过这种方式，训练过程中出现的失败案例在很大程度上可以通过合成数据进行修正，尤其是在真实场景中的应用效果也得到了显著提升。

6. 实验结果

ROBI 数据集上的实验结果 ：

在 ROBI 数据集 上，该方法通过生成合成数据来训练模型，并结合物体姿态、遮挡和估计误差的关系，显著提高了 CDR（Correct Detection Rate） 。在该数据集上，模型的表现提升了 **20%**，即模型在检测可见物体时，正确估计姿态的概率大幅增加。
ROBI 数据集 包含 63 个箱体拣选场景，其中每个场景由 Ensenso N35 立体深度传感器捕捉，数据包括 88 张 RGB 图像和深度图，并附有准确的物体 6D 姿态标注和可见性评分。该数据集中的物体金属反光且具有不同对称性，具有较高的难度。
实验表明，通过采用合成数据生成的训练方法，模型在真实场景中的失败案例大大减少。特别是在有遮挡或反射引起深度数据缺失的情况中，模型能更加鲁棒地进行姿态估计。

T-LESS 数据集上的实验结果 ：

在 T-LESS 数据集 上，使用 T-LESS 箱体拣选场景 ，该方法的表现提高了 **10%**。在这项实验中，训练样本数量保持不变，仍然是通过生成方法获得的合成数据。
T-LESS 数据集 是一个广泛使用的用于姿态估计的数据集，包含各种不同物体和复杂的场景。通过对物体姿态和遮挡情况的有针对性建模，该方法在拣选场景中有效提高了模型的性能，尤其是在处理高度对称、金属反光物体时，减少了姿态估计错误。

与基础模型的对比 ：

该方法与多个现有的基准方法进行了比较，包括 FoundationPose 和 GDRNPP 。结果表明，采用该方法的模型在多个场景中表现更为优越，尤其是在处理 Eye Bolt 、 Screw 和 D-Sub 等具有较大领域差异的物体时，表现得更为精准。
相比于传统的 DC-Net 、 MP-AAE 和 Sim2Real 等方法，本文提出的方法在面对不同姿态和遮挡的挑战时，具有更高的准确性和鲁棒性。

T-LESS 数据集子集的消融实验 ：

为了进一步验证方法的有效性，作者还使用了 T-LESS 数据集 中的一个子集—— Scene 20 ，该子集包含更高难度的姿态和更复杂的遮挡条件。实验结果表明，基于该方法生成的目标训练数据，能够显著缩小与基准数据集之间的性能差距，甚至在某些场景中表现得更为优越。

遮挡采样的重要性 ：

通过遮挡采样，网络能够处理更复杂的遮挡情况。例如，在 Eye Bolt 物体的测试中，即使物体被其他物体遮挡或发生重叠，网络也能够准确地进行物体分割和姿态估计。相比之下，传统模型无法处理这些复杂的遮挡情况。

与高对称性物体的性能差异 ：

在测试 Tube Fitting 和 Gear 等高对称性物体时，原始 PVNet 模型表现较差，主要是因为该模型在处理高度对称物体时存在一定的不足。然而，本文提出的方法在这些物体上展现出了明显的性能提升。

性能改进与计算开销 ：

通过有针对性地生成新数据，训练过程的总时间增加了约 **50%**，从 8 小时 增加到 12 小时 ，但这仍在可接受范围内，并且该方法能够显著提升模型的表现。

7. 总结 & 未来工作

我们的方法使得基线模型在与FoundationPose的竞争中表现出色，尤其在Eye Bolt、Screw和D-Sub物体上，超过了FoundationPose的表现，这些物体在物体模型与真实物体之间存在较大的领域差异。结果还显示，不仅在合成验证数据上，甚至在真实领域的测试集上，失败案例的数量也大幅减少。这表明，探索和合成方法在减少失败案例方面是有效的，并且这些失败案例跨领域出现，在真实领域中，通过仅在合成领域等效物体上进行训练，也能大幅减少失败案例。

图6展示了通过随机生成的合成零件箱体训练数据与我们方法生成的姿态分布之间的差异。注意到，随机分布主要集中在物体平躺时的稳定姿态附近，而我们的方法生成了更多侧视图姿态，尽管这些姿态较为稀有，但对于网络估计来说更加困难。遮挡采样的重要性可以从图9中看出，在遇到困难遮挡时，网络能够完全分割出眼螺栓物体，甚至在物体被另一个物体切割的情况下也能处理，而原始模型以及仅用姿态采样训练的模型无法做到这一点。在Tube Fitting和Gear物体中，原始基于PVNet的网络性能明显较差，这可能与该网络处理高对称度物体的方式有关，但我们的方法仍然展示了显著的性能提升。

尽管我们未能在FoundationPose或当前BOP挑战赛的领先模型GPose2023上测试我们的方法，因为他们尚未发布训练代码，但我们预期在箱体拣选场景中会有类似的性能提升，这与我们使用GDRNPP作为基准模型进行的实验结果一致，原因是它们采用了类似的基线数据生成技术，即均匀和随机姿态采样。

我们认识到，我们的评估主要针对无纹理物体的箱体拣选场景；在对所有T-LESS场景进行评估时，我们方法的改进更为适度，约为3.8%。这可能是因为其他场景具有较容易的、常见的姿态，较少的遮挡以及更多样化和有纹理的物体，而这些场景可能从我们的训练方法中受益较少。

本文的主要贡献是提出了一种新方法，通过建模物体姿态、遮挡和估计误差之间的关系，并有针对性地生成新的训练数据，从而提升在困难无纹理物体上的姿态估计模型训练效果。我们在ROBI数据集上实现了最高20%的正确检测率（CDR）提升，在T-LESS箱体拣选场景中使用相同数量的训练样本时，提升了10%。这些训练样本均通过我们的方法生成。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等