专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

单张RGB即可完成6D姿态估计！ScoreNet与Mean Shift结合的SOTA！

3D视觉工坊 · 公众号 · · 2025-01-19 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种基于RGB图像的类别级物体姿态估计方法，利用得分生成模型（ScoreNet）生成多个姿态假设，并通过 均值漂移 （Mean Shift）算法从中获取最大似然估计，作为最终的物体姿态预测。该方法能够有效捕捉物体的多种可能姿态，并在类别级物体姿态估计中达到了最先进的性能。通过与现有方法对比，实验结果表明该方法在旋转、平移误差和3D IoU指标上均有显著提高。文章还展示了该方法能够在少量修改下扩展到物体跟踪任务。此外，作者通过消融实验分析了不同组件对性能的影响，并提出未来可以通过加速扩散模型、优化深度和法线预测等方向进一步提升性能。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：Progressive Boundary Guided Anomaly Synthesis for Industrial Anomaly Detection

作者：Qiyu Chen, Huiyuan Luo等

作者机构：Chinese Academy of Sciences

论文链接：https://arxiv.org/pdf/2412.17458

2. 摘要

从图像中估计物体的6D姿态和3D尺寸是计算机视觉中的一项基础任务。目前的大多数方法都局限于已知模型的特定实例，或者需要真实深度信息或来自LIDAR的点云数据。我们解决了一个更具挑战性的问题，即从单张RGB图像中估计类别级别物体的姿态。我们提出了一种新颖的解决方案，消除了对特定物体模型或深度信息的需求。我们的方法利用基于分数的扩散模型生成物体姿态假设，以建模物体可能姿态的分布。与依赖于昂贵的训练过的似然估计器在姿态聚合之前去除离群点的传统方法不同，我们提出了一种更简单的方法，使用均值迁移（Mean Shift）来估计分布的峰值，并将其作为最终的姿态估计。我们的办法在REAL275数据集上的表现显著优于当前的最先进方法。

3. 效果展示

我们的方法在REAL275数据集上的定性结果。

4. 主要贡献

我们提出了第一个基于RGB的类别级物体姿态和尺寸估计框架，通过使用去噪扩散模型建模姿态分布来解决多假设问题。
我们提出了一种更简单、更高效的计算方法，通过基于分数的扩散模型采样的姿态假设来估计物体的姿态和尺寸。
我们的方法在现有的RGB基础类别级物体姿态估计方法上取得了显著的改进，并在REAL275基准上设定了新的SOTA。

5. 基本原理是啥？

基于评分的生成模型 (Score-based Generative Model) ：

论文提出使用评分生成模型（ScoreNet）来进行物体姿态估计。生成模型通过学习物体姿态的概率分布，能够生成多个可能的姿态假设。
评分生成模型通过训练一个神经网络来估计物体姿态的分布，即不同姿态的可能性。该模型生成的多个姿态假设表示了物体可能的不同姿态。

姿态假设的生成与建模 ：

通过评分生成模型，论文生成多个物体姿态的假设，这些假设表示物体姿态的概率分布。每个假设对应一个可能的物体姿态。
这些姿态假设不是单一的，而是多个不同的候选姿态，通过这种方式，模型能够捕捉物体姿态的多样性。推荐课程：国内首个面向具身智能方向的理论与实战课程。

均值漂移 (Mean Shift) 算法 ：

在生成了多个物体姿态假设后，论文使用均值漂移算法（Mean Shift）来从这些假设中找到最优解，获得最大似然估计作为最终的物体姿态。
均值漂移是一种基于密度估计的聚类算法，用于在多个假设中找到最佳的姿态解。

最先进的表现 (State-of-the-Art Performance) ：

该方法在RGB图像上进行类别级物体姿态估计，并且取得了当前最先进的表现（SOTA）。这意味着与现有方法相比，论文提出的算法在准确度和效率上都有显著的提升。

物体追踪的应用 ：

论文还展示了该方法在物体追踪任务中的应用，尽管方法是从单视角姿态估计方法直接适配而来，但仍能提供较强的基线。
通过在多个连续帧中使用先前帧的姿态假设，方法能够进行类别级物体的追踪。

局限性与未来改进 ：

生成姿态假设的过程计算开销较大，论文提到可以通过加速扩散模型和在采样过程中进行主动的姿态过滤来提高运行效率和性能。
方法的精度依赖于深度和法线预测的质量，未来的工作将致力于减少这一影响。
另外，未来的工作还将拓展姿态追踪框架，整合跨视角的信息，解决尺度模糊问题。

6. 实验结果

4.1 数据集

实验在两个用于6D类别级物体姿态估计的基准数据集上进行，这两个数据集是 NOCS 提出的： CAMERA 和 REAL275 。

CAMERA 数据集：该数据集包含使用物体的CAD模型在真实背景图像上生成的合成图像，共有 275K 张训练图像和 25K 张测试图像。数据集包含6个常见物体类别：瓶子、碗、相机、罐头、笔记本电脑和杯子。
REAL275 数据集：该数据集包含6个物体类别中的每个类别的3个独特实例，所有实例均来自真实场景，并且每个场景包含至少5个物体。该数据集包含4300张训练图像和2750张测试图像。

4.2 评估指标

为了评估我们物体姿态和大小估计方法的性能，采用与 NOCS [31] 相同的指标：

mAP （平均精度）和 3D IoU （三维交并比）在不同的阈值下，分别用于评估姿态的准确度。
姿态的旋转误差以度为单位，平移误差以厘米为单位。如果旋转误差小于设定阈值（如 10°）且平移误差小于设定阈值（如 10cm），则认为该姿态是正确的。
对于3D IoU，采用50%和75%两个阈值，计算真实三维边界框与估计的三维边界框之间的IoU。
对于瓶子、碗和罐头等对称物体，旋转误差绕对称轴进行忽略。对于杯子，只有在手柄不可见时才会进行对称评估。

4.3 与现有方法的比较

表1展示了我们提出的方法与现有最先进方法（SOTA）在 REAL275 数据集上进行RGB类别级物体姿态估计的定量比较结果。

方法对比 ：

Ours ：使用 ScoreNet 生成50个姿态假设后，通过 Mean Shift 算法得出最终的姿态估计。
Ours - NG ：不使用全局特征。
Ours - NC ：不使用类别ID。
Ours - NGR ：只将全局特征提供给平移和尺寸头部。
Ours - S ：通过选择最接近真实姿态的姿态假设进一步优化结果。

定量结果 ：

在 REAL275 数据集上，我们的方法在旋转和翻译指标上分别提高了14%和52%。
在更严格的 10° 10cm 指标上，我们提高了55%。
在3D IoU指标上，我们的方法比 DMSR 提高了60%的 IoU50 ，并且在更严格的 IoU75 指标上提高了18%。
在 CAMERA 数据集上，我们的方法旋转准确度提高了5%。

全局特征和类别ID的作用 ：

在去除全局特征和类别ID时，翻译精度有所下降（除了 CAMERA 数据集中的全局特征部分），说明这些特征对于物体尺度的确定具有重要作用。
在 CAMERA 数据集中的翻译精度提升，可能是由于该数据集的合成图像场景与真实图像的上下文不一致，导致全局特征在某些场景中不准确。

对称物体的表现 ：

对称物体（如瓶子、碗、罐头等）的旋转误差通常仅在对称轴上与真实值有所差异，这表明我们的模型能够捕捉到物体可能的多种姿态。

4.4 消融实验

4.4.1 使用预测的度量深度 ：

将 GenPose 中的点云替换为使用 SOTA 度量深度估计器（ UniDepth ）生成的点云，结果表现较差，甚至不如 DMSR 。
尽管旋转预测与 DMSR 相当，但翻译的表现显著较差，原因是尺度估计误差较大。

4.4.2 姿态假设的数量 ：

通过对 REAL275 数据集上的 10° 10cm 指标进行实验，探索了所需的姿态假设数量。
最大的性能提升来自1个假设到10个假设，表明多个假设对于准确建模姿态分布非常重要。增加到50个假设后，性能进一步提升，但增加到100个假设没有进一步提升，表明50个假设已足以充分建模姿态分布。

4.4.3 均值漂移的有效性 ：

对比不同的姿态聚合和预测策略，实验表明 Mean Shift 方法优于 EnergyNet ，且速度几乎是后者的两倍。
对于 ScoreNet ，均值池化（Mean Pooling）的方法仅比 Mean Shift 略差，但速度相同。进一步使用 GenPose 替换 EnergyNet 后， Mean Shift 获得了15%的加速，同时仅在 5° 2cm 指标上性能下降了1%。

4.5 类别级物体姿态跟踪

姿态跟踪方法 ：

由于 ScoreNet 生成的姿态假设具有迭代特性，使得我们的方法可以很容易地适应类别级物体姿态跟踪任务。
对 REAL275 数据集上的跟踪结果进行评估，方法从纯高斯噪声开始估计第一帧的姿态，但在后续帧中，我们从前一帧的姿态假设开始。
结果表明，尽管我们的方法是从单视角预测方法直接适配的，但它仍为类别级物体姿态跟踪提供了强有力的基线。与 GenPose 的主要区别在于翻译误差，因为尺度模糊问题可以通过利用多个视角来解决。

7. 总结 & 未来工作

我们提出了一种基于RGB的类别级物体姿态估计方法，利用基于评分的生成模型生成多个姿态假设。这些姿态假设建模了可能物体姿态的概率分布，因此我们使用均值漂移（Mean Shift）方法从分布中获得最大似然估计，作为最终的姿态估计。我们的方法在RGB基于的类别级物体姿态估计中达到了当前的最先进水平（SOTA）。此外，我们展示了我们的方法在最小调整的情况下执行物体追踪的能力。与其他扩散模型一样，姿态假设的生成过程成本较高，因此，利用加速扩散模型的进展，并在采样过程中主动过滤姿态，可以提高运行速度和性能。此外，我们的方法依赖于预测深度和法线的质量，因此未来的工作将着重于最小化这一影响。未来的额外工作还包括扩展姿态追踪框架，以整合跨视角的信息，帮助解决尺度模糊问题。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、