专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

无需模型！快速又精准！6DOPE-GS：基于2D高斯点云的6D姿态估计！

3D视觉工坊 · 公众号 · · 2024-12-10 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种名为“6DOPE-GS”的新方法，用于无模型的6D物体姿态估计和重建。该方法通过2D高斯点云渲染（Gaussian Splatting）实现物体姿态估计和3D重建的联合优化，采用动态关键帧选择、基于置信度的关键帧过滤以及自适应密度控制等技术提高效率和精度。实验结果表明，6DOPE-GS在HO3D和YCBInEOAT数据集上展现了优异的性能，提供了速度、准确性和稳定性的平衡，适用于近实时动态追踪场景。文章还指出了一些当前方法的局限性，并提出了未来改进的方向，如利用光线投射渲染提高性能和进一步优化姿态图。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting

作者：Yufeng Jin, Vignesh Prasad等

作者机构：Technische Universit¨at Darmstadt等

论文链接：https://arxiv.org/pdf/2412.01543

2. 摘要

高效准确的物体姿态估计是现代视觉系统中许多应用（如增强现实、自动驾驶和机器人技术）的关键组成部分。尽管基于模型的6D物体姿态估计已取得了令人鼓舞的成果，但无模型方法在实时RGB-D视频流中渲染和推断任意物体一致姿态时，面临着高计算负担的挑战。为了解决这一问题，我们提出了6DOPE-GS，一种通过有效利用高斯溅射法进展实现的在线6D物体姿态估计与跟踪方法，该方法只需使用单个RGB-D摄像头。得益于高斯溅射法快速可微渲染的能力，6DOPE-GS可以同时优化6D物体姿态和3D物体重建。为了实现实时跟踪所需的效率和精度，我们的方法使用增量式2D高斯溅射法，并配合智能动态关键帧选择过程，以实现高空间物体覆盖率并防止错误的姿态更新。我们还提出了一种基于不透明度统计的剪枝机制，用于自适应高斯密度控制，以确保训练的稳定性和效率。我们在HO3D和YCBInEOAT数据集上评估了我们的方法，结果表明6DOPE-GS在无模型的同时6D姿态跟踪和重建方面与最先进的基准方法相当，同时提供了5倍的加速。我们还展示了该方法在真实环境中进行动态物体跟踪和重建的适用性。

3. 效果展示

我们的方法6DOPE-GS的定性结果在HO 3D数据集的视频序列上进行了测试，即AP 13，MPM 14，SB 13和SM 1（从上到下）。左侧：我们的方法随着时间的推移以高精度跟踪6D对象姿态，右：6DOPE-GS随着时间的推移有效地重建对象的外观（第1行和第3行）和表面几何形状（第2行和第4行）。第一幅图像显示了序列开始时的初始重建，第二幅图像显示了随时间推移的精细重建。

使用我们的方法进行不同消融的对象重建示例。

4. 主要贡献

我们提出了一种新颖的方法，通过有效利用2D高斯溅射法实现高效且准确的无模型6D物体姿态估计和重建。
我们利用高斯溅射法的计算高效可微渲染，联合优化基于2D高斯溅射法的“高斯物体场”以及从观察到的关键帧中得到的物体中心姿态图，提供准确的、精细化的关键帧姿态更新。推荐课程：扩散模型入门教程：数学原理、方法与应用。
我们提出了一种基于关键帧空间覆盖的动态关键帧选择方法和基于重建置信度的过滤机制，排除姿态估计错误的关键帧。
我们结合了一种新颖的基于不透明度百分位的自适应高斯密度控制机制，筛选出“无关”高斯，从而提高训练稳定性和计算效率。

5. 基本原理是啥？

6DOPE-GS 的基本原理是通过2D高斯点云渲染（Gaussian Splatting）方法，联合优化物体的6D姿态估计和3D重建：

高斯点云渲染 ：使用高斯点云来表示物体的3D形状，并将其渲染到2D图像中。这种渲染方式能够高效地处理物体的外观和几何信息，尤其是在细小平移和旋转误差的优化上表现出色。
动态关键帧选择 ：通过空间覆盖的方式选择关键帧，以确保优化过程中关注最有代表性的视角，减少不重要视角的干扰。
置信度过滤机制 ：基于置信度评估去除错误的关键帧，从而避免不准确的帧影响最终的优化结果。
自适应密度控制 ：使用基于透明度百分位的自适应密度控制来剪枝不重要的高斯点，减少计算量并提高效率。

6. 实验结果

在实验中，6DOPE-GS 方法展示了优越的性能，特别是在 YCBInEOAT 和 HO3D 数据集上的表现：

与现有方法的比较 ：

6DOPE-GS 在 YCBInEOAT 数据集上超过了先前的基于 SLAM 的方法以及 BundleTrack 。尽管该数据集中的物体运动较平滑，且视角变化较少，导致大部分方法的表现相似，6DOPE-GS 在重建精度上表现出更好的结果，能够达到亚厘米级别的重建精度。
在 HO3D 数据集上，6DOPE-GS 的表现比 BundleSDF 更好，特别是在 ADD-symmetric 分数上。虽然绝对分数上存在一定差距，但该差距主要源于不同的渲染管道和姿态估计的梯度更新方式。6DOPE-GS 在处理具有大范围旋转运动和手部遮挡的复杂场景时表现得更为稳定。

时间效率 ：

6DOPE-GS 在处理速度上表现优异，与其他方法相比，其处理速度快了大约 5 倍。在 HO3D 数据集上的测试中，6DOPE-GS 显示了一个较好的平衡，能够在不牺牲精度的情况下，提供更快的计算速度。
与 BundleSDF 的同步版本相比，6DOPE-GS 提供了更高效的计算速度，而不需要进行多线程的同步操作，从而提高了实时性。

消融实验 ：

通过对比不同设计选择，实验结果显示动态关键帧选择和基于透明度百分位的自适应密度控制对性能有显著提升。去除这些特性会导致重建精度下降，尤其是在存在较大旋转和遮挡的情况下。
通过对比不同的消融版本，最终的6DOPE-GS方法在3D重建中表现出最好的性能，特别是在处理复杂场景（如带有大遮挡的物体）时能够有效地提高精度。

7. 总结 & 未来工作

本文提出了“6DOPE-GS”，一种新颖的无模型6D物体姿态估计和重建方法，利用2D高斯点云渲染（Gaussian Splatting）以迭代的方式联合优化物体姿态估计和3D重建。我们方法高效性的关键在于提出了一种基于空间覆盖的动态关键帧选择机制，以及一种基于置信度的过滤机制来去除错误的关键帧，接着采用基于透明度分位数的自适应密度控制来修剪不重要的高斯点。通过这些创新，6DOPE-GS在HO3D和YCBInEOAT数据集上展示了具有竞争力的性能，并且以计算高效的方式（约提高5倍的速度）成功地捕捉到了速度、准确性和稳定性在近实时动态追踪场景中的平衡。然而，我们的方法仍然存在一些不足，未来的工作将针对这些问题进行改进。虽然高斯栅格化渲染能够提供高效率，并快速修正小的平移和面内旋转误差，但与神经辐射场（NeRF）中使用的可微光线投射相比，它在梯度计算上存在一定的局限性。未来的工作中，我们计划探索利用光线投射渲染高斯表示，这将提升性能和计算效率。另一个关键不足是，目前优化后的2D高斯模型并未用于在线姿态图优化，而是直接优化姿态。未来的工作中，我们还将探索如何将训练的物体表示与姿态图优化紧密耦合。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。