专栏名称: 新机器视觉

最前沿的机器视觉与计算机视觉技术

5倍加速！6DOPE-GS：在线6D物体位姿估计新纪录！

新机器视觉 · 公众号 · 互联网安全科技自媒体 · 2024-12-31 16:16

主要观点总结

本文介绍了一种名为6DOPE-GS的新方法，用于无模型的在线6D物体姿态估计和跟踪。该方法利用二维高斯溅射，通过有效地利用高斯分布的进步，实现物体姿态的实时跟踪和重建。文章详细描述了方法的关键点，包括动态关键帧选择机制、基于不透明度百分比的自适应高斯密度控制等。在HO3D和YCB-Video数据集上的实验结果表明，6DOPE-GS具有匹配最先进基线性能的同时，提供了5倍加速。然而，文章也指出了未来工作的方向，如探索用于渲染高斯表示的光线投射方法，以及更紧密地将训练好的物体表示与姿态图优化相结合。

关键观点总结

关键观点1: 新方法介绍

文章提出了一种名为6DOPE-GS的新方法，用于无模型的在线6D物体姿态估计和跟踪。

关键观点2: 技术原理

6DOPE-GS利用二维高斯溅射，通过有效地利用高斯分布的进步，实现物体姿态的实时跟踪和重建。

关键观点3: 关键机制

文章介绍了动态关键帧选择机制和基于不透明度百分比的自适应高斯密度控制等关键机制，以提高姿态估计和跟踪的准确性和效率。

关键观点4: 实验结果

在HO3D和YCB-Video数据集上的实验结果表明，6DOPE-GS具有匹配最先进基线性能的同时，提供了5倍加速。

关键观点5: 未来工作方向

文章指出了未来工作的方向，包括探索用于渲染高斯表示的光线投射方法，以及更紧密地将训练好的物体表示与姿态图优化相结合。

正文

来源：3D视觉工坊

0. 论文信息

标题：6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting

作者：Yufeng Jin, Vignesh Prasad, Snehal Jauhri, Mathias Franzius, Georgia Chalvatzaki

机构：Computer Science Department, Technische Universitat Darmstadt, Germany、Honda Research Institute Europe GmbH, Offenbach, Germany、Hessian.AI, Darmstadt, Germany

原文链接：https://arxiv.org/abs/2412.01543

1. 导读

在诸如增强现实、自动驾驶和机器人等许多应用中，高效和准确的物体姿态估计是现代视觉系统的重要组成部分。虽然基于模型的6D物体姿态估计的研究已经提供了有希望的结果，但是在实时RGB-D视频流中渲染和推断任意物体的一致姿态的高计算负荷阻碍了无模型方法。为了解决这个问题，我们提出了6DOPE-GS，这是一种新的在线6D物体姿态估计和跟踪方法，通过有效地利用高斯分布的进步，使用单个RGB-D摄像机。由于Gaussian Splatting的快速微分渲染功能，6DOPE-GS可以同时优化6D对象姿势和3D对象重建。为了实现实时跟踪所需的效率和准确性，我们的方法使用增量2D高斯分布和智能动态关键帧选择程序来实现高空间对象覆盖率，并防止错误的姿态更新。我们还提出了基于不透明度统计的自适应高斯密度控制剪枝机制，以确保训练的稳定性和效率。我们在HO3D和YCBInEOAT数据集上评估了我们的方法，并表明6DOPE-GS在无模型同步6D姿态跟踪和重建方面与最先进的基线性能相匹配，同时提供了5×加速。我们还证明了该方法的适用性，生活，动态对象跟踪和重建在现实世界中的设置。

2. 效果展示

使用6DOPE-GS演示实时物体姿态跟踪和现实世界中的测试物体重建:一种使用高斯分形进行6D物体姿态估计和重建的新方法。顶部:物体随时间变化的6D姿态估计，底部:随时间变化的示例重建，使用2D高斯圆盘渲染物体的表面和外观。我们的方法能够在3.5Hz的频率下实现动态物体的实时姿态跟踪和高斯分形重建。

我们的方法6DOPE-GS的定性结果，在HO3D数据集的视频序列中测试，即AP13，MPM14，SB13和SM1(从上到下)左图:我们的方法以高准确性跟踪6D对象姿态随时间的变化。右图:6DOPE-GS有效地重建了对象的外观(行1和3)和表面几何(行2和4)随时间的变化。第一张图像显示序列开始时的初始重建，第二张图像显示随时间变化的精细重建。

3. 引言

针对我们三维世界的计算机视觉系统，预计将从静态场景和结构化多摄像头设置，向更具挑战性的现实世界应用发展。对物体进行精确跟踪和准确重建，能够捕获关键的空间和结构信息，这对于机器人操作、增强现实、自动化等下游任务至关重要。

无论是针对可见物体还是未见物体，大多数6D物体姿态估计和跟踪方法主要使用了基于模型的技术。一些方法在训练过程中使用从不同角度渲染的CAD模型，并在推理时进行特征匹配，以快速估计姿态。FoundationPose利用合成训练数据，使用CAD模型或一组带有物体姿态注释的参考图像，执行最先进的实例级姿态估计。值得注意的是，过去几年中，零样本、无模型方法取得了令人兴奋的进展。推荐课程：国内首个面向具身智能方向的理论与实战课程。

BundleSDF以无模型的方式运行，通过同时学习一个3D符号距离场表示和一个全局姿态图优化，联合优化一个“神经物体场”和物体姿态。然而，尽管BundleSDF据报道具有接近实时的姿态优化能力（约10Hz），但神经物体场的训练远非实时，这限制了平均跟踪频率约为0.4Hz。与神经物体场训练相关的巨大计算开销阻碍了其在需要快速姿态更新的实时动态场景中的应用。

为解决这一限制，我们利用高斯溅射，它为实时应用提供了显著更高的计算效率。我们提出了一种通过高斯溅射进行在线6D物体姿态估计的新方法“6DOPE-GS”，该方法能够实现无模型、实时的物体跟踪和重建。基于高斯溅射在SLAM中的最新进展，6DOPE-GS通过观测到的关键帧联合优化物体姿态，并使用增量2D高斯溅射动态重建3D物体模型。我们提出了几种算法改进，以实现实时重建和跟踪所需的准确性、效率和训练稳定性。在准确性方面，我们的方法使用了一种新颖的动态关键帧选择机制，以优先考虑物体的空间覆盖范围和基于重建置信度的过滤，从而排除具有错误姿态估计的关键帧。为保持训练的稳定性和效率，我们提出了一种基于高斯不透明度统计的自适应高斯密度控制机制。我们的贡献在于显著提高了物体姿态估计和跟踪的速度，同时保持了高精度。特别是，我们在HO3D和YCB-Video数据集上对6DOPE-GS进行了评估，发现其性能与竞争基线相当，同时提供了5倍的速度提升。我们还展示了6DOPE-GS在真实场景中实时、动态地跟踪和重建物体的能力。据我们所知，我们是第一个方法，能够从单个RGB-D相机以3.5Hz的频率实时联合执行物体跟踪和高斯溅射重建。

4. 主要贡献

我们的贡献如下：

• 我们提出了一种新方法，有效地利用2D高斯溅射进行高效且准确的无模型6D物体姿态估计和重建。

• 我们利用计算高效的可微渲染高斯溅射，联合优化一个基于2D高斯溅射的“高斯物体场”以及观察到的关键帧的以物体为中心的姿态图，该图提供了准确、精细的关键帧姿态更新。

• 我们提出了一种基于关键帧集合空间覆盖范围和基于重建置信度的过滤机制的动态关键帧选择方法，以排除具有错误姿态估计的关键帧。

• 我们引入了一种基于不透明度百分位的新颖自适应高斯密度控制机制，以过滤掉“不重要”的高斯粒子，从而提高训练稳定性和计算效率。

5. 方法

我们提出了一种使用2D高斯溅射的表示能力进行实时6D物体姿态估计的新方法。图2展示了我们的方法的示意图。为了准确跟踪单个RGB-D相机捕获的物体的6自由度（6DoF）姿态，我们首先使用SAM2在第一帧中对物体进行分割，以确保在整个视频序列中进行精确的对象分割。在跨多个帧分割物体后，我们使用LoFTR建立点对应关系，并通过光束法平差（Bundle Adjustment）识别用于粗略姿态初始化的关键帧。然后，通过使用可微渲染的2D高斯联合优化，对这组初步粗略估计的关键帧进行细化，从而获得精确的姿态校正和改进的关键帧物体模型。为了提高生成的3D模型的质量，并随后实现更精确的姿态细化，我们提出了一种动态关键帧选择技术，该技术根据关键帧围绕物体的估计空间覆盖范围和重建准确性，选择用于优化2D高斯的最佳关键帧。在此阶段，我们迭代地使用一种新颖的修剪/自适应密度控制机制来稳定所需的高斯粒子数量，以在计算效率和重建准确性之间取得平衡。一旦联合优化收敛，所有关键帧姿态都将随后得到优化，并有助于指导在线姿态图优化，在每个后续时间步上连续细化物体姿态，以实现稳健和精确的跟踪。