0. 论文信息
标题:6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting
作者:Yufeng Jin, Vignesh Prasad, Snehal Jauhri, Mathias Franzius, Georgia Chalvatzaki
机构:Computer Science Department, Technische Universitat Darmstadt, Germany、Honda Research Institute Europe GmbH, Offenbach, Germany、Hessian.AI, Darmstadt, Germany
原文链接:https://arxiv.org/abs/2412.01543
1. 导读
在诸如增强现实、自动驾驶和机器人等许多应用中,高效和准确的物体姿态估计是现代视觉系统的重要组成部分。虽然基于模型的6D物体姿态估计的研究已经提供了有希望的结果,但是在实时RGB-D视频流中渲染和推断任意物体的一致姿态的高计算负荷阻碍了无模型方法。为了解决这个问题,我们提出了6DOPE-GS,这是一种新的在线6D物体姿态估计和跟踪方法,通过有效地利用高斯分布的进步,使用单个RGB-D摄像机。由于Gaussian Splatting的快速微分渲染功能,6DOPE-GS可以同时优化6D对象姿势和3D对象重建。为了实现实时跟踪所需的效率和准确性,我们的方法使用增量2D高斯分布和智能动态关键帧选择程序来实现高空间对象覆盖率,并防止错误的姿态更新。我们还提出了基于不透明度统计的自适应高斯密度控制剪枝机制,以确保训练的稳定性和效率。我们在HO3D和YCBInEOAT数据集上评估了我们的方法,并表明6DOPE-GS在无模型同步6D姿态跟踪和重建方面与最先进的基线性能相匹配,同时提供了5×加速。我们还证明了该方法的适用性,生活,动态对象跟踪和重建在现实世界中的设置。
2. 效果展示
使用6DOPE-GS演示实时物体姿态跟踪和现实世界中的测试物体重建:一种使用高斯分形进行6D物体姿态估计和重建的新方法。顶部:物体随时间变化的6D姿态估计,底部:随时间变化的示例重建,使用2D高斯圆盘渲染物体的表面和外观。我们的方法能够在3.5Hz的频率下实现动态物体的实时姿态跟踪和高斯分形重建。
我们的方法6DOPE-GS的定性结果,在HO3D数据集的视频序列中测试,即AP13,MPM14,SB13和SM1(从上到下)左图:我们的方法以高准确性跟踪6D对象姿态随时间的变化。右图:6DOPE-GS有效地重建了对象的外观(行1和3)和表面几何(行2和4)随时间的变化。第一张图像显示序列开始时的初始重建,第二张图像显示随时间变化的精细重建。
3. 引言
针对我们三维世界的计算机视觉系统,预计将从静态场景和结构化多摄像头设置,向更具挑战性的现实世界应用发展。对物体进行精确跟踪和准确重建,能够捕获关键的空间和结构信息,这对于机器人操作、增强现实、自动化等下游任务至关重要。
无论是针对可见物体还是未见物体,大多数6D物体姿态估计和跟踪方法主要使用了基于模型的技术。一些方法在训练过程中使用从不同角度渲染的CAD模型,并在推理时进行特征匹配,以快速估计姿态。FoundationPose利用合成训练数据,使用CAD模型或一组带有物体姿态注释的参考图像,执行最先进的实例级姿态估计。值得注意的是,过去几年中,零样本、无模型方法取得了令人兴奋的进展。
推荐课程:
国内首个面向具身智能方向的理论与实战课程
。
BundleSDF以无模型的方式运行,通过同时学习一个3D符号距离场表示和一个全局姿态图优化,联合优化一个“神经物体场”和物体姿态。然而,尽管BundleSDF据报道具有接近实时的姿态优化能力(约10Hz),但神经物体场的训练远非实时,这限制了平均跟踪频率约为0.4Hz。与神经物体场训练相关的巨大计算开销阻碍了其在需要快速姿态更新的实时动态场景中的应用。
为解决这一限制,我们利用高斯溅射,它为实时应用提供了显著更高的计算效率。我们提出了一种通过高斯溅射进行在线6D物体姿态估计的新方法“6DOPE-GS”,该方法能够实现无模型、实时的物体跟踪和重建。基于高斯溅射在SLAM中的最新进展,6DOPE-GS通过观测到的关键帧联合优化物体姿态,并使用增量2D高斯溅射动态重建3D物体模型。我们提出了几种算法改进,以实现实时重建和跟踪所需的准确性、效率和训练稳定性。在准确性方面,我们的方法使用了一种新颖的动态关键帧选择机制,以优先考虑物体的空间覆盖范围和基于重建置信度的过滤,从而排除具有错误姿态估计的关键帧。为保持训练的稳定性和效率,我们提出了一种基于高斯不透明度统计的自适应高斯密度控制机制。我们的贡献在于显著提高了物体姿态估计和跟踪的速度,同时保持了高精度。特别是,我们在HO3D和YCB-Video数据集上对6DOPE-GS进行了评估,发现其性能与竞争基线相当,同时提供了5倍的速度提升。我们还展示了6DOPE-GS在真实场景中实时、动态地跟踪和重建物体的能力。据我们所知,我们是第一个方法,能够从单个RGB-D相机以3.5Hz的频率实时联合执行物体跟踪和高斯溅射重建。
4. 主要贡献
我们的贡献如下:
• 我们提出了一种新方法,有效地利用2D高斯溅射进行高效且准确的无模型6D物体姿态估计和重建。
• 我们利用计算高效的可微渲染高斯溅射,联合优化一个基于2D高斯溅射的“高斯物体场”以及观察到的关键帧的以物体为中心的姿态图,该图提供了准确、精细的关键帧姿态更新。
• 我们提出了一种基于关键帧集合空间覆盖范围和基于重建置信度的过滤机制的动态关键帧选择方法,以排除具有错误姿态估计的关键帧。
• 我们引入了一种基于不透明度百分位的新颖自适应高斯密度控制机制,以过滤掉“不重要”的高斯粒子,从而提高训练稳定性和计算效率。
5. 方法
我们提出了一种使用2D高斯溅射的表示能力进行实时6D物体姿态估计的新方法。图2展示了我们的方法的示意图。为了准确跟踪单个RGB-D相机捕获的物体的6自由度(6DoF)姿态,我们首先使用SAM2在第一帧中对物体进行分割,以确保在整个视频序列中进行精确的对象分割。在跨多个帧分割物体后,我们使用LoFTR建立点对应关系,并通过光束法平差(Bundle Adjustment)识别用于粗略姿态初始化的关键帧。然后,通过使用可微渲染的2D高斯联合优化,对这组初步粗略估计的关键帧进行细化,从而获得精确的姿态校正和改进的关键帧物体模型。为了提高生成的3D模型的质量,并随后实现更精确的姿态细化,我们提出了一种动态关键帧选择技术,该技术根据关键帧围绕物体的估计空间覆盖范围和重建准确性,选择用于优化2D高斯的最佳关键帧。在此阶段,我们迭代地使用一种新颖的修剪/自适应密度控制机制来稳定所需的高斯粒子数量,以在计算效率和重建准确性之间取得平衡。一旦联合优化收敛,所有关键帧姿态都将随后得到优化,并有助于指导在线姿态图优化,在每个后续时间步上连续细化物体姿态,以实现稳健和精确的跟踪。
6. 实验结果
7. 总结 & 限制性
在本文中,我们提出了一种名为“6DOPE-GS”的新方法,用于无模型的6D物体姿态估计与重建。该方法利用二维高斯溅射(Splatting),以迭代的方式联合优化物体姿态估计与三维重建。本方法高效性的关键在于提出了一种基于空间覆盖度的新颖动态关键帧选择机制,以及一种基于置信度的过滤机制来剔除错误的关键帧,随后采用基于不透明度百分比的自适应密度控制来修剪掉无关的高斯分布。这些贡献使得6DOPE-GS能够以计算高效的方式(加速约5倍)实现具有竞争力的性能,这一点已在HO3D和YCB-Video数据集上得到验证,成功地在动态跟踪场景中实现了速度、准确性和稳定性的实际平衡,且近乎实时。
然而,我们的工作仍存在一些不足,这些将是未来工作的重点。虽然高斯光栅化渲染具有高效率,并能快速修正小的平移和平面旋转误差,但与神经辐射场使用的可微光线投射相比,它在梯度计算方面存在局限性。在未来的工作中,我们旨在探索用于渲染高斯表示的光线投射方法,以同时提高性能和计算效率。另一个关键不足是,目前优化后的二维高斯模型本身并未用于在线姿态图优化,而是使用了优化后的姿态。在未来的工作中,我们还将探索如何更紧密地将训练好的物体表示与姿态图优化相结合。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球