专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

ECCV'24开源 | 又快又好！6DGS重新定义6D物体位姿估计！

3D视觉工坊 · 公众号 · · 2024-07-25 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

我们的6DGS方法摒弃了传统的分析与合成方法。基于标准NeRF的方法采用迭代过程，渲染候选姿态并在更新姿态之前与目标图像进行比较。相比之下，6DGS通过选择从椭球面（辐射椭球单元）投射出的一束射线，并学习一个注意力图来输出射线/图像像素对应关系（基于DINOv2），从而估计相机姿态。最优射线束应相交于相机的光心，然后用于以封闭形式估计相机旋转。我们的6GDS方法在精度和速度方面均有显著提升，能够实现一次性估计恢复姿态。

下面一起来阅读一下这项工作~

1. 论文信息

标题：6DGS: 6D Pose Estimation from a Single Image and a 3D Gaussian Splatting Model

作者：Matteo Bortolon, Theodore Tsesmelis, Stuart James, Fabio Poiesi, Alessio Del Bue

原文链接：https://arxiv.org/abs/2407.15484v1

代码链接：https://github.com/mbortolon97/6dgs

官方主页：https://mbortolon97.github.io/6dgs/

2. 摘要

我们提出了6DGS（六自由度高斯溅射）方法，该方法利用代表场景的3D高斯溅射（3DGS）模型来估计目标RGB图像的相机姿态。6DGS避免了分析与合成方法（如iNeRF）中常见的迭代过程，这些方法还需要初始化相机姿态以实现收敛。相反，我们的方法通过反转3DGS渲染过程来估计六自由度姿态。从物体表面开始，我们定义了一个辐射椭球单元（Ellicell），该单元从参数化3DGS模型的每个椭球体中均匀发出射线。每个椭球单元射线都与每个椭球体的渲染参数相关联，这些参数进而用于获取目标图像像素与投射射线之间的最佳绑定。然后对这些像素-射线绑定进行排序，以选择得分最高的射线束，其交点即为相机中心，进而确定相机旋转。所提出的方法无需“先验”姿态进行初始化，并以封闭形式解决了六自由度姿态估计问题，无需迭代。此外，与现有的用于姿态估计的新视角合成（NVS）基线相比，尽管6DGS不需要任何初始化姿态，但在真实场景上，其整体平均旋转精度可提高12%，平移精度可提高22%。同时，我们的方法接近实时运行，在消费级硬件上可达到每秒15帧的速度。

3. 效果展示

4. 主要贡献

我们在包含现实世界物体和场景的数据集上评估了6DGS，并与当前的新视角合成（NVS）最先进方法（如iNeRF、Parallel iNeRF和NeMO + VoGE）进行了比较。实验结果表明，6DGS具有竞争力，特别是在未提供“先验”初始姿态的情况下。最后，我们在消费级硬件上实现了接近实时的六自由度姿态估计，这是基于NVS的相机姿态估计方法在实际应用中的一个相当具有挑战性的限制。总之，6DGS的贡献有三方面：

——我们的六自由度相机姿态估计方法消除了分析与合成方法中通常需要的初始相机姿态和迭代收敛过程；

——6DGS采用了一种新颖的射线投射管道，即辐射椭球单元，以及一种基于注意力的机制，该机制能够高效地将像素级图像信息与3DGS椭球体进行匹配；

——所提出的方法在NVS基准测试中，无论是精度还是实时性能，都是相机姿态估计方面的最新技术。

5. 基本原理是啥？

6DGS方法用于估计相机姿态ˆP ∈ R3×4，给定一张目标图像It和一个由预计算的3DGS模型得到的椭球体集合Q（图2）。为了求解相机姿态，我们提出了一种从椭球体表面出发的投射方法，称为Ellicell，它将椭球体表面划分为等面积的单元。椭球体投射出一组N条射线，表示为V = {⟨vo, vd, vc⟩}Ni=1，每个生成的单元对应一条射线（图3c）。每条射线由以下四个部分确定：i) 射线原点vo ∈ R3，ii) 每个椭球体的中心点，iii) 射线方向vd ∈ R3，从椭球体中心指向单元中心并穿过空间，以及iv) 颜色信息vc ∈ R3，表示为RGB值。我们使用3DGS渲染函数ϕ合成射线的颜色。根据视角的不同，这些射线中的一部分可能会与相机的光学中心相交。为了将射线与图像像素绑定，我们计算目标图像像素的特征ψ(It)（图2a）和射线的特征ψ(V)（图2b）。这些特征用于通过注意力图A（图2c）识别相交的射线。射线-像素对的注意力值越高，其在图像平面上的交点越有可能是有效的。最后，我们使用加权最小二乘算法计算射线的交点，从而确定ˆPt（图2d）。

6. 实验结果

定量分析：表1和表2展示了在两个数据集上获得的结果。6DGS在所有数据集和姿态初始化流程中均一致优于基线方法。值得注意的是，在相同的比较条件（即随机姿态先验）下，6DGS的错误率低于次优结果。即使在从接近已知相机的固定姿态进行初始化时，6DGS在大多数场景中仍优于基线方法。Parallel iNeRF在所有测试场景中均表现出对iNeRF的改进，与其报告的增强效果一致，但两种方法的性能在随机初始化时均有所下降。同样，NeMo+VoGE的表现最差，尤其是在随机姿态先验下，这是由于其方法中使用了较少数量的大椭球体。相比之下，6DGS利用通过3DGS获得的约300,000个不同大小的椭球体，而他们的网格到椭球体的方法仅使用约5,000个大椭球体。椭球体大小和数量的这种根本差异是导致性能差异的关键因素。此外，6DGS的处理速度更快，以每秒15帧（fps）的速度近乎实时运行，相比之下，Parallel iNeRF的速度为0.05fps，而iNeRF的速度为0.16fps。

7. 总结 & 限制性

在这项研究中，我们提出了一种新颖的基于注意力的射线采样方法，用于从单幅图像和3DGS场景模型中估计六自由度（6DoF）相机姿态。我们的分析评估表明，该方法无需初始化即可实现鲁棒性和高效性，准确率高达22%，且速度大幅提升，大约快94倍。此外，所提出的方法制定并利用了一种新颖的射线生成方法，以便根据有效的注意力机制探索多样的相机姿态假设。我们的方法在真实世界数据集上展现出更强的鲁棒性，并有望在机器人技术和其他领域实现实时部署。未来的研究工作将侧重于提高准确性，并将适用性扩展到不同的场景和对象。局限性。6DGS的主要限制是需要对每个新场景进行重新训练。当考虑相似对象或场景时，可以通过元学习来缓解这一问题。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目 &作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉工坊官网： www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、 无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划 、 LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、 MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等 。

3D视觉相关硬件

图片	说明	名称