专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

无纹理SLAM和SfM全新方案！GSLoc：基于3D GS的视觉定位，无惧大视角变化！

3DCV · 公众号 · · 2024-10-28 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：GSLoc: Visual Localization with 3D Gaussian Splatting

作者：Kazii Botashev, Vladislav Pyatov, Gonzalo Ferrer, Stamatios Lefkimmiatis

机构：Skolkovo Institute of Science and Technology (Skoltech)、MTS AI

原文链接：https://arxiv.org/abs/2410.06165

1. 导读

我们提出了GSLoc:一种新的视觉定位方法，使用3D高斯分布作为场景的地图表示来执行密集相机对准。GSLoc在渲染管道上反向传播姿态梯度，以对齐渲染图像和目标图像，而它采用由粗到细的策略，通过利用模糊核来减轻问题的非凸性并改善收敛性。结果表明，当最先进的神经稀疏方法提供较差的结果时，我们的方法在无纹理环境中初始和目标帧之间相对小的重叠的挑战性条件下成功地进行视觉定位。使用来自3DGS地图表示的真实渲染的副产品，我们展示了如何在解决图像检索问题时通过混合一组观察到的和虚拟的参考关键帧来增强定位结果。我们在合成数据和真实数据上评估了我们的方法，讨论了它的优点和应用潜力。

2. 引言

视觉定位，即利用已知场景的视觉表示来确定相机姿态的过程，在机器人导航、自动驾驶汽车以及增强/虚拟现实等相关应用中扮演着重要角色。特别是，通过相机对齐进行视觉定位的主要目标是，在给定输入查询图像的情况下，在具有已知地图表示的3D环境中确定6自由度（DoF）相机姿态（位置和朝向）。

已知场景的地图表示是每种定位方法的核心部分，可以呈现为不同形式。其中，最成熟且常用的是稀疏地图表示，它依赖于一组2D-3D特征-地标对应关系，这些对应关系通常通过结构从运动（SfM）技术进行估计。尽管它们在各种定位场景中表现出有效性，但稀疏地图表示提供的场景理解能力有限，在空旷区域或无显著特征的纹理缺失环境中表现不佳。密集映射是另一种表示方法，旨在利用来自整个图像的信息，但可能需要捕获深度信息，并确保输入帧的连续性。其他方法可能基于密集图像描述符进行操作，这些描述符通常使用卷积神经网络（CNN）进行提取。此类方法已在大规模场景和图像检索任务中证明了其有效性，但准确性有限，且仅能提供查询相机的近似姿态。

可微分的基于网格的渲染算法也被用于视觉定位任务，从而产生了一系列能够实现令人瞩目结果的密集地图表示方法。然而，这需要以需要环境的详细3D模型为代价。这一缺陷随着神经辐射场（NeRF）模型的引入而得到最近缓解，该模型仅使用一组姿态图像即可进行训练。NeRF通过2D监督隐式学习3D场景作为连续辐射场的函数，从而实现逼真的渲染质量。虽然NeRF最初是为了解决新视角合成问题而提出的，但其学习的地图表示最近已被用于设计新的姿态估计方法。这一思路始于iNeRF中提出的一个简单想法，随后又发展出其他复杂的姿态估计方法。然而，尽管这些方法取得了初步成果，但由于它们同样存在NeRF模型的缺陷，即由于昂贵的反向映射光线投射过程，导致训练和渲染时间极长，因此其适用性仍然有限。

最近，3D高斯溅射（3DGS）被提出，能够实现全高清分辨率的高质量实时新视角合成。这是一种基于学习的替代方法，与基于NeRF的方法不同，它基于正向映射/光栅化策略。具体来说，3DGS使用一组3D各向异性高斯函数来表示3D场景，这些高斯函数作为渲染基元，其参数在训练期间直接从一组可用的姿态图像中优化得到。3DGS光栅化器所需的操作类型更适合GPU，从而实现了非常高效且交互性强的新视角渲染过程。

3DGS引入了一种新颖且独特的环境地图表示，有望有效解决相机姿态估计和视觉定位相关的挑战。3DGS策略在计算上高效且完全可微分，便于在任意视角下生成高度逼真的图像。重要的是，它允许给定相机姿态的参数梯度直接流动，从而实现实时密集相机对齐，这是其他定位方法所不具备的功能。此外，它建立了独特且完全可微分的渲染-姿态关系，能够为任意给定相机生成渲染图像，并通过基于梯度的优化来细化其姿态，从而最小化渲染图像和查询图像之间的差异。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

尽管如此，这种新方法仍面临两大挑战。第一个挑战是训练期间使用的初始相机姿态的准确性会对方法的成功产生重大影响。第二个挑战是所使用的基于光度差异的目标损失函数由于图像中存在高频细节而高度非凸。损失的非凸性给其优化带来了困难，因为它可能导致优化过程陷入众多局部最小值之一，从而得到次优解。

本文的工作重点是将3D高斯溅射渲染技术作为视觉定位任务的地图表示，并旨在克服上述现有挑战。我们的研究包括：调查3DGS方法作为地图表示的可行性；对不同相机初始化场景的全面收敛性分析；探索由问题的高度非凸性引起的收敛局限性；以及提出一种粗到精的优化策略来缓解这些局限性。

3. 效果展示

与稀疏特征匹配基线相比，GSLoc对来自副本数据集的合成场景的定量结果。所提供的结果显示了使用GSLoc获得正确姿态与初始相机帧与目标帧的接近度之间的相关性。随着框架接近度的增加，GSLoc先达到然后超过基线。我们分别报告了旋转(a)和平移(b)姿态分量的结果。

用于摄像机帧接近度估计的3D联合交集(IoU)度量的直观解释。使用场景的体素计算，该度量自然地描述了相机姿态的接近度和它们的图像帧的视觉相似性。这里，对于可视化帧，3D IoU等于0.15。

4. 主要贡献

本文的主要贡献总结如下：

• 我们分析了3DGS渲染相对于相机姿态的梯度，并实现了基于3DGS的视觉定位流程。

• 我们提出了一种粗到精的优化策略，在该策略中，我们对查询图像和渲染图像应用逐渐褪色的高斯模糊，从而克服了高频图像细节导致的次优收敛问题。

• 我们提出了一种通过扩展其图像库中的渲染相机帧来改进通过图像检索获得的相机初始化，从而有效提高定位结果的方法。

• 我们在室内合成和真实场景中对我们的方法进行了评估，提供了基于各种初始相机姿态先验和参数化的相机姿态收敛的综合定量分析，并将其与基于稀疏特征的定位基线进行了比较。

5. 方法

光度L1损失相对于SE(3)中的6自由度相机姿态空间的高度非凸性给其优化带来了重大挑战。这种非凸性是由图像中的高频细节引起的，并可能导致优化过程陷入糟糕的局部最小值，进而得到次优解。

图2(a)-(b)展示了一个此类情况的可视化表示。以标准方式迭代最小化（5）中的目标函数会导致一阶方法收敛到次优解。确实，可以清楚地看到，在使用Adam进行标准优化期间，无法逃脱由中间渲染和目标查询图像之间次优重叠引起的局部最小值。这导致图像对齐失败（用黄色高亮显示）。

为了克服这个问题，我们提出了一种简单而有效的粗到精策略，即在渲染图像和目标图像上应用逐渐衰减的高斯模糊。具体来说，我们使用固定大小L的2D高斯核对目标查询图像和中间渲染图像进行卷积，同时逐渐减小其协方差δj。这导致了一个修改后的目标函数L1，具有平滑的梯度和稳定的相机姿态估计，如图2(c)-(d)所示。平滑图像梯度可以使我们避免陷入局部最小值，并收敛到正确的相机姿态。我们还发现，运行多次粗到精优化迭代，每次新迭代都用前一次的结果重新启动，这一策略也是有效的。基于以上分析，我们得出结论，以下两步GSLoc算法实现了最高效率：

第一步进行标准的相机姿态优化。

如果第一步未能恢复正确的姿态（即渲染图像和查询图像之间的光度损失超过用户定义的阈值），则重新启动整个过程，并应用上述粗到精优化策略。

6. 实验结果

7. 总结 & 未来工作

我们提出了一种名为GSLoc的新型视觉定位技术，该技术基于三维高斯溅射环境图表示。我们在合成数据和真实数据上都已证明，该方法能够实现精确的相机位姿估计。我们通过对各种相机初始化和参数化的全面收敛性分析，验证了这一点。我们深入探讨了由于光度损失的非凸性导致的收敛局限性，并提出了一种由粗到精的策略来缓解这一问题。最后，我们提出了一种有效的方法，通过改进GSLoc的相机初始化来提升定位结果，该初始化是通过使用经过精细图像库扩展的3DGS渲染相机帧进行图像检索获得的。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

「 3D视觉从入门到精通」知识星球

「3D视觉从入门到精通」知识星球