专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

在线场景重建新方案！AG-SLAM：首个主动高斯泼溅SLAM，探索机器人轨迹规划！

计算机视觉工坊 · 公众号 · · 2024-10-26 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：AG-SLAM: Active Gaussian Splatting SLAM

作者：Wen Jiang, Boshu Lei, Katrina Ashton, Kostas Daniilidis

机构：University of Pennsylvania

原文链接：https://arxiv.org/abs/2410.17422

1. 导读

我们提出AG-SLAM，这是第一个利用3D高斯分布进行在线场景重建的主动SLAM系统。近年来，包括3DGS在内的辐射场场景表示已被广泛应用于SLAM和探测领域，但主动规划机器人探测轨迹仍是未知的。特别地，许多探测方法假设精确定位，因此不能减轻构建轨迹的重大风险，这对于SLAM系统来说是难以操作的。这可能导致相机跟踪失败，并导致现实世界机器人应用中的失败。我们的方法利用Fisher信息来平衡双重目标:最大化环境的信息增益，同时最小化定位误差的成本。在Gibson和Habitat-Matterport 3D数据集上进行的实验证明了所提出方法的最新结果。

2. 引言

移动机器人能够自主探索环境并在该环境中定位的同时进行建图，是其核心技能。这一问题被称为主动同时定位与建图（active Simultaneous Localization and Mapping，active SLAM）。主动SLAM位于探索与SLAM的交叉领域，尽管它引入了这两者都不具备的挑战，即在探索与降低包括代理姿态和环境地图在内的估计状态的不确定性之间进行权衡。

传统的主动SLAM方法通常基于其协方差来定义减少状态估计不确定性的目标。对于使用滤波器来更新状态估计的经典SLAM系统而言，协方差是现成的。然而，许多最新的视觉SLAM系统则使用非线性渲染损失来更新状态估计，这使得协方差难以获得。特别是，已经开发出了使用三维高斯溅射（3D Gaussian Splatting，3DGS）进行场景表示的系统，这些系统能够高保真地渲染场景的新视图。除了出于自身目的需要重建场景的情况外，3DGS场景表示还可以扩展为支持开放词汇的语义分割，并可以作为语言指定机器人任务的基础，例如，3DGS已被用于移动操作。许多执行此类任务的现有方法目前依赖于对场景的预先扫描，因此，能够高效且自主地创建场景的3DGS表示可以支持使用3DGS执行这些任务的工作。虽然可以使用现有的主动SLAM算法，通过以动作和估计姿态作为输入来构建3DGS表示，但这效率较低，而且我们认为，其效果也不如专门为3DGS场景表示设计的主动SLAM系统。推荐课程：移动机器人规划控制入门与实践：基于Navigation2 。

因此，我们提出了首个基于3DGS的主动SLAM系统，使我们能够自主地创建一个新环境的场景表示，从而可以从中渲染出高保真度的彩色和深度图像。尽管前沿探索（frontier-based exploration）和A*算法等经典方法因其高效性和简洁性仍被主动SLAM系统所采用，但仅使用简单启发式方法的算法无法确定信息增益，从而将其目标局限于简单地提高覆盖率或减少行驶距离。我们建议将此问题表述为一个主动学习问题，使用启发式方法来高效地生成大量可行的路径作为候选，并采用不确定性感知算法来确定最佳路径，以同时满足定位和建图的需求。这使我们能够通过使用前沿和预期信息增益来驱动探索，并使用我们新颖的路径选择算法来最小化状态估计的不确定性，从而在探索和降低定位不确定性这两个目标之间取得平衡。

之前已有量化辐射场不确定性以从给定数据重建场景的方法，以及具有给定定位的场景的主动视图选择和主动重建或建图方法，以及面向配备向内摄像头的小场景的主动SLAM方法。然而，所有这些先前的方法都只建模了场景表示的不确定性，而我们还建模了定位不确定性。此外，我们不仅考虑单个视图的不确定性，还考虑路径的不确定性。

为了验证我们的方法，我们对Gibson和Habitat-Matterport 3D数据集中的场景进行了定量和定性评估。与多个基线方法和最近的最先进方法相比，我们在各种指标上均展示了卓越的重建质量。特别是，我们使用前沿区域与其距离之比作为选择标准，与Active Neural SLAM、ExplORB、UPEN、active-INR和基于前沿的探索进行了比较。在所有情况下，为了公平比较渲染质量，我们仅使用方法来选择动作，并保持用于最终渲染评估的SLAM后端相同。

3. 效果展示

Gibson数据集Greigsville(顶部)和Ribera(底部)场景上最终场景重建的定性比较。我们为不同的方法提供自顶向下的渲染。请注意，UPEN和Active-INR在此可视化中使用GT姿势。

对Habitat-Matterport 3D数据集mscxX4KEBcB(上)、oPj9qMxrDEa(中)和QKGMrurUVbk(下)场景的最终场景重建进行定性比较。我们为不同的方法提供自顶向下的渲染。

4. 主要贡献

我们的贡献可以概括如下：

• 我们提出了AG-SLAM，这是一种使用三维高斯表示的主动SLAM系统。据我们所知，我们是首个研究具有三维高斯表示的主动SLAM问题的团队。

• 我们为我们的三维高斯表示中的路径推导出了一个目标函数，该函数有效地平衡了探索的信息增益和可能的定位误差的成本。为了理解预期信息增益（Expected Information Gain，EIG）的用法，在图2中，我们绘制了采样姿态下的峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）与EIG的关系图，并展示了一些示例渲染图，以了解EIG与PSNR和渲染质量之间的关系。更重要的是，与PSNR不同，EIG可以在没有真实图像的情况下进行计算，这使得在探索期间可以进行视图选择。

5. 方法

我们的主动SLAM系统示意图：主动高斯SLAM系统基于三维高斯参数的Fisher信息提出路径。根据信息增益和定位精度选择最佳路径和路径上的动作。主动SLAM系统在探索过程中不断改进建图和定位。

为了理解EIG的使用，在图2中，我们绘制了采样姿态下的峰值信噪比(PSNR)与EIG的关系，并显示了一些示例渲染，以给出EIG如何与PSNR和渲染质量相关的感觉。更重要的是，与PSNR不同，EIG可以在没有地面真实图像的情况下计算，这使得在探索期间执行视图选择成为可能。

6. 实验结果

7. 总结 & 未来工作

最近的SLAM方法采用世界的三维高斯溅射（3DGS）表示，从而能够进行体积渲染作为测量预测。在本文中，我们为基于3DGS的SLAM引入了主动姿态选择。我们的AG-SLAM在位置和地图两方面平衡信息增益。我们使用费雪信息矩阵（Fisher Information Matrix）和克拉美-罗下界（Cramer-Rao Lower Bound）来数学化表示预期的信息增益。我们基于Gibson和Habitat-Matterport 3D数据集中的场景，从渲染质量、覆盖范围和平均跟踪误差等方面评估了该方法在主动SLAM中的表现。我们证明了，相较于使用基于边界的探索（其选择标准基于边界区域和距离），我们基于不确定性的路径选择标准有所改进。我们还将我们的方法与四种最新的先进方法进行了比较，并表明AG-SLAM具有更优的性能。

为了使AG-SLAM支持更多的机器人应用，未来的工作可以扩展AG-SLAM，使其考虑比当前支持的3自由度（DOF）更高的自由度（DOF）的移动。此外，将语义特征融入其中，使语言能够与场景相结合，也将使许多机器人和计算机视觉应用成为可能。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉知识星球

「 3D视觉从入门到精通