专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

AAAI'25开源 | QQ-SLAM来啦！

3D视觉工坊 · 公众号 · · 2024-12-27 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Query Quantized Neural SLAM

作者：Sijia Jiang, Jing Hua, Zhizhong Han

机构：Wayne State University

原文链接：https://arxiv.org/abs/2412.16476

代码链接：https://github.com/machineperceptionlab/qq-slam

1. 导读

神经隐式表示在同步定位和映射(SLAM)中显示出在联合建模几何、颜色和相机姿态方面的显著能力。当前的方法使用坐标、位置编码或其他几何特征作为输入，以针对产生渲染误差的带符号距离和颜色来查询神经隐函数，以驱动过拟合图像观察的优化。然而，由于SLAM系统中的运行时间效率要求，我们仅被允许在很少的迭代中对每一帧进行优化，这对于神经网络来说远远不足以过度适应这些查询。欠拟合通常导致摄像机跟踪中的严重漂移和重建中的伪像。为了解决这个问题，我们提出了查询量化神经SLAM，它使用量化查询来减少输入的变化，以便更容易和更快地过拟合一个帧。为此，我们将一个查询量化为一组代码的离散表示，只允许神经网络观察有限数量的变化。这使得神经网络在过度拟合越来越多的先前帧后，变得越来越熟悉这些代码。此外，我们还引入了新的初始化、损失和论证，以在早期优化阶段稳定具有显著不确定性的优化，约束优化空间，并更准确地估计相机姿态。我们证明了每个设计的有效性，并报告了在广泛使用的基准上的视觉和数值比较，以显示我们在重建和相机跟踪方面优于最新方法的优势。

2. 引言

神经隐式表示在同步定位与地图构建（SLAM）领域取得了巨大进展。这些方法将几何形状和颜色表示为连续函数，以重建平滑表面并渲染出逼真的新视角图像，相较于传统SLAM系统中的点云表示方法展现出了优势。当前方法通过体积渲染将场景中的神经隐式表示渲染为RGBD图像，并最小化渲染误差与真实观测值之间的差异，从而学习这些隐式表示。为了渲染某个像素的颜色、深度或法线，我们查询沿光线采样点上的有符号距离、占据标签和颜色的神经隐式表示，并基于体积渲染方程对其进行积分。

我们通常使用坐标、位置编码或其他特征作为神经隐式表示的输入，我们称之为查询。查询是连续向量，这使得神经网络能够在未见过的但与之前见过的相似的查询上很好地泛化。连续性有利于泛化，但也给神经网络带来了过拟合的巨大变化。神经网络需要多次看到这些查询或类似的查询，以便推断和记忆这些查询的几何形状和颜色等属性，这需要大量时间。然而，这种运行效率并不符合SLAM系统的要求。更为关键的是，我们只能在当前帧上进行少量迭代的优化，无法观察到后续帧。对这些查询的欠拟合会导致相机跟踪出现巨大漂移，并在重建中出现伪影。因此，如何在SLAM中有效地查询神经隐式表示以实现更高效的过拟合仍然是一个挑战。

为了克服这一挑战，我们引入了查询量化的神经SLAM，以从RGBD图像中联合建模几何形状、颜色和相机位姿。我们学习了一个神经有符号距离函数（SDF）来表示场景中的几何形状，并通过将SDF与颜色函数结合进行渲染，以过拟合图像观测值。我们提出将查询量化为具有一组代码的离散表示，并将该离散查询作为神经SDF的输入，这显著减少了查询的变化，并提高了重建和相机跟踪的性能。我们的方法是在过拟合越来越多先前帧后，使神经网络对这些量化查询越来越熟悉，从而在每一帧上实现更快、更容易的收敛。我们提供了一个彻底的解决方案来离散化查询，如坐标、位置编码或其他几何特征，以便更有效地过拟合每一帧。此外，为了支持我们的量化查询，我们还引入了新颖的初始化、损失函数和增强技术，以在最初存在巨大不确定性的情况下稳定优化，约束优化空间，并更准确地估计相机位姿。我们在包含合成数据和真实扫描的广泛使用的基准测试上评估了我们的方法。我们的数值和视觉比较验证了各个模块的有效性，并在场景重建和相机跟踪的准确性方面展现了相对于最新方法的优越性。

3. 效果展示

ScanNet和Replica数据集定位对比。

Replica数据集对比

4. 主要贡献

我们的贡献总结如下：

我们提出了查询量化的神经SLAM，用于从RGBD图像中联合进行场景重建和相机跟踪。我们通过量化减少查询变化，验证了提高SLAM性能的想法。

我们提出了新颖的初始化、损失函数和增强技术来稳定优化。我们表明，稳定化是使量化查询在SLAM中发挥作用的关键。推荐课程：彻底剖析激光-视觉-IMU-GPS融合SLAM算法：理论推导、代码讲解和实战。

我们在SLAM的场景重建和相机跟踪方面报告了最先进的性能。

5. 方法

遵循先前的方法，我们的神经SLAM从J帧RGBD图像I和D中联合估计几何形状、颜色和相机位姿。我们的SLAM为每帧j估计相机位姿Oj，并推断出一个SDF fs和一个颜色函数fc，它们分别为量化查询q预测有符号距离s = fs(q)和颜色c = fc(q)。q是从其连续表示q量化而来的，q不仅限于坐标p，还包括其位置编码h(p)、几何特征g(p)以及从融合深度先验t(p)中的插值。

图1展示了我们的框架。从一个连续查询q开始，我们首先将其量化为量化查询q~，这是包括SDF fs和颜色函数fc在内的神经隐式表示的输入，预测有符号距离s和颜色c。我们通过体积渲染将沿光线采样查询上的有符号距离和颜色累积为渲染颜色和深度。我们通过最小化渲染误差来调整fs、fc和{Oj}。优化后，我们使用移动立方体算法提取fs的零水平集作为场景的表面。

6. 实验结果

7. 总结

我们提出了查询量化神经SLAM，用于联合摄像机姿态估计和场景重建。通过量化查询，包括坐标位置编码、几何特征或先验信息，我们减少了查询变化，使每帧神经网络的收敛速度更快。我们新颖的初始化、损失和增强方法稳定了优化过程，使量化坐标对神经SLAM有效。在广泛使用的基准上进行的大量评估表明，我们的方法在相机跟踪和重建准确性方面优于现有方法。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球