专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

ETH新作 | 无漂移视觉SLAM

3DCV · 公众号 · · 2024-12-14 00:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Drift-free Visual SLAM using Digital Twins

作者：Roxane Merat, Giovanni Cioffi, Leonard Bauersfeld, Davide Scaramuzza

机构：University of Zurich、University of Zurich and ETH Zurich

原文链接：https://arxiv.org/abs/2412.08496

1. 导读

城市环境中全球一致的定位对于自动驾驶汽车和无人机等自主系统以及视障人士的辅助技术至关重要。传统的视觉惯性里程计(VIO)和视觉同步定位和绘图(VSLAM)方法，虽然足以用于局部姿态估计，但由于依赖于局部传感器数据，长期来看会产生漂移。虽然全球定位系统抵消了这种漂移，但它在室内不可用，在城市地区也不可靠。一种替代方法是使用视觉特征匹配将相机定位到现有的3D地图。这可以提供厘米级的精确定位，但受限于当前视图和地图之间的视觉相似性。本文介绍了一种新颖的方法，通过使用点到平面匹配将VIO/VSLAM系统生成的稀疏三维点云与数字孪生点对齐，实现精确和全局一致的定位；不需要视觉数据关联。所提出的方法提供了紧密集成到VIO/VSLAM系统中的六自由度全局测量。在高保真GPS模拟器上运行的实验和从无人机收集的真实世界数据表明，我们的方法优于最先进的VIO-GPS系统，并且与最先进的视觉SLAM系统相比，针对视点变化提供了更好的鲁棒性。

2. 引言

在复杂环境中实现精确且全局一致的位姿估计是自主系统（如自动驾驶汽车和无人机，以及为视力障碍者提供的辅助技术）的一项关键要求。摄像机和惯性测量单元（IMU）因成本低廉、设计轻便且测量能力互补（摄像机提供丰富但低频率且依赖于环境的数据，而IMU提供高频率、低维度且不依赖于环境的数据）而常被用于解决位姿估计问题。视觉-惯性里程计（VIO）和视觉同时定位与地图构建（VSLAM）算法融合摄像机和IMU的测量值，并在局部坐标系中输出位姿估计。局部坐标系通常在算法初始化时设置为单位位姿。由于摄像机和IMU提供的是局部测量值，以及噪声和模型简化，这些算法会随时间累积漂移。

为了在全局固定坐标系（例如，东-北-天（ENU）参考坐标系）中获得位姿估计，并减少漂移，位姿估计过程中纳入了全局测量值。最常用的全局测量值是全球定位系统（GPS）。然而，GPS测量值在室内无法使用，且在信号反射和阻挡常见的城市峡谷中往往噪声大且不可靠。因此，GPS测量值有时可能比VIO/VSLAM系统本身生成的位姿估计更加不确定。

VSLAM系统通过利用视觉测量值与预建地图进行定位来补偿漂移。定位问题通过匹配当前摄像机视图与地图之间的视觉特征来解决。标准技术匹配特征描述符。而最近的工作则使用神经网络替换特征描述符。无论采用何种匹配技术，所有基于视觉的定位方法都依赖于当前摄像机视图与参考地图之间的相似性，这限制了它们在许多情况下的有效性，例如将航拍图像（例如，由无人机拍摄）定位到由地面车辆在昼夜录制的地图上，或将基于其他光谱摄像机（例如，红外摄像机）的VIO/VSLAM系统定位到由标准摄像机录制的地图上。

尽管VIO-GPS算法和视觉定位技术近期取得了进展，但由于所依赖的全局测量值固有的噪声、稀疏性或视点依赖性，现有方法仍然难以完全解决在城市环境中实现全局一致、低漂移位姿估计的挑战。

为应对这些挑战，我们建议使用几何信息（例如，3D点云、网格）对数字孪生进行定位。特别是，我们提出了一种新方法，该方法通过点面匹配将VIO/VSLAM系统生成的局部地图（稀疏3D点云）定位到几何数字孪生上。我们的方法使用局部VIO/VSLAM点云与数字孪生的网格表示进行点面匹配，从而提供一个新的全局测量值，并将其紧密融合到VIO/VSLAM系统中。

我们的实验表明，与当前最先进的VIO-GPS方法相比，所提出的方法在我们为该项目开发的高保真GPS模拟器以及在城市中飞行的无人机进行的真实世界测试中均表现出优越性。结果表明，与传统基于特征描述符匹配的视觉定位技术相比，我们的方法不仅更有效地减少了漂移，而且在对视点变化的鲁棒性方面也更胜一筹。

3. 效果展示

我们提出了一种方法来实现无漂移的视觉SLAM，通过使用点到平面匹配将局部视觉SLAM点云对齐到数字孪生点。点云和数字孪生之间的相对转换提供了一个全局测量，然后紧密集成到SLAM系统中，以获得全局一致性并减少漂移。

4. 主要贡献

本文的主要贡献包括：

• 一种新颖算法，通过点面匹配将局部且稀疏的VSLAM 3D点云定位到数字孪生上，从而不依赖于视觉匹配。

• 在VSLAM系统中紧密融合这种定位测量值，以在城市环境中实现全局一致、低漂移的位姿估计。

• 我们使用一种新颖的高保真GPS模拟器和在城市中飞行的无人机上收集的真实世界数据，在模拟实验中展示了我们的方法相对于最先进的VIO-GPS系统的优越性。

• 我们表明，所提出的局部-全局地图定位方法比基于图像特征描述符匹配的最新视觉定位技术更加鲁棒。

5. 方法

在本文中，我们提出了一种VSLAM系统，该系统通过利用场景几何信息定位到数字孪生上，在城市环境中实现了低漂移和全局一致的位姿估计。定位问题被表述为一个点云配准问题，该问题可以通过点到平面的ICP算法有效解决。具体而言，我们通过将VSLAM系统生成的局部稀疏3D点云与城市数字孪生进行配准来获得全局测量值。然后，将此全局测量值与VSLAM位姿估计过程中的当前摄像机和IMU测量值紧密耦合。此外，我们提出了一种算法，该算法自适应地找到用于在VSLAM中融合全局测量值的权重。这种自适应加权解决方案使我们能够考虑配准问题的不确定解，这些不确定解源于退化情况并取决于场景几何信息。我们在本节中详细描述了我们的方法。我们的方法示意图如图3所示。推荐课程：彻底剖析激光-视觉-IMU-GPS融合SLAM算法：理论推导、代码讲解和实战。

6. 实验结果

表I报告了我们系统（SVO-Digital Twin）与基线方法的绝对轨迹误差。图4绘制了估计轨迹以及真实轨迹。SVO-Digital Twin在位置和旋转方面的绝对轨迹误差远低于其他方法，优势显著。具体而言，与表现最佳的基线方法相比，其位置绝对轨迹误差（ATEp）和旋转绝对轨迹误差（ATER）分别提高了31%和27%。

我们在表II中进行了一项消融研究，以验证我们提出的自适应加权策略的有效性。改进后的ATE误差验证了该自适应加权策略的益处。

表III列出了主要系统组件的运行时间。我们为初始对齐步骤设定了固定的时间长度。时间一到，我们检查是否满足收敛准则。如果满足，则认为对齐成功；如果不满足，则继续累积GPS测量数据，直至满足该准则。姿态估计的运行时间是指从图像捕获到估计出该图像相机姿态所经过的时间。

7. 总结

本文提出了一种利用数字孪生的几何信息来减少VIO/VSLAM系统漂移的新方法。通过引入一种方法，将VIO/VSLAM生成的点云通过点到面匹配定位到城市数字孪生中，我们解决了依赖GPS或视觉定位技术的方法的局限性。我们在高保真GPS模拟器和真实无人机飞行中的实验均表明，该方法相较于现有系统具有显著优势，特别是在减少漂移和处理视角变化方面。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球