专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

SLAM | 融合激光雷达与图像数据，通过3D高斯溅射实现室内精确定位！

智驾实验室 · 公众号 · · 2024-06-10 08:00

正文

同步定位与地图构建（SLAM），即对由（3D）地图表示的环境进行重建并与姿态估计同时进行，已经取得了惊人的进展。

同时，面向复杂环境如工厂车间或建筑工地进行数据收集的大规模应用变得可行。然而，与小规模场景，如单个房间的室内建筑相比，车间或施工区域需要在可能没有纹理的区域和困难光照条件下进行更大距离的测量。

由于这类室内应用通常没有GNSS测量值，姿态估计的难度进一步加大。在作者的工作中，作者通过一个配备有四个立体相机以及一个3D激光扫描器的机器人系统在一个大型工厂大厅进行数据收集。

作者应用了最先进的激光雷达和视觉SLAM方法，并讨论了在这种环境下进行轨迹估计和生成密集地图时不同传感器类型的各自优缺点。

此外，通过3D高斯溅射生成了密集且精确的深度图，作者计划在旨在自动施工和工地监控的项目背景下使用这些深度图。

1 Introduction

光学传感器外方位估计以及同时重建三维（3D）环境的问题在计算机视觉领域中通常被称为SfM（Structure from Motion），在机器人学中被称为SLAM（Simultaneous Localisation and Mapping）[1]。

在SLAM的背景下，外方位的估计是连续实时进行的，经常旨在从图像和/或激光扫描数据在各种室内场景中进行数据采集。本文所展示的工作是由斯图加特大学综合计算设计与建筑集群卓越中心（IntCDC，2024a）的一个项目推动的，该项目旨在监测建筑工地。这项工作的总体目标是利用数字技术为建筑行业的制造和施工带来潜力。建筑业历来是劳动密集型行业，但它可以从承诺比人工或传统方法更准确、更高效的自主机器人中受益。

在这种背景下，一个关键任务是直接对建筑工地进行数字数据捕获和监测，例如用于生成BIM和数字孪生。这种记录是地理测量捕获3D点云的重要应用场景。

在过去，固定站的陆地激光扫描（TLS）定义了标准方法，而现在，采用SLAM方法的移动系统越来越多地被使用。在这种场景中进行数据收集的最先进技术，例如由Hiti SLAM挑战赛[16]的结果所展示。对于这个基准测试，数据采集是由一个手持系统完成的，该系统配备了IMU、多相机头和激光扫描设备[12]。

根据所应用的传感器类型，SLAM算法分为激光雷达（LiDAR）和视觉SLAM。当前的视觉SLAM方法可以相当好地提供密集表示，但通常限于纹理丰富的环境和相对较小的空间，例如单个房间，这些通常在较短的测量距离处捕获。

相比之下，大型室内场景（如建筑工地和工厂大厅）的实际应用仍然具有挑战性，并且可能从激光雷达扫描更大的测量范围中受益。图1举例展示了作者论文中讨论的激光雷达和视觉SLAM方法的重建点云和轨迹。

尽管局限于平面2D空间的方法已经相当成熟并已进入消费市场，但使用3D点云的方法仍然是研究的主题；然而，这样的努力受到了与自主驾驶和机器人技术相关应用的强烈推动。视觉SLAM算法应用单目、立体甚至RGB-D图像。与激光雷达传感器相比，相机的成本显著降低，因此可以支持更广泛的应用范围。

此外，捕获图像的分析不仅限于定位和建图过程中的几何信息提取。由于RGB图像中蕴含的丰富信息，视觉SLAM在可视化和环境的语义分割方面具有优势。另一方面，典型RGB-D设备的传感器原理限制了它们在近距离场景中的应用，而单目SLAM经常受到尺度漂移[20]的影响。尽管激光雷达传感器的角分辨率随着距离的增加因衍射而降低，但实际上，直接的测距原理允许与视觉SLAM方案相比更大的场景范围。

因此，当前基准测试[14]显示，基于激光雷达的方法在轨迹重建方面显著提高了准确性。然而，这一点在很大程度上取决于扫描模式和由传感器空间分辨率定义的线密度。通过融合IMU或里程计数据等额外的补充观测，可以提高两组方法的定位可靠性和准确性。

为了支持建筑工地和工厂大厅等大型环境的数据收集，作者同时采用激光雷达和立体相机的措施。例如，作者选择了一个工厂大厅，在其中监测室内建设活动（IntCDC，2024b）。图1已经展示了作者通过激光雷达和视觉SLAM得到的结果示例。

本文的其余部分组织如下：下一节关于相关工作首先介绍了当前针对与作者的任务相似场景的基准测试：在大型复杂动态环境中的数据收集。此外，还介绍了适用于此类应用的激光雷达和视觉SLAM方法。

第3节然后介绍由作者的机器人系统进行的数据收集（参见第3.1节）以及作者的激光雷达和视觉SLAM处理流程（参见第3.2节和第3.3节）。第4节呈现了在广泛工厂大厅收集的数据的结果。由于作者未来的工作旨在结合激光雷达和视觉SLAM，作者特别讨论了在这种环境中进行数据收集时，相应传感器的优缺点。

2 Related Work

第一节介绍了用于SLAM应用的标准数据集，并强调了其最重要的特性。在此背景下，只考虑公共可获取的资源。随后，将介绍激光雷达和视觉SLAM领域的既定和最新方法。

Large-Scale SLAM Benchmarks

在过去的几年里，针对计算机视觉、同时定位与地图构建（SLAM）和机器人技术领域的各种应用，已经创建了多个数据集。大部分资源主要关注捕捉紧凑区域，如小房间，并提供相机或激光雷达（LiDAR）数据，以支持视觉或激光雷达SLAM。用于评估相应SLAM方法的最为常见的大规模多模态数据集之一是KITTI数据集。它包含了立体图像、由360度激光雷达获取的点云以及附着在汽车上的惯性测量单元（IMU）的读数。基于这一资源，已经派生出了各种用于计算深度图、里程计估计或目标检测与跟踪任务的基准。一个可比较的甚至更大的驾驶数据集合，包括雷达信息和用于360度视角的额外摄像头，是nuScenes[1]数据集。这两个资源都提供了来自各种传感器的高质量数据，但仅限于在街道上捕捉的户外场景。与作者的使用案例部分最为接近的数据收集是HILTI基准。

该收集的三个场景的数据是通过一个配备有3D前置激光雷达、四个用于360度环视的RGB-D摄像头和一个IMU的移动机器人捕获的。由于所有场景都是在建筑工地上拍摄的，环境条件也是相似的。然而，HILTI基准的重点是机器人的精确定位。因此，所驾驶的轨迹并没有针对建筑物或周围物体的详细重建进行优化。

此外，机器人只在一个有控制照明条件的地下停车场内移动，因此几乎没有任何眩光或反射效应。此外，在机器人的视野内没有进行任何工作，即除了漫游车和跟随它的指导者之外，场景是静态的。

在以下各节中，将介绍与作者的工作相关的视觉和激光雷达SLAM应用算法，并对其进行更详细的描述。

LiDAR SLAM

尽管激光雷达SLAM领域起源于2D激光雷达传感器，但本概述将重点放在更近期的3D激光雷达SLAM方法上。早期流行的一种实时方法是LOAM [11]。在这里，从激光雷达点集提取平面和边缘特征。通过最小化相应特征误差，从高频里程计函数和低频映射函数确定传感器的姿态。较新的方法还包括像Scan Context [12]或LoGG3D-Net [13]这样的机制来检测已经映射过位置的再次访问（闭环），并通过姿态图优化[1]，[1]来提高一致性。在一些现代方法中，预处理的点仍然被简化为边缘和平面特征，而在其他方法中，点被组合成类似圆盘的表面元素或者在所谓的密集方法中简单地使用（下采样）点。在现代激光雷达SLAM系统中，使用IMU数据来增加在快速移动情况下的鲁棒性，并通过重力估计减少定向漂移。在无IMU的激光雷达SLAM方法中，通常将单次扫描内的轨迹建模为线性运动而IMU支持的激光雷达惯性SLAM方法能够实现更高分辨率的轨迹表示，这可能导致精度提高。

在最近的工作中，为了获得更一致的地图，提出了使用环境神经网络的表示进行激光雷达SLAM。然而，在基准数据集上，它们还未能达到传统方法的精度。

Visual SLAM

ORB-SLAM（Mur-Artal等人，2015年）是一种高效、鲁棒且实时可行的SLAM方法，它包括了用于闭环检测和全局优化的地点识别能力，并结合了进行长期建图的能力，这对于探索大型环境尤为重要。ORB-SLAM及其后续版本ORB-SLAM2（Mur-Artal和Tardos，2017年）和ORB-SLAM3（Campos等人，2021年）使用了手工设计的特征提取算法和优化方法，专注于提高跟踪精度。

这导致了在运行过程中计算要求低，但也造成了相对稀疏的点云和在创建的地图中细节水平较低。较新的方法如DROID-SLAM（Teed和Deng，2021年）集成了神经网络，并在各种场景上进行训练，以通过减少累积漂移和因特征轨迹丢失导致的失败次数来进一步提高鲁棒性。

一种完全可微的方法设计允许结合和调整神经网络层，例如用于密集像素匹配或更新相机姿态，与标准算法结合，例如执行全局优化。此外，将前端（执行图像输入流的时间关键任务）和后端（将计算密集型过程外包）明确分开，仍然允许实时能力。Zhang等人（2022年）的研究表明，DROID-SLAM在具有平面运动的机器人应用中具有很高的有效性。

最新的方法正在解决结果地图的可视化和表示问题。传统的SLAM方法采用 Voxel 网格、点云或网格表示作为场景表示来构建密集建图。然而，这些方案在获取细粒度的密集地图方面面临严重挑战。如HI-SLAM（Zhang等人，2024年）等方法扩展了现有概念，包括将神经辐射场（NeRF）（Mildenhall等人，2020年）作为环境的3D表示。为此，利用关键帧的姿态和深度估计值来逐步优化集成神经网络对应的权重。此外，通过多分辨率哈希编码（Muller等人，2022年），可以显著减少所需的训练时间，允许快速更新生成的神经地图。

最近，3D高斯溅射被提出作为一种高效的辐射场渲染技术，用于高质量、低内存消耗的密集建图（Kerbl等人，2023年）。除了对高分辨率图像渲染的效率之外，高斯溅射还保持了显式的几何场景结构和外观，得益于场景表示的确切建模。这项技术已经被迅速应用于多个领域，并且对于后续的3D建模也极具前景，这是作者项目的长期目标之一。

3 SLAM-based mapping of a large factory Hall

在以下各小节中，将介绍用于捕捉环境的传感器系统，并提供对所记录建筑物特征的研究（参见第3.1章）。随后概述了在本工作中采用并评估的激光雷达和视觉SLAM方法（参见第3.2/3.3章）。

Sensor Platforms and Data Acquisition

作为测试环境，选择了卓越集群IntCDC的大规模建设机器人实验室（LCRL）的一部分（IntCDC, 2024b）。建筑包括一个大型施工大厅，内含多个机器人建筑部件预制工厂、指导工作区、材料库和传统加工工具。设置包括开阔空间的大面积区域以及小型走廊。在录制区域内，有多座由混凝土、钢材或木材等不同材料建造的结构。为了支持对生成的点云进行评估，在大厅内的不同位置放置了标记。数据采集是在正常运营期间进行的，因此现场工作行人会经过传感器，机器人和物体在作者录制期间移动。

传感器平台是一个6轮式机器人系统，提供基本功能，如供电、计算资源和驾驶能力（见图2）。一个3D激光雷达传感器（RoboSense BPearl），具有32条线并能在最大100m（30m@10% NIST）范围内进行检测，安装在机器人前部。此外，四个ZED 2立体相机提供了一个360 的环境环绕视图，并附着在机器人中心的可伸出塔上。所有相关传感器的方向都通过先前的校准得知。由于物流原因，只有大约1600 的大厅的三分之一是由机器人平台探索的。为了对施工现场进行最详细的重建，机器人能够到达的所有区域都进入了其外形尺寸范围。为了提供一个非常精确的参考点云，使用了Trimble X7测绘级地面激光雷达站。在数据收集期间，在大厅的LCRL中八个扫描位置捕捉了360 扫描，并使用可用的参考点将它们合并成最终的地图。

DMSA LiDAR SLAM

在本工作中，作者研究了三种激光雷达SLAM方法来处理作者记录的激光雷达/IMU数据。具体来说，作者选择了KISS-ICP（Vizzo等人，2023年），这是一种声称易于集成且健壮性强的流行激光雷达SLAM方法，CT-ICP（Dellenbach等人，2022年），这是一种高精度的仅激光雷达开源算法，以及作者的DMSA SLAM（Skuddis和Haala，2024年）。在使用相应作者提出的标准参数设置时，SLAM方法KISS-ICP和CT-ICP在处理仅几秒后便发散了。作者怀疑这些方法在处理RoboSense BPearl非常稀疏的激光雷达数据时存在困难。因此，第4章中详细呈现的结果仅由作者的DMSA SLAM方法生成。

在DMSA SLAM中，滑动时间窗口内的激光雷达点与所谓的静态点以及IMU数据以紧密耦合的方式一起优化。为了处理本工作中捕获的数据，选择了0.8秒的滑动窗口时间范围。预处理中的自适应降采样使得能够处理来自狭窄空间以及宽敞场所的激光雷达数据。新关键帧基于重叠和距离阈值进行选择。除了属于关键帧的激光雷达点外，还会估计并添加重力方向到关键帧数据中。当新的关键帧添加到地图中时，与当前关键帧有显著重叠的所有关键帧都会被优化。图3给出了处理步骤的概览。具体细节作者参考（Skuddis和Haala，2024年）。

Dense Multi-Camera RGB-D SLAM Pipeline

在四个摄像头图像的处理链中，作者开发了一个密集视觉SLAM流水线，如图4所示。为了充分利用360度环视视野，首先通过DROID-SLAM方法（Teed和Deng，2021）处理每个摄像头的数据。在这个阶段，根据相邻图像之间的光流距离，自适应地选择每个摄像头视图的关键帧。对于这些关键帧，通过预测密集流并针对每个摄像头流执行捆绑调整来估计每个像素的密集深度，以最小化与预测流作为参考的再投影误差。随后，使用摄像头之间的已知外部参数，作者将每个摄像头的关键帧姿态转换到公共坐标系中，以前摄像头的光心作为参考坐标。

尽管这个过程产生了整合所有摄像头视图和观测的全局地图，但由于单独为每个摄像头估计的参数中仍存在的错误（如轨迹漂移），尤其是在没有闭环的情况下，仍可能产生不一致。为了构建一个全局一致性的地图，作者结合了来自四个摄像头的所有关键帧进行联合捆绑块调整。为此，作者采用了DROID-SLAM后端的全球捆绑调整。这种优化技术识别了不同摄像头视图和不同时间的观测之间的闭环。

​SLAM | 融合激光雷达与图像数据，通过3D高斯溅射实现室内精确定位！

正文