专栏名称: 点云PCL

公众号将会推送基于PCL库的点云处理，SLAM，三维视觉，高精地图相关的文章。公众号致力于理解三维世界相关内容的干货分享。不仅组织技术交流群，而且组建github组群，有兴趣的小伙伴们可以自由的分享。欢迎关注参与交流或分享。

机器人视觉SLAM的综述：演变、特性与未来应用

点云PCL · 公众号 · 前端科技媒体 · 2024-10-17 08:30

主要观点总结

文章介绍了视觉SLAM在机器人领域的应用和发展，涵盖了其重要性、演变、关键原理、方法分类、数据集以及选择标准。文章详细讨论了视觉SLAM方法如PTAM-SLAM、ORB-SLAM、LSD-SLAM、OKVIS-SLAM、ROVIO-SLAM、VINS Mono-SLAM和Kimera-SLAM等，并分析了它们的优势、应用领域和工作流程。同时，文章还探讨了数据集如TUM RGB-D、EuRoC MAV基准、KITTI和Bonn RGB-D动态等，并强调了选择视觉SLAM方法时需要考虑的多个因素，包括鲁棒性、准确性、计算效率、实时要求、硬件集成、系统可扩展性、适应动态环境、开源可用性和地图数据表示等。

关键观点总结

关键观点1: 视觉SLAM的重要性

视觉SLAM在机器人导航、地图构建和环境理解方面发挥重要作用，尤其在互动和协作移动机器人方面。

关键观点2: 视觉SLAM的演变

视觉SLAM经历了从仅视觉SLAM、视觉惯性SLAM到RGB-D SLAM的演变，每种类型都有其特定的应用场景和优势。

关键观点3: 视觉SLAM的关键原理

视觉SLAM通过摄像头收集数据，并利用这些数据估计机器人的位置和构建环境模型。

关键观点4: 视觉SLAM的方法分类

视觉SLAM方法可以分为仅视觉SLAM、视觉惯性SLAM和RGB-D SLAM，每类都有其特定的应用场景和优势。

关键观点5: 重要的数据集

TUM RGB-D、EuRoC MAV基准、KITTI和Bonn RGB-D动态等数据集在视觉SLAM研究中起到了关键作用，提供了测试和验证算法的资源。

关键观点6: 选择视觉SLAM方法的指南

在选择视觉SLAM方法时，需要考虑多个因素，包括鲁棒性、准确性、计算效率、实时要求、硬件集成、系统可扩展性、适应动态环境、开源可用性和地图数据表示等。

正文

文章：A review of visual SLAM for robotics: evolution, properties, and future applications

作者：Basheer Al-Tawil, Thorsten Hempel, Ahmed Abdelrahman and Ayoub Al-Hamadi

编辑：点云PCL

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系[email protected]。 文章未申请原创 ， 侵权或转载 联系微信cloudpoint9527。

摘要

视觉同时定位与地图构建（V-SLAM）在机器人系统领域发挥着至关重要的作用，尤其是在互动和协作移动机器人方面。对机器人技术日益增长的依赖增加了现实应用中任务执行的复杂性。因此，出现了几种类型的V-SLAM方法，以促进和简化机器人的功能。本文旨在展示最新的V-SLAM方法论，为研究人员和开发者提供明确的选择标准，以选择适合其机器人应用的正确方法。文章按时间顺序介绍了SLAM方法的发展，突出关键原理，并提供它们之间的比较分析。论文重点关注机器人生态系统与机器人操作系统（ROS）作为中间件的整合，探讨了重要的V-SLAM基准数据集，并为每种方法的工作流程提供示例图。

图1 文章组织结构图

主要贡献

以往的研究展示了V-SLAM方法的有效性，但通常用很少的细节和分散的图示进行解释，这使得理解、比较和选择这些方法变得具有挑战性。因此，我们的研究重点在于简化V-SLAM方法论的解释，以便读者能够轻松理解。研究的主要贡献可以描述如下：

调查V-SLAM技术，以确定最适合用于机器人技术的工具。
为每种方法创建图形和说明性的结构化工作流程，以增强对V-SLAM操作过程的理解。
提出V-SLAM方法评估和选择的主要因素及标准。
编制一张比较表，列出每种V-SLAM方法的基本参数和特征。
展示和讨论在机器人应用领域中使用的相关数据集。

介绍

视觉SLAM范式

V-SLAM利用传感器数据为系统提供有价值的信息。移动机器人和自主车辆需要理解其环境，以完成任务并实现目标。这种理解对它们的成功运作至关重要。

V-SLAM框架由一系列顺序步骤组成，这些步骤组织起来以创建系统并处理其数据；见图3，该图解释了在V-SLAM中并行执行的过程以及示例图。这包括创建详细地图、轨迹估计器，以及精确定位和定向附加在系统上的摄像头。在此框架内，可以有效地实现和操作各种场景，例如逐像素运动分割、语义分割以及滤波技术。这些方法旨在实现对V-SLAM过程中涉及的操作的专业视觉表示。

图2 机器人系统架构的示意图，突出显示SLAM的整合及其在系统中的位置

数据采集与系统初始化： 在V-SLAM的这个阶段，我们通过系统硬件系统地准备输入数据，包括捕获和处理图像。这涉及安装RGB-D摄像头、深度摄像头或红外传感器以收集数据并初始化系统。系统收集数据，特别强调有效消除输入数据中噪声的关键过滤细节。经过处理的数据随后发送到下一个阶段，以提取输入信息的特征。因此，SLAM方法的进展导致了众多数据集的创建，供研究人员评估V-SLAM算法。

系统定位： 在V-SLAM的第二个阶段，系统专注于找到其位置，这是整个过程中的重要部分。它涉及执行各种过程，这些过程对成功确定机器人所在的位置至关重要。特征跟踪在这一阶段起着核心作用，主要关注特征提取、匹配、重新定位和姿态估计等任务。其目的是对齐和识别引导输入数据初始关键帧的帧。关键帧是一组视频帧，包含一组观察到的特征点和相机的姿态。它在跟踪和定位过程中发挥重要作用，帮助消除附加在机器人上的相机姿态的漂移误差。随后，这个关键帧会被发送到下一个阶段进行进一步处理，将形成初步地图，这是工作流程第三阶段的关键部分。

系统地图形成： V-SLAM工作流程的第三个阶段专注于构建地图，这是V-SLAM过程中至关重要的任务。使用SLAM可以生成多种类型的地图，包括拓扑地图、体积（3D）地图（如点云和占用栅格地图）以及基于特征或地标的地图。地图类型的选择基于所使用的传感器、应用要求、环境假设和在机器人应用中使用的数据集类型。在机器人领域，栅格地图是对物理环境的表示，每个单元格代表一个特定位置，并存储有关障碍物、地形和占用的数据。它是多种机器人导航和定位技术的基本数据结构。基于特征的地图是捕捉环境特征（如地标或物体）的表示，以促进定位和导航任务。点云地图是由大量3D点构成的物理空间或物体的表示，显示了物体在某个地方的排列情况。它是通过特殊的摄像头或传感器创建的，帮助机器人和计算机理解周围环境。在定位阶段设置关键帧后，工作流程进入场景建模。然后，识别和检测关键点和特征线，这对生成地图至关重要。这是一个建立和更新未知环境地图的过程，用于持续跟踪机器人的位置。它是一个双向过程，与定位过程相辅相成，相互依赖以实现SLAM过程。它收集有关周围环境的实时数据，创建几何模型和视觉模型。此外，过程包括实施束调整，以提高生成地图的精度，然后再进入最终阶段。束调整是一种同时优化估计和重建可观察点在可用图像中的位置所需参数的工具。在基于特征的SLAM中，它发挥着至关重要的作用。

系统回环闭合与过程调优: V-SLAM工作流程的最后阶段涉及对过程进行微调和回环闭合，从而优化最终地图。在V-SLAM中，回环闭合过程检查和维护先前访问的地点，修正机器人在未知环境探索中可能发生的任何错误。这些错误通常源于在SLAM工作流程早期阶段执行的估计过程。回环闭合和过程调优可以通过不同技术实现，如扩展卡尔曼滤波SLAM。扩展卡尔曼滤波SLAM结合回环闭合和地标观察数据，以调整卡尔曼滤波器的状态估计中的地图。这个工具有助于解决环境（地图）中的不确定性，并在其中定位机器人。

词袋（BoW） 方法是另一种技术，帮助机器人识别和记忆以前访问过的位置。这类似于人类在经过很长时间后仍能记住过去去过的地方，因而是由于在那里发生的活动。词袋方法通过获取每幅图像的视觉特征并将其转换为视觉词直方图来实现。然后，该直方图用于创建固定大小的词袋向量表示，供匹配和回环闭合过程使用。最后，图优化被用作回环闭合过程的校正工具。它通过根据地标优化图形来精炼最终地图和机器人的轨迹。该技术涉及SLAM问题的图形表示，其中顶点代表机器人的姿态和地图特征，边表示姿态之间的约束或测量。它通常作为图形基础SLAM类型的校正工具使用。

图3 视觉SLAM架构：视觉SLAM所需的四个核心组件的概述，包括数据采集、系统定位、系统地图生成，以及系统回环闭合与过程调优，使移动机器人能够感知、导航并与环境互动。

视觉SLAM方法的最新进展

V-SLAM在机器人行业和研究中作为一个变革性主题发挥着重要作用。该领域的进展可归因于机器学习、计算机视觉、深度学习和最先进的传感器技术等工具，这些工具共同简化和增强了其在实际应用中的策略。 V-SLAM的景观由多种方法组成，可以分为三类，即仅视觉SLAM、视觉惯性SLAM和RGB-D SLAM。在这一部分，我们将简要概述当前最先进的V-SLAM算法和技术，包括它们的方法论、效率、时间要求和处理能力，以及它们是否设计用于在机载或离线计算机系统上运行。此外，我们结合各种图形表示，创建方法工作流程的综合视觉表示。

图4 视觉SLAM类型的示意图：仅视觉SLAM、视觉惯性SLAM和RGB-D SLAM

仅视觉SLAM

这是一种SLAM系统，旨在绘制传感器周围环境的地图，同时确定这些传感器在其周围环境中的确切位置和方向。它完全依赖于视觉数据来估计传感器运动和重建环境结构。该系统使用单目、RGB-D和立体相机扫描环境，帮助机器人轻松绘制陌生区域。这种方法在文献中受到关注，因为它成本效益高、易于校准且单目相机的功耗低，同时RGB-D和立体相机也能进行深度估计和高精度测量。

PTAM-SLAM: 即并行跟踪和地图生成，是一种用于实时跟踪系统的单目SLAM。它具有6自由度相机跟踪，适用于小场景。这种方法在动态操作环境中表现出色，即使在频繁和不稳定的光照变化条件下也能保持高性能。系统工作流程由四个顺序阶段组成。输入准备和系统初始化涉及单目相机的平移和旋转，以提高图像效率和清晰度。随后进行跟踪过程，执行与图像和视频处理相关的任务，为后续的地图生成准备数据。接下来，进行优化和地图生成过程，以准备地图并显示输出，包括相机位姿和用于SLAM操作的3D地图。所有过程和步骤在图5中进行了简化和演示。

图5 视觉SLAM方法的示意图，展示了本研究中选定的显著SLAM方法的先进技术和工作流程，呈现为简化视图。

ORB-SLAM: ORB-SLAM指的是有向FAST特征和旋转BRIEF特征SLAM。这种基于特征的检测器适用于小型和大型室内或室外领域。由于其实时能力和高质量地图重建，它广泛应用于人机交互、增强现实和自主导航等应用。ORB-SLAM旨在处理强鲁棒性和不稳定运动的干扰，涵盖跟踪、建图和回环闭合等基本过程。与其他先进的V-SLAM方法相比，ORB-SLAM在动态性、规模和可追溯性方面表现优异。它实现了基于宽基线的实时全局定位，从不同视角进行相机重新定位，并在重建过程中做出更好的帧和点选择。ORB-SLAM1被归类为仅视觉，而ORB-SLAM2扩展为仅视觉和RGB-D SLAM。进一步地，ORB-SLAM3将其分类扩展为包括所有三类：仅视觉、视觉惯性和RGB-D SLAM。这一扩展强调了ORB-SLAM在现实应用中的适应性和多功能性。

ORB-SLAM的方法论过程经过四个顺序阶段。初始阶段涉及传感器输入和跟踪过程。在所有ORB-SLAM版本中，此阶段采用共同的方法，侧重于位姿准备和帧生成，以促进决策。然而，输入使用上存在差异，例如，ORB-SLAM1使用一个输入，ORB-SLAM2使用三个，ORB-SLAM3使用四个。因此，下一步操作的质量和效率取决于第一阶段的输入。在下一个阶段，通过添加新的关键帧并同时进行定位过程来进行局部映射。此部分在所有版本中保持一致，但第3版通过额外的捆绑调整增强了功能，以改善特征检测和匹配。后续阶段包括回环闭合、过程优化以及在所有版本中选择相似候选数据。然而，第2版和第3版包含附加步骤，例如捆绑调整焊接和地图合并。最后阶段是准备输出，重点创建包含图形、线路、点映射以及用于SLAM过程的2D和3D地图的最终地图。

LSD-SLAM： 指大规模直接单目SLAM，是一种用于实时映射和定位的先进技术。它可以利用多种相机设置，旨在进行大规模绘图任务，能够创建非常准确和详细的工作场地图。此外，它在较低图像分辨率下依然保持准确。这种灵活性使其成为在复杂、广泛和动态环境中工作的更好选择，并广泛应用于机器人和自动驾驶汽车等多种应用。 LSD-SLAM与DTAM-SLAM方法的区别在于，LSD-SLAM专注于强烈的亮度变化区域，忽略细节较少的区域。这种选择源于在图像中缺乏纹理的区域确定物体距离的挑战。因此，LSD-SLAM通过关注亮度变化强烈的地方，超越了DTAM的能力。 LSD和DVO-SLAM过程可以类似运作，其工作流程结构为五个阶段。第一阶段包括输入单目和立体数据并为下一个处理步骤做准备。第二阶段用于跟踪和估计初始位姿，通过对齐来自单目和立体相机的图像。第三阶段专注于回环闭合过程，包括关键帧准备、正则化和数据更新，以准备帧用于后续阶段。第四阶段执行地图优化，包括直接映射和基于特征的映射。这些操作塑造所需地图并管理其点，评估其在不同调整下的性能，以便在输出阶段使用。最后阶段准备估计的相机轨迹和姿态以及稠密3D地图，以应用于机器人的SLAM功能。

DVO-SLAM ：即稠密视觉里程计SLAM，旨在通过深度感知设备（如立体和单目相机）实现实时运动估计和地图创建。它因能够生成详细和准确的环境地图，同时跟踪位置和方向而脱颖而出。DVO-SLAM在光束调整中使用点到平面的度量，增强了机器人系统的导航能力，尤其在纹理较少的情况下。点到平面度量是用于优化深度传感器位姿和面参数以进行3D重建的代价函数和优化工具。这些特性使DVO-SLAM适用于机器人和增强现实等更精确的应用，并且在稍微不稳定的光源下也能保持稳定。

视觉惯性SLAM

视觉惯性SLAM（VI-SLAM）是一种结合了视觉传感器（如立体摄像头）和惯性测量传感器（IMU）能力的技术，以实现SLAM目标和操作。这种混合方法允许对机器人操作环境进行全面建模。它可以应用于多种实际应用，如无人机和移动机器人。IMU数据的集成增强了环境建模的信息，从而提高了系统功能的准确性并减少了错误。以下部分列出了在实际应用中使用的方法和算法。

OKVIS-SLAM ：是基于开放关键帧的视觉惯性SLAM，旨在满足需要实时3D重建、物体跟踪和位置估计的机器人和计算机视觉应用。它结合了视觉和惯性测量，以准确预测机器人的位置和方向。OKVIS在机器人运动过程中实时跟踪摄像头的位置和方向。它通过图像检索将关键帧连接到SLAM位姿图，同时借助位姿估计器处理视觉惯性里程计优化窗口之外的位置。为便于移动，使用轻量级的语义分割CNN在导航过程中去除动态物体。OKVIS的实时精度和韧性使其适用于各种应用，包括机器人和无人机。在复杂和不稳定的光照环境中也能有效运作。

将OKVIS-SLAM工作流程分为三个关键阶段。第一阶段集中于接收初始传感器输入，包括IMU和视觉数据。它初始化系统，进行IMU集成，并采用跟踪技术为后续处理准备数据。第二阶段是实时估计和里程计过滤阶段，涵盖地标三角测量和状态更新等多种操作。最后一阶段则进行优化和全图估计，包括回路闭合检测、窗口滑动和边缘化。该阶段选择相关帧并优化整体图结构，最终为SLAM系统提供必要的输出。

ROVIO-SLAM： 是稳健的视觉惯性里程计SLAM，是一种前沿的传感器融合方法，平滑地结合了视觉和惯性数据。这种集成显著提高了导航精度，改善了机器人系统的工作效率。ROVIO在挑战性环境中表现出色，具有良好的性能，并展现出机器人与环境之间的平滑交互。它高效地处理大规模映射过程，适合大规模应用。此外，它具备低计算需求和对光照的高鲁棒性，非常适合为持续长时间操作设计的成本效益型机器人平台。

ROVIO-SLAM工作流程分为三个阶段。首先获取并准备来自视觉摄像头和IMU的数据以进行处理。在下一阶段，对视觉数据进行特征检测、跟踪和语义分割，同时为IMU数据的集成做好准备。处理阶段涉及回路闭合操作、新关键帧插入和状态转换，以及数据过滤。状态转换生成关键输出，并传递到最后阶段，提供估计的位置、方向和3D地标。

VINS Mono-SLAM： 是视觉惯性导航系统，是一种先进的传感器融合技术，能够实时精确跟踪机器人或传感器的运动和位置。它仅使用一台摄像头和IMU，结合视觉和惯性数据，以增强准确性并确保机器人操作的精确性。VINS-Mono因其在创建地图和最小化漂移误差方面的效率而闻名，能够在具有动态障碍物的挑战性环境中表现优异。其在困难光照条件下的平滑性能突显了其可靠性，确保移动机器人在不稳定光照条件下的最佳功能。 VINS-Mono SLAM工作流程分为四个阶段。第一阶段收集视觉和惯性数据，并为获取和测量处理做好准备，包括特征提取、匹配和IMU数据准备，随后进行视觉和惯性对齐。第二阶段处理回路闭合操作和重定位，以调整旧状态并为下一步检索附加特征。第三阶段集中于过程优化，结合束调整和附加传播以提高效率。最后一阶段输出系统的估计位姿和关键帧数据库，适用于SLAM。

Kimera-SLAM： 是一种开源SLAM技术，应用于实时度量语义目的。其框架高度依赖于先前的方法，如ORB-SLAM、VINS-Mono SLAM、OKVIS和ROVIO-SLAM。Kimera-SLAM在动态场景中表现出色，尤其是在有移动物体的情况下，展现了对光照条件变化的抗干扰能力。它在室内和室外环境中均能有效运作，非常适合集成到互动机器人系统中。总的来说，Kimera-SLAM为实时度量语义SLAM提供了全面而高效的解决方案，优先考虑操作中的准确性、模式和鲁棒性。该技术的流程工作可以概括为五个阶段。第一阶段为输入预处理，包括密集2D语义、密集立体和Kimera-VIO，涉及前端和后端操作，如跟踪、特征提取和匹配，以获得准确的状态估计。第二阶段涉及稳健的位姿图优化，负责优化和制定全局轨迹。随后，第三阶段生成每帧和多帧的3D网格，负责执行和生成代表环境的3D网格。第四阶段生成语义注释的3D网格，设置了后续和最后阶段的基础，在该阶段生成的3D网格用于输出可视化，最终服务于SLAM目的。

RGB-D SLAM

RGB-D是一种创新方法，结合RGB-D摄像头和深度传感器来估计和构建环境模型。这项技术已在多种领域找到应用，包括机器人导航和感知。它在光照良好的室内环境中表现出色，为空间布局提供了宝贵的洞见。 RGB-D摄像头和深度传感器的结合使系统能够同时捕捉颜色和深度信息。这种能力在室内应用中尤为重要，解决了低纹理表面区域的密集重建挑战。RGB-D SLAM的目标是为系统周围生成精确的3D重建，重点在于获取几何数据以构建全面的3D模型。本节所用的方法列举如下：

RTAB-Map SLAM ：（实时基于外观的地图构建）是一种视觉SLAM技术，适用于RGB-D和立体摄像头。它是一种多功能算法，能够根据给定的传感器和数据处理2D和3D地图任务。RTAB-Map整合RGB-D和立体数据进行3D映射，能够检测机器人环境中的静态和动态3D物体。它适用于大型户外环境，在LiDAR光线无法反射和管理周围场景的情况下有效运作。由于光照和环境交互的变化可能导致机器人定位和映射错误，因此RTAB的鲁棒性和对光照及场景变化的适应性使其能够在挑战性环境中进行精确操作。它能够处理大规模复杂环境，并能迅速适应与多台摄像头或激光测距仪一起工作。此外，集成T265（Intel RealSense摄像头）和实施超宽带（UWB）技术解决了机器人轮子打滑的问题，提升了系统效率，实现精确跟踪和3D点云生成。

RTAB-MAP SLAM方法涉及一系列步骤以使其功能正常。首先，硬件和前端阶段负责从立体和RGB-D摄像头获取数据、生成帧和集成传感器。该阶段准备将用于后续阶段的帧。在跟踪过程中同时处理帧后，激活回路闭合以生成必要的里程计。随后，启动关键帧平衡和优化过程，以改善为SLAM应用生成的2D和3D地图的质量。

DTAM-SLAM ：（密集跟踪与映射）是一种专门针对实时摄像头跟踪的V-SLAM算法。它提供强大的六自由度（6 DoF）跟踪，并为机器人系统提供高效的环境建模。这种方法在推动机器人、增强现实和自主导航等应用方面发挥了重要作用，提供精确的跟踪和高质量的地图重建。此外，它对光照变化的适应性使其在强光照条件下运行时仍能保持准确。

DTAM-SLAM 工作流程分为一系列步骤，每个步骤都有其目的。它从输入RGB-D摄像头开始，帮助初始化系统。在摄像头跟踪和重建阶段，系统选择帧并估计图像上的纹理。然后，准确跟踪6 DoF摄像头运动，确定其确切位置和方向。此外，优化框架被激活，使用空间正则化能量最小化等技术来增强数据项，从而改善从视频流捕获的图像质量。最终的高级过程调优进行操作，以提高方法的性能并生成精确的输出，如密集模型、表面拼接和纹理深度图。

RGBD-SLAM： （使用红绿蓝和深度数据的同步定位与地图构建）是一种重要方法，创建包含静态和动态元素的全面3D地图。该方法涉及跟踪轨迹和与移动物体相关的点的映射。使用这些数据类型增强了SLAM结果的精确性。在机器人应用中，RGB-D SLAM，特别是V-SLAM，在鲁棒性和准确性方面表现优异，能够有效应对动态环境下的挑战。RGB-D SLAM在平衡分割精度、系统负载和检测图像中类别数量方面面临挑战。通过使用TensorRT和YOLOX优化实现高精度实时目标识别，解决了这一挑战。

RGB-D SLAM 工作流程可分为五个基本阶段，每个阶段在SLAM过程中发挥关键作用。第一阶段涉及数据获取，收集RGB-D和深度摄像头数据，为后续阶段提供基础输入。在第二阶段，启动RGB-D细节处理。在此阶段，任务包括特征提取和成对匹配，同时处理深度相关活动，如存储点云和对齐线条或形状。在第三阶段，执行噪声去除、语义分割以及回路闭合检测，为地图构建奠定基础。第四阶段专注于位姿估计和优化技术，提高系统输出的准确性。最后一阶段生成轨迹估计和地图，为机器人系统的SLAM应用精炼输出。

SCE-SLAM： （空间坐标误差SLAM）是一种创新的实时语义RGB-D SLAM技术，旨在应对传统SLAM系统在动态环境中操作所面临的限制。这种方法提升了现有V-SLAM方法（如ORB-SLAM3）的性能，通过结合语义和几何数据，以及利用YOLOv7进行快速目标识别，使其在动态环境中具有更高的准确性和鲁棒性。得益于这些改进，SLAM算法能够适应动态场景，增强系统周围环境的理解。这使得机器人系统能够在更复杂的情况下操作，减少错误和滑移。

SCE-SLAM工 作流程分为三个关键阶段。第一阶段涉及语义模块，该模块处理摄像头输入数据并使用Yolov2去除噪声。第二阶段是几何模块，进行深度图像分析和空间坐标恢复，为与ORB-SLAM3的集成做准备。最后一阶段专注于ORB-SLAM3的集成，该集成使得在ORB-SLAM3内执行过程成为可能。该过程与回路闭合技术并行进行，从而实现更准确和精确的系统输出。

图6 时间线展示了SLAM技术的演变历程，以及在其发展中发挥关键作用的数据集。它体现了SLAM技术随着时间的动态进展，反映了创新方法与丰富多样的数据集之间的共生关系，这些数据集为方法的测试和完善提供了支持。

Visual SLAM 演变与数据集

SLAM的根源可以追溯到近三十年前，由Smith等人首次提出。近年来，视觉SLAM经历了巨大的变化，并对机器人技术和计算机视觉产生了重大影响。在这一过程中，不同的V-SLAM方法应运而生，以应对机器人导航、地图构建和环境理解等特定挑战。为了验证和比较这些V-SLAM方法，重要的数据集被创建，并在该领域发挥了关键作用。本节将探讨V-SLAM方法随时间演变的过程，以及它们如何借助合适的数据集得以进步。为了提供更易于理解的视角，我们提供了一个插图时间线，描绘了最著名的V-SLAM方法的演变，如图6所示。该图表展示了2007年至2021年间V-SLAM方法的发展。这些方法已在农业、医疗保健和工业等多个领域应用，特别关注互动移动机器人。

TUM RGB-D 数据集 是V-SLAM领域广泛使用的资源，帮助展示V-SLAM技术的有效性和实用性。该数据集提供RGB图像和深度图，RGB图像以640 × 480的8位格式保存，深度图以640 × 480的16位单色格式保存。它提供RGB-D数据，适用于基于深度和V-SLAM技术。其在地图构建和里程计等基本任务中表现出色，为研究人员提供了大量用于测试SLAM算法的数据，涵盖多种机器人应用。这些数据集的适应性非常显著，能够在移动机器人和手持平台中应用，在室内和室外环境中均表现有效。最近的一些研究利用TUM数据集，例如Li等人的研究，利用TUM RGB-D数据集建立定制的基准以满足特定的研究目标。该研究以RGB-D图像和TUM数据集提供的真实位姿为起点，利用它们构建具有真实空间特征的3D场景。TUM RGB-D数据集在该领域中的整合作用具有深远意义，是V-SLAM研究的基本资源。

EuRoC MAV 基准数据集： 专为微型无人机（MAV）设计，为MAV-SLAM研究领域提供了宝贵的资源，因为它包含IMU等传感器数据和立体图像等视觉数据。该数据集于2016年初发布，供研究使用，适用于室内和室外应用。因此，它成为评估MAV导航和地图构建算法的相关选择，特别是与各种视觉V-SLAM方法结合使用。EuRoC MAV 基准数据集对机器人学具有显著益处，尤其对研究视觉惯性定位算法（如OpenVINS和ORB-SLAM2）的研究人员尤为重要。该数据集包含同步的立体图像、IMU测量和精确的真实位姿数据，为算法开发提供了全面的资源。其全面的数据结构使其非常适合于对针对MAV目的的算法进行深入测试和验证。

KITTI 数据集 是机器人导航和SLAM领域广泛使用的资源，尤其侧重于V-SLAM。它专为城市环境中的室外SLAM应用设计，集成了来自多个传感器的数据，包括深度相机、激光雷达、GPS和惯性测量单元（IMU），为机器人应用提供精确的结果。其多功能性支持多样的研究目标，如3D物体检测、语义分割、动态物体检测、视觉里程计和道路检测算法。作为一项宝贵资产，研究人员经常依赖KITTI数据集在实时跟踪场景中评估V-SLAM技术的有效性。此外，它还为从事自动驾驶汽车和移动机器人领域的研究人员和开发人员提供了重要工具。此外，其适应性有助于评估传感器配置，从而促进这些领域中关键算法的改进和评估。

Bonn RGB-D 动态数据集 专为RGB-D SLAM而设计，包含动态物体的序列。它展示了伴随3D点云的RGB-D数据，表示动态环境，格式与TUM RGB-D数据集相同。该数据集涵盖室内和室外场景，超越了受控环境的边界。它对开发和评估与机器人导航、物体识别和场景理解等任务相关的算法非常有价值。值得注意的是，该数据集足够多样化，能够解决在光线挑战区域中应用的复杂性。此外，它对评估V-SLAM技术尤其重要，因其高动态性和人群环境中，机器人可能面临物体检测和与周围环境互动的挑战。

ICL-NUIM 数据集 为RGB-D应用设计的基准数据集，作为评估RGB-D、视觉里程计和V-SLAM算法的宝贵工具，特别是在室内环境中。它包括3D传感器数据和真实位姿，促进了与机器人系统中的地图构建、定位和物体检测相关技术的基准测试。其预渲染序列、生成测试数据的脚本和标准化数据格式对研究人员评估和改进SLAM算法非常有益。ICL-NUIM 数据集的独特之处在于其包含三维模型。此特性使研究人员能够探索和设计新的场景，以便在未知环境中操作的机器人系统。此外，它促进了V-SLAM的改进，使生成语义地图成为可能，从而提高了机器人在该环境中轻松适应和集成的灵活性。

评估和选择视觉SLAM方法的指南

选择合适的视觉SLAM算法对于构建有效的SLAM系统至关重要。随着V-SLAM方法的持续进步，针对各种挑战，明确的评估标准显得尤为重要。在机器人系统的背景下，我们提供了一些重要参数，并通过简要说明选择标准来指导适合现场应用的SLAM方法选择。

鲁棒性和准确性： 在选择V-SLAM方法时，鲁棒性和准确性是关键考虑因素。一个鲁棒的算法能够处理传感器噪声、障碍物和变化的环境，确保连续和可靠的操作。此外，准确性对于创建精确的地图和定位同样重要，使机器人能够做出明智的决策并无误地在环境中移动。这些特性共同增强了算法在复杂现实环境中的可靠性，是成功移动机器人应用的重要因素。

计算效率和实时要求： 在移动机器人应用中，选择SLAM算法至关重要，需关注机器人计算架构内部的过程效率。因此，所选的V-SLAM算法必须仔细调整，以满足机器人实时约束带来的计算需求。这需要平衡算法的选择与可用处理能力和硬件资源的无缝集成，同时满足应用的严格实时要求。关键考虑因素是传感器和计算机的质量，以便在有限时间内生成快速响应和准确定位。

灵活的硬件集成： 在机器人应用中，研究人员应选择与机器人传感器良好配合的SLAM算法。合适的硬件集成通过加速器、方法优化和节能设计，提高SLAM系统的速度和性能。不同的V-SLAM算法是为特定传感器类型（如RGB-D、激光雷达和立体相机）设计的，便于无缝集成到SLAM系统中，增强了集成硬件的功能。此外，ROS包和传感器及相机的开源软件的可用性在系统安装时提供了更多的灵活性，使集成变得简单。

系统可扩展性： 在机器人SLAM算法中，可扩展性是设计系统中间件架构时必须牢记的重要因素。它支持对大面积的快速情境感知，支持多机器人系统中的灵活密集度量-语义SLAM，并促进在未知环境中的快速地图学习。该参数需要评估算法调整不同映射大小和环境条件的能力，特别是考虑光照、视频和/或图像清晰度。它还应为多种应用需求提供多样性，适用于室内和室外场景。

适应动态环境： SLAM算法处理环境中动态物体的能力是机器人系统的重要考虑因素。该参数评估算法检测、跟踪和纳入动态物体和移动障碍物到映射过程中的能力。它侧重于算法使机器人有效处理这些物体并在SLAM过程中快速响应的能力。一个强大的动态环境应确保算法能够在实时应用中适应和响应，这对在变化迅速的环境中操作的系统尤为重要。

开源可用性和社区支持 ：在为项目选择SLAM算法时，观察该算法是否为开源且是否有活跃用户社区是重要的。这使得根据需求自定义和调整系统变得更加容易，受益于用户社区的经验。此外，拥有社区支持确保算法获得更新、修复和改进，从而增强了算法的可靠性和耐久性，使其在系统实施过程中更能应对挑战。

地图数据表示和存储 ：该参数关注SLAM算法如何表示和管理地图，使研究人员能够评估其在系统硬件实现中的适用性。评估包括所选方法的地图表示方式（如基于网格、特征或点云），有助于评估在机器人系统中存储地图信息的效率，而不遇到挑战。地图表示的选择影响内存使用和计算需求，是机器人应用中的关键因素，尤其是基于CNN和深度学习方法的应用。

最后，我们在表2中总结了上述细节，提供了各种V-SLAM算法的综合概述。该表作为算法选择的宝贵资源，提供每种方法的比较细节，深入了解传感器能力，考察各算法最有效使用的传感器类型及其在算法功能中的作用。此外，该表强调了方法的潜在应用领域，帮助研究人员将研究目标与合适的V-SLAM方法相结合。表中还根据映射规模对算法进行了分类，区分小规模（100米以内）、中等规模（500米以内）和大规模（1公里及以上）的映射能力。同时，评估它们在不同光照条件下的表现，按鲁棒性分类，从最低（+）到最高（+++++）。此外，表中还根据光强度范围（RoLI）分类，反映机器人在多种光照条件下的有效操作能力，从非常暗到极其明亮。此外，方向性容忍度（T2D）类别评估算法在强方向性光源（如聚光灯和窗户）环境中的功能能力。这些标准为研究人员选择最适合其特定研究任务的SLAM方法提供了宝贵的资源。

总结

本研究简化了V-SLAM方法的评估，使其在理解其行为和适用性方面变得更加容易。研究涵盖了各种活跃的V-SLAM方法，每种方法都有独特的优势、局限性、专业应用场景和特定工作流程。该研究为在V-SLAM方法中进行选择的研究方法论奠定了坚实的基础。在整个研究过程中，显而易见的是，V-SLAM的发展与基准数据集的可用性密切相关，这些数据集为方法验证提供了基础。因此，该工作为理解现有V-SLAM方法的系统行为奠定了良好的基础。研究探讨了在ROS环境中运行的SLAM技术，提供了在简化机器人系统架构时的灵活性。研究还识别了与研究人员工作相关的合适算法和传感器融合方法。

通过考察以往的研究，我们识别出将V-SLAM软件工具纳入系统架构的潜在好处。此外，集成T265相机和OAK-D相机等硬件工具被认为是一项有价值的策略。这种集成在减少机器人导航过程中的错误方面具有重要潜力，从而增强了整个系统的鲁棒性。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述：用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++：基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架