0. 论文信息
标题:Task-driven SLAM Benchmarking
作者:Yanwei Du, Shiyu Feng, Carlton G. Cort, Patricio A. Vela
机构:Georgia Institute of Technology
原文链接:https://arxiv.org/abs/2409.16573
1. 摘要
对于辅助机器人,SLAM的一个关键用例是当它们在完成任务的环境中导航时支持定位。当前的SLAM基准不考虑基于任务的部署,在这种部署中,可重复性(精度)比准确性更重要。为了解决这个问题,我们提出了一个任务驱动的基准框架来评估SLAM方法。该框架考虑了SLAM的制图能力,采用精度作为关键指标,并且实施时资源需求较低。在模拟和真实场景中测试最先进的SLAM方法,有助于深入了解现代SLAM解决方案的性能特性。特别是,它表明,在典型的室内环境中,无源立体声SLAM的工作精度与基于激光雷达的SLAM相当。基准测试方法为任务驱动应用中的SLAM性能提供了更相关和更准确的评估。
2. 引言
服务机器人已越来越多地被部署到家庭、工作环境及日常生活的其他领域。其主要目标是提供可重复的服务,并可能与人类工作者进行交互,从而提高生产效率,营造更高效的工作环境。这些移动机器人运行的核心是同步定位与地图构建(SLAM),其定位能力为导航提供支持。一个稳健可靠的SLAM系统对于完成分布在特定环境中的任务至关重要。尽管SLAM在现有基准测试和数据集上已取得高精度方面的最新进展,但使用SLAM的服务机器人在鲁棒性方面仍面临挑战。它们会在地图中丢失位置,从而导致任务失败,并需要人工干预来恢复服务。现有基准测试通常使用绝对轨迹误差(APE)或相对位姿误差(RPE)等指标,基于轨迹准确性来评估SLAM方法,但这些失败情况并未得到充分解决。对APE/RPE的关注导致许多SLAM方法优先提高准确性指标,而没有解决它们是否真正转化为面向任务的自主性的提高。对于使用SLAM的服务机器人,主要关注的是机器人是否能在需要时可靠地导航到同一位置。执行后续任务无需精确了解其绝对位置,因为这些任务依赖于其他基于感知的模块来在给定目标位置执行服务活动。在这种任务驱动的场景中,机器人只需有足够的定位成功率即可完成任务之间的转换。最重要的是,要有稳健且可重复的性能以确保任务成功执行。最好使用精度来衡量可重复性。
虽然最近已在丰富且具备多传感器融合能力的基准测试方面做出了巨大努力,但SLAM通过开环、传感器流回放与面向任务的性能之间的性能差距促使人们通过不同的视角来评估SLAM及相关自主性模块。模拟世界因其结果的可重复性、研究人员实施的便捷性以及真实信息的可用性而备受瞩目。具身人工智能研究,如Habitat导航挑战,例证了面向任务的评估方法的必要性。该基于模拟的挑战强调了稳健的长期导航能力的必要性。定位在支持自动驾驶车辆方面的潜力也促使人们为街道导航设计了基于模拟的基准测试方案,其主要指标是成功/失败。虽然定位模块在运行时已部署,但它不在决策回路中,从而忽略了该模块对系统性能的全面影响。SLAM延迟在其鲁棒性和准确性方面发挥着作用,对于使用SLAM位姿估计作为反馈的轨迹跟踪任务,已在这两个因素之间发现了某种关系。基于模拟的基准测试表明,在考虑闭环中的SLAM时,需要超越单纯的准确性。一个合理的下一步是更明确地考虑导航。由于需要绝对、全局的真实信号进行比较以获得准确性,因此现实世界中的基准测试仍然主要是开环的。要获得此类真实信号源,需要付出巨大努力。例如,KITTI[8]依赖实时动态差分定位(RTK-GPS)来实现车辆的高精度定位,而HILTI则采用全站仪(高精度激光扫描仪),这两者成本都很高。像EuRoC和TUM系列]这样的数据集使用动作捕捉系统,而这些系统很难在大规模室内多房间环境中实施。同样,像PennCOSYVIO这样的方法依赖于基准标记,引入了可能会偏置SLAM系统评估的人工特征。其他方法则依赖激光雷达SLAM或多传感器融合结果作为真实信息。然而,这些方法并不能准确反映SLAM在与其他相互连接、相互影响的模块集成时的实时性能。地下挑战赛(SubT)是一项真实世界的评估,它测试闭环系统(例如,集成了SLAM和导航的系统),在该系统中,机器人探索地下环境并定位分布在其中的目标。然而,除了目标检测外,它还优先考虑目标位置的准确性,因为性能评估侧重于全局框架中的绝对位置准确性。评估标准更多是关于给出目标的真实位置,而不是能够可靠地引导人员返回目标。生成真实信息使用了资源密集型的测量方法。其方法设计借鉴了,后者的室内评估方法结合了天花板安装的视觉标记和全站仪测量。我们的目标是减少对高精度、昂贵的绝对测量技术的需求或对用于真实信息的其他离线SLAM类型方法的依赖。
这些基准测试与服务机器人部署之间的另一个区别在于,后者通常在执行任务之前会包含一个初始映射阶段。现有基准测试仅通过一次性数据回放来评估性能,从而忽略了这一阶段。SLAM地图至关重要,因为它们可以缓解长期漂移,并确保在多次访问同一地点时的一致性(高精度)。多会话SLAM评估确实考虑了地图重用,以及针对重复访问同一地点的准确度和精度性能指标。然而,研究设计和变量可能会考虑激光雷达SLAM的不同性能因素和实验方法,以及视觉SLAM多地图和地图重用开环测试]的不同性能因素和实验方法。这些工作指出了为配备预建地图的SLAM系统提供可重复和标准化基准测试方案的需求。精度与准确度图显示,精度优于准确度,这表明SLAM评估可能会低估性能。包含映射阶段会进一步提高性能,尤其是位置精度。将性能指标与机器人特性(位于x轴下方)相关联,可以通过将精度与机器人在到达姿态时可能看到的任务区域联系起来,从而对潜在目标达成成功的可能性进行定性评估。
本文介绍了一种具有闭环导航的SLAM基准测试框架,该框架强调与任务相关的指标,如可重复性(精度)和完成度。它适用于基于激光雷达和视觉传感器的SLAM方法,并包括地图构建阶段。该基准测试方法模仿了现实世界中的实现,其中机器人通常有足够的时间来创建完整的地图,以便在部署期间更好地执行任务。通过对几种视觉和激光雷达SLAM方法进行实验,我们确定了哪些方法有效支持导航任务。
3. 主要贡献
主要贡献如下:
• 提出了一种低成本、易于设置、面向任务的SLAM基准测试,以精度作为衡量机器人在多轮中到达相同姿态的一致性的关键指标。该方法可扩展到大型环境。
• 在模拟和真实场景中评估了最先进的视觉和激光雷达SLAM系统,证据表明,对于室内环境,被动视觉方法与基于激光雷达的方法在鲁棒性和精度方面不相上下。
推荐课程:
(第二期)彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化
。
• 提供了开源基准测试框架,以惠及更广泛的SLAM研究领域。
4. 实验
所提出的基准框架的有效性将通过一系列受控实验来验证。
模拟实验采用所有指标(准确性、精确度和完整性)来评估SLAM(即时定位与地图构建)性能。准确性和精确度指标还与机器人的直径和相机的视场(FOV)相关,以量化机器人在相对位置和方向上的性能。这样做可以更紧密地将性能变异性与机器人及其任务联系起来。如果机器人相对于物体尺寸来说距离过远,或者相对于其视场来说朝向不佳,那么后续的视觉引导方法、操作或物体观察任务将失败。
A. SLAM候选方法
为了进行比较分析,测试了一组多样化的SLAM方法,涵盖了激光雷达和被动立体传感器。所有方法均包含惯性信号和机器人里程计信号(按需或允许时)。参数未针对测试中的最佳性能进行调整,而是使用了默认设置;它们在大多数场景中通常有效且性能均衡。我们的目标不是确定最佳的SLAM方法,而是确定合适的方法,并验证我们提出的基准框架的价值,并获得在机器人相关研究中普遍合理且可重复的结果。
1)二维激光雷达:SLAM-Toolbox和HectorSLAM。它们利用扫描匹配来校正机器人里程计的漂移,通常用于室内导航。
2)立体视觉和视觉-惯性:GF-GG和ORB SLAM3,这是基于特征的立体视觉方法;DSOL,这是一个直接稀疏里程计系统;SVO-Pro,这是一种半直接方法;以及MSCKF,这是一种基于滤波器的方法。ORB SLAM3在使用惯性测量时通常无法初始化,即使在测试前进行额外移动也是如此。它仅作为立体方法运行。
3)三维激光雷达-惯性:FAST-LIO2和LIO-SAM。它们通常用于自动驾驶,并被SubT挑战赛的竞争者使用。
B. 闭环实验
闭环测试在模拟环境和真实环境中进行。场景列在表I中。在每个场景中,机器人从固定的初始位置(通常是地图的原点)出发,按顺序通过各个路径点。所有实验中的规划频率保持不变,以确保一致性。到达每个路径点后,机器人会暂停5秒钟,然后再前往下一个路径点。与该路径点处的计算机/笔记本电脑(与NTP同步,延迟<1秒)在检测到附在机器人上的标签时,会保存带时间戳的图像数据。机器人的位姿是离线估计的,并通过时间戳与路径点相关联,以便进行性能评估。
单个场景会连续测试五轮。在每轮中,机器人会根据测试模式(无SLAM地图和有SLAM地图)进行重置或继续下一轮。对所使用的SLAM方法也采用相同的重置策略。有关基于地图的评估的详细信息,请参阅方法部分。只有当机器人在所有五轮中都到达某个路径点时,才认为该路径点成功完成;如果在任何一轮中未能到达某个路径点,则将其标记为未完成。对于每个成功完成的路径点(在五轮中都成功到达),计算其准确性和精确度。
1)模拟:由于Gazebo具有高度逼真的模拟环境,因此选择它作为模拟中的基准测试。它提供了现成的传感器数据,包括相机和激光雷达馈送以及准确的真实数据,从而能够对系统性能进行精确评估。
2)真实世界:测试扩展到了真实世界中的一栋办公楼,使用了Turtlebot2机器人(直径:37.5厘米),如图4所示,该机器人通过其内置传感器提供里程计测量。此外,我们还使用了RPLiDAR S2进行基于二维激光雷达的SLAM方法,使用Realsense D435i(视场:87°)进行视觉(和视觉-惯性)方法,以及使用Velodyne-16进行三维激光雷达SLAM方法。在评估中,我们使用30厘米和80.0°作为机器人尺度常数。激光数据也被整合到导航模块中,用于避障。所有进程都在一台Intel Core i7-9850笔记本电脑(单线程PassMark分数为2483)上运行。
我们定义了一个大约45米长的序列,包含六个路径点(图4)。这包括从路径点2开始穿过走廊的一段路程,接着是机器人在路径点3需要快速旋转移动的部分。随后,机器人沿路径点4和5原路返回,回到起点。按照真实世界测量方法,使用三个顶置摄像头(图4)来捕捉这些路径点,每个摄像头覆盖两个路径点。如果摄像头在某个路径点未能观察到机器人,则该路径点在该轮中被记录为失败。
C. 开环EuRoC数据集——初步研究
如引言所示,对开环SLAM基准测试的初步分析表明,从任务驱动的角度来看,SLAM性能评估可能会受益。本节描述了所进行的基准测试以及它如何促进本文所述的基准测试方法。机器大厅序列可以看作是一架飞行器在执行搜索或检查任务,其中的目标是在重复检查期间一致地识别和重新访问特定点。评估涉及位姿估计的准确性和精确度,其中每一帧都被视为机器人应到达的检查点。
1)设置:评估了两种具有从地图到帧的位姿跟踪功能的立体方法:ORB SLAM3和GFGG。对于SLAM地图的重用,每个序列在不重置SLAM方法的情况下重新启动,以保持地图在内存中供后续运行使用。为了评估SE(3)中的情况,对公式(1)和(2)进行了修改。我们估计机器人的直径在30至50厘米范围内,相机的水平视场(FOV)为70.8°。值30厘米和70.0°用作机器人尺度常数。
2)结果与分析:结果如图1所示,为精确度和准确性曲线图,表明在所有序列中,位置估计的精确度始终低于准确性。在不使用地图的情况下,精确度在机器人直径的1/6以内。对于方向也是如此,精确度值低于0.2度。当使用SLAM地图时,两种方法都表明性能有所提升,结果向左下角偏移。位置精确度降低到机器人直径的1/12。一个旨在从合理距离在视场中居中的物体仍然可见且几乎居中。这表明准确性不能充分反映从任务驱动角度看的潜在SLAM性能,并指出了用精确度代替准确性的好处。
D. 闭环基准测试结果与分析
首先,将分析模拟结果,因为准确性指标允许与精确度进行关联和比较。之后,将分析真实世界的结果。两者都表明,精确度是与完整性相匹配的有意义指标,并指出被动立体视觉SLAM与基于激光雷达(LiDAR)的SLAM性能相当。
模拟:图5a中的位置和方向精确度与准确性图表一致显示,在导航成功时,精确度优于准确性;较大的标记表示更高的成功率。这在一定程度上表明,当定位失败发生时,其后果是灾难性的,似乎不存在一个逐渐恶化的过程。图5b中的完整性与精确度图表也通过达到平稳状态而非在精确度轴上展现出线性增长至100%来表明了这一点。在所研究的情况下,SLAM方法的精确度要么达到机器人直径(或两倍)的水平,要么失败。考虑到视野范围,方向准确性与精确度都受到了良好的限制。由于方向性能的强劲表现,未来的分析将不再对其进行审查。
在测试的方法中,只有SLAM-Toolbox和GF-GG实现了完美性能。ORB SLAM3的低性能源于运行过程中的程序崩溃,这是其存储库中报告的一个未解决的问题。这些崩溃在长路径、大规模场景中更为频繁,表明系统问题出现在长期导航任务中。完成度最低的是里程计方法(DSOL、SVO-Pro),因为它们无法利用地图内容,也无法利用滤波窗口之外的长基线关联。性能相似的是3D激光雷达方法和MSCKF。考虑到3D激光雷达方法在现有基准测试中表现强劲,且在机器人部署中几乎普遍受到青睐,其表现不佳。这可能是由于系统参数设置或室内环境的分段均匀结构所致。Hector SLAM最接近完美,但失败次数足够多,因此不够可靠。从任务完成度提升的角度来看,所有失败的方法都没有从地图使用中显著受益。SLAMToolbox和GF-GG曲线向左移动,表明精确度有所提高(图5b中机器人直径处的垂直线作为比较的视觉参考)。
对SLAM-Toolbox和立体视觉方法的深入研究将考虑准确性和精确度,如图6中的小提琴图所示。比较左侧(蓝色)和右侧(橙色),地图的使用使分布尾部向核心区域移动。比较准确性和精确度,精确度分布似乎是准确性分布的压缩版本,表明这两种实现之间可能存在某种关系。结果表明,地图的使用对精确度有益,且精确度相对于机器人直径分布良好。虽然SLAMToolbox的精确度更高,几乎是GF-GG的四倍(1.75厘米 vs 6.41厘米),但GF-GG的任务性能不应受到较低精确度的影响。从任务角度来看,两者是等效的。
真实世界:首先,所有方法的平均方向精确度都低于10度,这是相机视野的1/8。从任务驱动的角度来看,这种精确度水平被认为是可接受的。分析将仅涵盖位置精确度。图7提供了真实世界测试中不使用和使用地图的完整性与精确度结果。在不使用地图的情况下,Hector-SLAM、DSOL和MSCKF没有达到100%的完整性,这与模拟结果一致。相比之下,LIO方法和SVO-Pro做到了。ORB SLAM3和FAST-LIO2是最后一个在超过机器人直径1倍时达到100%完整性的方法。在此之前的是SVO-Pro和LIO-SAM,大约在机器人直径1倍处。最先达到100%完整性的是SLAMToolbox和GF-GG。一些方法性能的提升很可能是由于这些测试相对于模拟来说区域更小、路径更短(约45米)。重要的是,被动立体视觉实现继续表现出与基于激光雷达的实现相当的性能。
接下来审视地图使用情况的图表,曲线向左移动表明精确度提高,并且各方法之间的方差总体减小。ORB SLAM3表现出最佳性能,其次是SLAM-Toolbox、GF-GG和FAST-LIO2。最后上升的是LIO-SAM。除了LIO-SAM之外,这些方法在机器人直径的2/5以内都是精确的(ORB SLAM3在1/5以内)。所有方法在任务完成度方面都是可接受的。在地图使用情况下,被动立体视觉实现位列前茅;排名前三的是ORB SLAM3、GF-GG和SLAM-Toolbox(2D激光雷达)。由于地图到帧的匹配和闭环,立体传感器实现更有效地利用了地图。这一点的证据在于图7中的精确度小提琴图,以及ORB SLAM3、GF-GG和SLAM-Toolbox的平均精确度分别为2.9厘米、3.9厘米和4.5厘米。请参阅多媒体附件中的来自俯拍相机的视觉证据,以定性了解精确度如何在各方法之间变化。
5. 总结 & 未来工作
本文介绍了一种任务驱动的SLAM基准测试。关注精确度凸显了其在任务导向型应用中的重要性,其中可重复性至关重要。该基准测试考虑了SLAM系统的地图构建能力,这是现有评估中经常忽视的一个方面。评估系统有效利用地图的能力,为更全面地理解SLAM性能和其适用于真实世界任务的程度提供了依据。结果表明,在室内导航任务中,视觉SLAM方法可以实现与基于激光雷达的方法相当的精确度性能。这一发现强调了视觉SLAM系统作为LiDAR方法的可靠且有效替代方案的潜力,它们提供相似的精确度水平,同时可能降低成本并提高可用性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群