0. 这篇文章干了啥?
单目关键帧视觉同时定位与建图(MKVSLAM)是一种应用于移动机器人的基于优化的框架。该方法在计算机器人姿态的同时,逐步为每个关键帧构建环境的稀疏重建。关键帧包含对观测空间的紧凑描述(不存储实际图像),并通过有向图(称为姿态图)与其他关键帧相互连接。当增量跟踪中断时,必须在短时间内恢复全局姿态,以保持机器人定位的准确性和地图的可用性。在本文中,这一事件被定义为短期重定位问题。
在此框架中,恢复全局位置的一个重要步骤是从姿态图中选择一定数量的适当关键帧。此外,描述增量跟踪中断时物理空间的信息对于后续的姿态恢复是有用的。这一步被定义为基于关键帧的位置识别(KPR)。在这方面,每个关键帧都需要一个独特的描述,以区分姿态图中的其他关键帧。
多个MKVSLAM框架使用词袋(DBoW2)方法选择用于姿态恢复的关键帧。在这种方法中,关键帧通过非语义局部特征的集合进行描述。然而,词袋方法在短期重定位方面显示出有限的成功,因为触发跟踪丢失的事件减少了识别的局部特征数量。此外,DBoW2不包含空间数据。
一些MKVSLAM框架已将人类可理解的语义信息整合到其流程中。在这些工作中,语义数据为几何地标(如点、平面和对象)提供了额外信息,并可以为人员跟踪提供可靠的解决方案。
本文利用深度神经网络在语义数据提取方面的进展,提出了一种快速且准确的短期重定位问题解决方案。所提出的方法引入了一种新颖的多模态关键帧描述符,该描述符由单目图像的语义和空间数据组成。该描述符被集成到一种关键帧选择(KPR)方法中,该方法通过多阶段过滤算法选择适当的关键帧候选。这种新颖的KPR方法与现成的3D-2D姿态估计技术相结合,构建了一种新颖的重定位流程。通过将这种新颖的重定位方法集成到开源的MKVSLAM框架ORB-SLAM3中,本文展示了所提方法在GPS受限环境下运行的无人机和地面机器人数据集上的鲁棒性和效率。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Solving Short-Term Relocalization Problems In Monocular Keyframe Visual SLAM Using Spatial And Semantic Data
作者:Azmyin Md. Kamal, Nenyi K. N. Dadson, Donovan Gegg, Corina Barbalata
机构:Louisiana State University
原文链接:https://arxiv.org/abs/2407.19518v1
2. 摘要
在单目关键帧视觉同时定位与建图(Monocular Keyframe Visual Simultaneous Localization and Mapping, MKVSLAM)框架中,当增量位置跟踪失败时,必须在短时间内恢复全局姿态,这也被称为短期重定位。这一能力对于移动机器人实现可靠导航、构建精确地图以及在人类协作者周围进行精确行为至关重要。本文重点研究使用单目相机系统为移动机器人开发鲁棒的短期重定位能力。我们引入了一种新颖的多模态关键帧描述符,其中包含了在环境中检测到的对象的语义信息以及相机的空间信息。利用该描述符,我们提出了一种新的基于关键帧的位置识别(Keyframe-based Place Recognition, KPR)方法,该方法被表述为一个多阶段关键帧过滤算法,从而为MKVSLAM系统提供了一种新的重定位流程。我们在多个室内无GPS数据集上对提出的方法进行了评估,并展示了与词袋方法相比,该方法能够实现更精确的姿态恢复。
推荐学习:
当SLAM遇上3DGS!基于3D高斯的全新SLAM算法
3. 效果展示
4. 主要贡献
本文的贡献如下:
• 提出了一种新的关键帧描述符,称为姿态语义描述符(PSD)。它利用语义数据和相机姿态来唯一地表征姿态图中的关键帧对象。基于该描述符,本文提出了一种新的KPR算法,称为姿态-类别-框(PCB)。
• 将所提出的KPR方法集成到ORB-SLAM3 MKVSLAM框架中,以改进短期重定位性能。
5. 基本原理是啥?
高级系统概述:对于每个关键帧(彩色矩形),所提出的多模态描述符是利用语义和空间数据形成的。当在红色关键帧中丢失跟踪时,所提出的关键姿态恢复(KPR)方法从姿态图中选择一定数量的关键帧。通过解决候选关键帧中3D地图点与查询关键帧中2D关键点之间的一系列对应关系,可以得到全局姿态的估计。随后,通过姿态图优化步骤,在黄色关键帧中恢复全局姿态,并在绿色关键帧中恢复增量跟踪。
图2展示了短期重定位方法的框架。该方法使用基于深度神经网络(DNN)架构的对象检测模块来提取语义数据(以淡紫色表示)。这些数据被传递到MKVSLAM系统(以浅蓝色表示)。在以下段落中,将介绍新的关键帧描述符,并详细说明基于关键帧的位置识别方法。
6. 实验结果
这些结果表明,将几何和语义信息同时纳入关键帧描述符中,通过允许以比DBoW2方法更快的速度选择更多的关键帧候选,从而提高了其能力。所提出的重定位方法的性能如表II所示。所提出方法的平均执行时间为3.817毫秒,而DBoW2重定位方法的平均执行时间为3.011毫秒。尽管所提出的KPR方法显示出快速的关键帧选择能力(平均0.297毫秒),但在重定位过程中,主要的计算负担落在PnP求解器上。这主要是因为KPR生成的关键帧候选数量是基线DBoW2的四倍,从而导致3D地图点到2D关键点对应关系的处理增加。尽管如此,所提出的方法仍保持了实时速度,约为4毫秒。所提出的重定位方法通过减少在丢失状态下花费的时间(大约50%),相比DBoW2方法表现出更好的性能。这可以从表II中“丢失状态下的平均时间步长”列中看出。此外,如表II中“平均局部地图”列所示,所提出的方法平均创建的局部地图数量少于DBoW2方法。这表明更丰富的关键帧描述有助于整个系统,因为它减少了在丢失状态下花费的时间。如果丢失状态持续存在,则更有可能初始化新的局部地图,这可能导致姿态估计不准确。
接下来,将分别讨论每个数据集上所提出的重定位方法的性能。在MH数据集中,所提出的重定位方法表现出良好的性能,仅在丢失状态下花费了三个时间步长,并创建了一个局部地图。这导致了没有恢复失败的情况。相比之下,DBoW2重定位方法在丢失状态下花费了四倍的时间步长,并生成了更多的局部地图。所提出方法的绝对轨迹误差(ATE)为0.337米,比DBoW2方法减少了约39%,这表明位置精度更高。在LiM数据集中,观察到了类似的性能,其中所提出的重定位方法平均在丢失状态下花费了八个时间步长,并创建了三个局部地图。相比之下,DBoW2重定位方法创建了五个局部地图,需要13个时间步长来恢复全局姿态。
7. 总结 & 未来工作
本文提出了一种新的多模态关键帧描述符,该描述符基于场景中检测到的对象的语义信息和基于单目图像计算出的相机姿态。本文开发了一种新的关键姿态恢复(KPR)方法,该方法使用三阶段过滤算法从姿态图中选择适当的关键帧候选。这两个组件与PnP求解器相结合,在ORB-SLAM3框架内创建了一个新的短期重定位流程。在通过无人机和地面机器人收集的18个无GPS图像序列上,所提出的方法在性能上超过了词袋方法;这一结论已通过定量分析得到验证。未来的工作将研究3D对象姿态与信息理论的集成,以将所提出的方法扩展到多代理框架中。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉工坊知识星球
「
3D视觉从入门到精通
」知识星球,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云