0. 论文信息
标题:Towards Autonomous Indoor Parking: A Globally Consistent Semantic SLAM System and A Semantic Localization Subsystem
作者:Yichen Sha, Siting Zhu, Hekui Guo, Zhong Wang, Hesheng Wang
机构:Shanghai Jiao Tong University、Dimensional Robot
原文链接:https://arxiv.org/abs/2410.12169
1. 摘要
我们提出了一个全局一致的语义SLAM系统(GCSLAM)和一个语义融合定位子系统(SF-Loc),实现了复杂停车场中精确的语义映射和鲁棒的定位。视觉相机(前视和全景)、IMU和车轮编码器构成了我们系统的输入传感器配置。我们工作的第一部分是GCSLAM。GCSLAM引入了一种新颖的因子图来优化姿态和语义图,其中包含了基于多传感器数据和BEV(鸟瞰图)语义信息的创新误差项。此外,GCSLAM还集成了一个全球车位管理模块,用于存储和管理车位观察数据。SF-Loc是我们工作的第二部分,它利用GCSLAM构建的语义地图来进行基于地图的本地化。SF-Loc将配准结果和里程计姿势与一个新的因子图集成在一起。我们的系统在两个真实世界数据集上展示了优于现有SLAM的性能,在鲁棒的全局定位和精确的语义映射方面展示了优异的能力。
2. 引言
同时定位与地图构建(SLAM)是机器人技术和自动驾驶领域的一项基础任务。尽管SLAM已在多种场景下得到广泛研究和应用,但其在室内停车场环境中的应用仍面临独特的、尚未解决的挑战。
在室内停车场中,由于全球导航卫星系统(GNSS)信号的缺失,无法直接获取高精度车辆位姿。此外,出于商业应用成本的考虑,更倾向于使用惯性测量单元(IMU)和摄像头等低成本传感器。然而,这些传感器在室内停车场环境中会面临独特的照明条件、重复的结构特征和不同区域间相似的纹理等挑战,所有这些情况都可能阻碍视觉SLAM的有效性。
最近,一些方法已展现出在室内停车场环境中执行SLAM以完成自动代客泊车(AVP)任务的能力。这些方法利用从环视摄像头中提取的基于学习的语义信息来解决照明条件恶劣的问题。然而,其系统结构缺乏在停车环境中进行优化所需的足够约束,导致在大型且复杂的停车场中性能不佳。此外,AVP SLAM方法的测试场景相对简单,通常仅涉及几排停车位。然而,现实世界的停车场更为复杂,以停车位密度高和通常覆盖需要场内长距离驾驶的大区域为特征。在这种场景中,现有的AVP SLAM方法更容易出现错位和失真。此外,这些方法无法处理语义分割中的噪声和误检,导致映射结果不准确且定位精度降低。
为解决这些问题,我们提出了一种全局一致的语义SLAM系统GCSLAM。GCSLAM由一个创新的因子图和基于里程计、语义分割和停车位检测的全局停车位管理模块组成。受MOFIS[3]启发,我们构建了一个包含两种节点(位姿节点和停车位节点)的因子图。为解决停车位错位问题,我们设计了一种新的停车位关联方法,以准确确定停车位之间的关系。针对停车位失真问题,我们引入了一个相邻误差项,以减少由误检和噪声引起的相邻停车位之间的差距。此外,我们还设计了一个全局垂直误差项来约束停车位的方向。而且,我们引入了一个全局停车位管理模块来存储停车位观测值并相应地更新它们。该模块包括一个不稳定的停车位过滤策略和停车位更新策略,可以解决由鸟瞰图(BEV)感知模块引起的误检和噪声问题。
推荐课程:
ORB-SLAM3理论讲解与代码精析(第2期)
。
对于未知的停车场,一旦我们使用GCSLAM建立了完整的全局地图,后续再次访问时则无需重新运行GCSLAM。相反,我们激活基于地图的定位子系统。基于地图的定位通常由于具备先验场景知识的优势而具有更高的准确性和更快的性能。然而,与激光雷达获得的3D点云地图不同,视觉特征地图是稀疏的,这会导致配准精度降低。在一些极其稀疏的区域,这可能导致配准无法收敛。现有方法缺乏针对这些问题的改进。因此,我们提出了一种语义融合定位子系统(SF-Loc)。为解决迭代最近点(ICP)中的不稳定跳跃和里程计的累积漂移问题,SF-Loc结合了基于因子图优化的语义ICP配准和里程计,以实现稳健且准确的定位。
我们在停车位密度高的复杂停车场中进行了实验。全局一致的映射和定位结果证明了GCSLAM的鲁棒性和有效性。此外,我们在GCSLAM建立的全局地图上测试了我们的定位子系统SF-Loc,实现了分米级的全局精度。
3. 效果展示
我们系统的传感器设置。我们的测试车辆配备了前视摄像头、IMU、轮速编码器和一个由四个鱼眼摄像头组成的环视摄像头系统。环视图像被转换为鸟瞰图(BEV)图像,并通过BEV感知模块处理以获得语义信息。通过利用这些传感器数据和特征,我们的系统能够执行高精度定位并建立全局一致的语义地图。
4. 主要贡献
我们的主要贡献如下:
• 我们提出了一个全局一致的语义SLAM系统GCSLAM,该系统基于因子图优化,具有创新的停车位表示和新颖的几何语义组合误差项作为约束。
• 我们引入了一个停车位管理模块,用于存储停车位观测值并更新全局停车位,同时有效处理噪声和误检。
• 我们提出了一种基于地图的定位子系统SFLoc,其使用因子图优化将语义ICP配准结果和里程计约束相结合。
• 我们在复杂的现实室内停车场中验证了我们的系统,表明我们的系统实现了实时、高精度的定位和语义映射性能。
5. 方法
我们的系统采用多个传感器作为输入,包括前视摄像头、IMU、轮速编码器和四个环视摄像头。我们工作的总体框架如图2所示。我们工作的第一部分是SLAM系统GCSLAM。GCSLAM集成了三个模块:全局停车位管理模块、里程计和因子图优化。里程计模块与其他模块松散耦合,因此可替换,从而提高了系统的灵活性和可用性。在本文中,我们采用VIW作为我们的里程计模块。全局停车位管理模块包括BEV感知模块和停车位关联。
我们的BEV感知模块是一个多任务框架。它以BEV图像为输入,使用具有不同输出头的统一骨干网络,实时生成语义分割结果(地面标记)和停车位检测结果(停车位边界端点)。此外,该全局停车位管理模块将检测结果注册到全局停车位,并执行停车位关联。基于里程计位姿、语义信息和停车位关联结果,因子图优化可以实现精确的位姿估计和全局语义地图构建。在建立全局语义地图后,我们工作的第二部分是定位子系统SF-Loc,它将里程计位姿与语义配准结果相融合,以实现基于地图的定位。
6. 实验结果
7. 总结 & 未来工作
在本文中,我们提出了一种名为GCSLAM的新型系统,用于室内停车场跟踪与建图。GCSLAM结合了创新的因子图和新颖的误差项,能够在复杂的停车环境中实现稳健且高精度的建图。此外,我们还开发了一个基于地图的定位子系统SF-Loc。SF-Loc基于一种新颖的因子图,融合了配准结果与里程计位姿,有效提升了定位精度。我们通过真实数据集验证了我们的算法,证明了系统的有效性和鲁棒性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球