点击下方
卡片
,关注“
自动驾驶之心
”公众号
今天自动驾驶之心为大家分享上交最新的泊车工作GCSLAM!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>
点击进入→
自动驾驶之心
『
BEV感知
』
技术交流群
论文作者
| 3D视觉之心
编辑 | 自动驾驶之心
写在前面 & 笔者的个人理解
上交的工作:本文提出了一种全局一致的语义SLAM系统(GCSLAM)和语义融合定位子系统(SF-Loc),在复杂的停车场中实现了精确的语义建图和鲁棒的定位。视觉相机(前视和环视)、IMU和车轮编码器构成了我们系统的输入传感器配置。我们工作的第一部分是GCSLAM。GCSLAM引入了一种新的因子图来优化位姿和语义图,该图结合了基于多传感器数据和BEV(鸟瞰图)语义信息的创新误差项。此外,GCSLAM还集成了一个全局停车位管理模块,用于存储和管理停车位观测值。SF-Loc是我们工作的第二部分,它利用GCSLAM构建的语义图进行基于地图的定位。SF-Loc将配准结果和里程计位姿与一个新的因子图相结合。我们的系统在两个真实世界的数据集上表现出了优于现有SLAM的性能,在鲁棒的全局定位和精确的语义建图方面表现出了出色的能力。
总结来说,本文的主要贡献如下:
-
提出了一种全局一致的语义SLAM系统GCSLAM,该系统基于因子图优化,具有创新的车位表示和新的几何语义组合误差项约束。
-
引入了一个停车位管理模块,该模块存储停车位观测值并更新全局停车位,同时有效地处理噪声和错误检测。
-
提出了一种基于地图的定位子系统SF-Loc,该子系统使用因子图优化将语义ICP结果和里程计约束融合在一起。
-
在复杂的现实世界室内停车场验证了我们的系统,表明我们的系统实现了实时、高精度的定位和语义建图性能。
相关工作回顾
早期的视觉SLAM方法是基于滤波方法实现的。随后,利用BA优化的SLAM系统出现了。DSO在估计稠密或半稠密几何体之前引入了光度误差和几何误差。ORB-SLAM采用ORB特征和滑动窗口来实现精确的位姿估计。与滤波方法相比,基于优化的方法提供了更高的精度和更好的全局一致性。
尽管如此,具有单个摄像头的SLAM无法恢复规模,并且容易受到视觉模糊的影响。为了提高系统的鲁棒性和准确性,开发了将视觉数据与其他传感器相结合的多传感器融合方法。MSCKF使用视觉信息构建观测模型,并使用惯性测量单元(IMU)数据更新状态。VINS Mono提出了一种紧密耦合、基于优化的视觉惯性系统。VIWO开发了一种基于MSCKF的位姿估计器,该估计器集成了IMU、相机和车轮测量。DM-VIO通过延迟边缘化和位姿图束调整来增强IMU初始化。Ground-Fusion引入了一种自适应初始化策略来解决多个角点情况。
然而,由于室内环境的复杂条件,如有限的独特特征和复杂的照明条件,这些方法无法在室内停车位内执行AVP任务的SLAM。为了解决这些问题,一些工作都利用鸟瞰(BEV)图像作为输入,可以提供丰富的地面特征,以解决停车场独特特征有限的问题。AVP-SLAM使用语义分割来注释图像中的停车位、地面标记、减速带和其他信息,因为分割方法可以有效地适应复杂的照明条件。该语义信息被添加到全局图中,然后用于注册辅助定位。然而,他们的地图是用于注册的纯点云图,没有独立记录每个停车场,也缺乏每个停车位的位置和角度等重要属性信息。赵等人利用停车位检测器检测停车位的入口点,并将停车位的观测与里程计相结合,构建新的定位因子。然而,这种方法并不能维护一个完整的停车位地图。相反,它主要使用地图作为定位的辅助工具。VISSLAM在停车位之间添加了约束,结合里程计信息提出了一种改进建图结果的停车位管理算法。后续工作MOFISSLAM结合了滑动窗口优化,实现了更高的定位精度和改进的建图结果。
然而,现有的方法对噪声很敏感,在复杂的停车场表现不佳。为了解决这个问题,我们提出了一种新的室内停车SLAM因子图,提高了鲁棒性和准确性。
方法详解
我们的系统采用多个传感器作为输入,包括一个前视摄像头、IMU、车轮编码器和四个全景摄像头。我们工作的总体框架如图2所示。我们工作的第一部分是SLAM系统GCSLAM。GCSLAM集成了三个模块:全局时隙管理模块、里程计和因子图优化。里程计模块与其他模块松散耦合,使其可替换,增强了系统的灵活性和可用性。本文采用VIW作为里程计模块。全局时隙管理模块包括BEV感知模块和时隙关联。我们的BEV感知模块是一个基于多任务框架。它以BEV图像为输入,实时生成语义分割结果(地面标记)和时隙检测结果(停车边界端点),使用统一的骨干网络,为每个特定任务提供不同的输出头。此外,该全局时隙管理模块将检测结果注册到全局时隙并执行时隙关联。基于里程计位姿、语义信息和时隙关联结果,因子图优化可以实现精确的位姿估计和全局语义图构建。在建立全局语义图后,我们工作的第二部分,定位子系统SF-Loc,将里程计位姿与语义配准结果融合在一起,用于基于地图的定位。
带语义车位节点的因子图
我们将SLAM任务视为一个因子图优化问题,旨在估计关键帧的精确位姿。基于里程计提供的帧间距离来选择关键帧。因子图由节点和边组成,其中节点表示要优化的变量,边是约束节点的误差项。如图3所示,GCSLAM使用两种类型的节点和四种类型的边构建因子图
节点和误差术语的定义将具体介绍如下。
1)位姿节点:由于我们的SLAM系统假设一个平面停车场,姿势节点
在世界坐标系中存储了第i帧的3自由度(DoF)车辆位姿(x,y,θ)。我们使用里程计模块提供的估计位姿
位姿来初始化位姿节点
。此模块作为单独的线程运行。
2)车位节点:当BEV感知模块检测到停车位时,它会在像素坐标中输出其入口边缘的端点坐标和方向。我们首先使用BEV图像的虚拟固有K和当前帧位姿Ti将入口边缘的中点注册到世界坐标。Ti的方程为:
3)里程表误差项(OET):我们基于里程表模块在