专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
51好读  ›  专栏  ›  智驾实验室

告别迷路 ,OverlapMamba 提升激光雷达位置识别能力 !

智驾实验室  · 公众号  ·  · 2024-06-23 08:00

正文

位置识别是使自主系统能够实现独立决策和安全操作的基础。

在SLAM中的循环闭合检测和全局定位等任务中也至关重要。先前的方法使用平凡的点云表示作为输入,并采用基于深度学习的激光雷达位置识别(LPR)方法,使用不同的点云图像输入与卷积神经网络(CNNs)或 Transformer 架构。

然而,最近提出的结合状态空间模型(SSMs)的Mamba深度学习模型在长序列建模方面具有巨大潜力。

因此,作者开发了OverlapMamba,一个用于位置识别的新型网络,它将输入范围视图(RVs)表示为序列。作者以一种新颖的方式采用随机重建方法来构建移位状态空间模型,压缩视觉表示。

在三个不同的公共数据集上进行评估,作者的方法有效地检测循环闭合,即使在从不同方向穿越先前访问过的地点时也显示出鲁棒性。依赖于原始范围视图输入,它在时间复杂度和速度上超过了典型的激光雷达和多视图组合方法,表明了强大的位置识别能力和实时效率。

I Introduction

在本文中,作者提出了一种新颖的地点识别方法,利用自动驾驶系统上安装的3D激光雷达(LiDARs)生成原始范围视图(RVs)。对这些RVs进行后续操作,生成用于识别户外驾驶场景不同视角下地点的鲁棒全局描述符。

地点识别技术在自动驾驶系统全局定位的确定中,通过特征比较将传感器捕获的场景与数据库中的场景相匹配,是自主系统在未知环境中导航的关键技术之一。

因此,研究和开发更准确、更鲁棒的地标识别算法已成为SLAM研究的重要方向。本研究中,作者提出的方法通过引入OverlapMamba模型,提高了地点识别的效率和准确性,并通过实验验证了其性能优于现有技术。

II Related work

在自动驾驶的早期阶段,科学家们利用摄像头作为主要传感器对视觉地点识别(VPR)进行了广泛的研究[14]。

因此,对VPR研究的理解主要基于Lowry等人[16]的综述文献。在这里,作者关注LPR的相关工作。

LPR Based on Local Description

之前的LPR方法主要是通过手动设计或深度学习方法生成局部描述。这些方法有效地捕捉到了独特的特征,如纹理和颜色,并表现了它们周围环境的内容。最初,受到自旋图像[17]的启发,手动设计的局部描述常用于LPR任务,比如识别和验证在不同时间从同一地点收集的数据。

这是通过从点云的几何和拓扑结构中提取关键点,并手动计算这些点的描述符来匹配点云之间实现的。例如,杨家齐等[18]引入了一种通过加权投影向量生成局部描述的方法,以增强LPR的稳定性。曹凤奎等[19]提出了一种名为承载角(BA)的图像模型,用于提取场景匹配的特征。

另一种方法是通过深度学习生成局部描述,通常使用3D CNN编码点云 Patch 。查尔斯·R·奇等[9]设计了一种直接利用点云的方法,使用点云的排列不变性来生成高效且鲁棒的局部描述。

然而,基于局部描述的LPR方法都容易受到视角变化影响关键点的准确性,并且依赖大量的计算能力来处理密集点云;

因此,这些方法在处理来自高精度激光雷达设备的稀疏点云方面存在局限性。

LPR Based on Global Description

近期方法倾向于使用基于流行全局描述的方法来描述整体场景特征,提供了数据的整体视图。这些方法通常使用各种形式的数据作为输入,如RV、BEV和球形视图。Xieyuanli Chen等人[12]提出了一种网络,可以解决闭环检测和场景识别问题。这种方法通过重叠距离图像直观且高效地估计扫描对之间的相似性。随后,OverlapTransformer[13]作为之前模型的增强版本被引入。

这个轻量级网络利用 Transformer 架构在偏航不变描述符上加入注意力加权,从而显著提高了位置识别性能。

在OverlapTransformer的基础上,Junyi Ma等人[24]提出了一种跨视图 Transformer 网络,该网络融合了从激光雷达数据生成的RV和BEV,提高了全局描述符的鲁棒性。

其他方法[14]也采用了 Transformer 架构,该架构以捕捉长距离依赖和上下文关系而闻名,以实现在杂乱环境中的有效识别。

然而,它们巨大的计算需求限制了训练过程中的批量大小。

方法[1]采用基于投影的方法,这提供了更低的计算需求和更好的可解释性,但不可避免地在维度降低过程中丢失信息。

III Overview of the Framework

本研究专注于将前沿的SSM,即Mamba模型,整合到SLAM技术中,以提高地点识别的效率并增强全局定位的能力。作者首先描述SSM的基础知识。

在第三节B部分,作者介绍了OverlapMamba的概念,其全面框架如图2所示。

然后在第三节C部分,作者详细说明了OverlapMamba块的架构,并说明如何对输入序列进行建模。

鉴于作为Mamba输入的全局描述符是从沿着垂直维度的随机变量(RVs)卷积得到的,作者在第三节D中详细阐述了序列的金字塔池化,它对序列执行多尺度一维池化以保留空间信息。

在第三节E中,作者讨论了在训练过程中使用计算重叠标签的Triplet Loss的问题。

Preliminaries

基于SSM和Mamba的结构化状态空间模型(S4)受到了连续系统的启发,这些系统将一维函数或序列 通过隐藏状态 映射到 。从数学上讲,它们通常被表述为线性常微分方程(ODEs),参数包括 ,以及 Short-Cut 参数 。在这个系统中, 作为演化参数,而 作为投影参数。

作为连续时间模型,SSMs在集成到深度学习算法中时面临重大挑战。为了克服这个障碍,需要进行离散化,S4和Mamba是具有以下离散化规则的连续系统的离散版本。

以下公式用于实现并行训练并推导出使用卷积高效计算 的核: 表示序列长度, 表示一维卷积的核。

Mamba-Based Place Recognition

点云和RVs之间的投影变换是必要的。点云 可以通过 投影到RVs 上,其中每个3D点被变换为 上的一个像素。每个点 被变换为图像坐标 如下:

其中 是对应点 的距离测量, 是传感器的垂直视场, 分别是生成的RVs的宽度和高度。

作者使用单通道随机变量(RVs,假设批处理大小为1),其大小为 。单通道RVs提供了更直接的深度信息,与三通道RGB图像相比,在训练过程中更加节省内存。标准Mamba模型最初是为1D序列设计的,通过将RVs转换为顺序数据格式,作者将其适配用于视觉任务。

作者借鉴了OverlapLeg [12]中的思想,在后端中只沿着垂直维度使用卷积滤波器,而不压缩宽度维度。在OverlapLeg中,RV沿着垂直维度被分割成 大小的序列,用1-D卷积进行处理,然后再拼接成一个单一的 序列。

然而,单通道RV不可避免地没有足够的空间信息来确保最终生成的序列不丢失场景信息。这种错误是由于单一维度处理导致的噪声放大。因此,作者在后端设计中引入了序列金字塔池化。

受到视觉Mamba [23]的启发,作者使用Mamba以高准确性和效率处理序列。标准的Mamba是为一维序列量身定做的。作者将RVs序列化,以处理视觉任务,转换为 ,其中 是通道数, 是RVs的宽度。然后,作者将 发送到OverlapMamba编码器的第 层以获得输出 。最后,作者对输出 应用激活函数,对其进行归一化,并将其反向传递到GDG。

在GDG中,作者使用NetVLAD [15]生成对偏航角不变描述性特征符号。NetVLAD有助于实现端到端的基于图像的位置识别,具有固有的偏航旋转不变性。

例如,如果输入的原始激光雷达数据旋转了90度和180度,距离图像中的距离将分别偏移 。然而,最终生成的全局描述符是偏航不变的,因此在两种情况下都会生成相同的全局描述符。整个过程如下公式所示。

其中 表示OverlapMamba块,输入序列 在通过OverlapMamba块后与其自身连接。 代表GDG,它负责将标准化的序列转换为最终的全球描述符。

OverlapMamba block

所提出的OverlapMamba块(OLM)如图2所示。原始的Mamba模块专门为1D序列设计,可能不适用于需要空间感知的任务。在最近的研究中,研究行人普遍采用双向序列建模方法[23]。这种方法本质上将图像划分为多个块,并通过位置编码将它们映射成序列。同时,一些研究选择使用四个不同方向序列作为输入[24, 25],沿着水平和垂直轴收集像素信息,然后反转这些生成的序列以创建四个序列的组。最后,通过选择性的SSM(S6)模型[22],所有序列被合并成一个新的序列。

在本文中,重叠 Backbone 中的卷积滤波器仅沿着垂直维度压缩范围图像,而不压缩宽度维度。这使得特征序列的最大输出尺寸为 。作者采用双向方法进行序列建模。由于作者直接通过堆叠的卷积模块获得标记序列,因此无需沿水平方向添加额外的位置嵌入或采样。标记序列直接包含偏航信息,并且在处理后翻转反向序列包含机器人从相反方向接近同一场景的信息。

因此,作者认为由于距离图像中包含的全局场景信息,标记序列是同一个场景在不同偏航角度下从一个循环序列生成的。因此,在重叠 Backbone 中,作者使用算法1中的







请到「今天看啥」查看全文