专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
介个工作室  ·  阿里巴巴国际站运营干货:商品发布全攻略 ·  4 小时前  
雅玛森跨境  ·  雅玛森跨境一站式服务业务简介 ·  18 小时前  
江玉燕  ·  【Shopee】卖家速看!越南站点自2025 ... ·  昨天  
雨果网  ·  重磅!TikTok ... ·  昨天  
进出口财税通  ·  跨境电商出口海外仓预退税要理清这几个问题! ·  昨天  
51好读  ›  专栏  ›  计算机视觉工坊

无惧运动物体遮挡!1.53 ms!CCTNet:LiDAR位置识别最新SOTA!SLAM回环稳了!

计算机视觉工坊  · 公众号  ·  · 2024-05-31 21:47

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

转自:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

位置识别指的是智能机器人确定当前观察到的场景是否曾经被访问过。这是通过将当前传感器测量结果(例如摄像机和光探测与测距仪)与存储在地图或数据库中的过去测量结果进行比较来实现的。它在最小化同时定位和地图构建(SLAM)任务中的累积误差方面起着至关重要的作用,并为全球导航卫星系统(GNSS)受限条件下的全局定位提供了必要的初始位置猜测。由于广泛使用摄像头,已经提出了许多基于视觉的地点识别方法。然而,这些方法在光照条件下面临挑战,因为光照变化会影响特征提取,导致检索失败。

相比之下,激光雷达由于对环境光照条件的鲁棒性而引起了广泛的研究兴趣,引发了关于基于激光雷达的地点识别的广泛讨论。现有研究已经彻底探讨了基于激光雷达的地点识别方法,这些方法依赖于手动特征,这些特征源自研究人员对感应特性的深入理解和分析,例如由体素化、直方图、映射等技术生成的描述符。然而,手工制作特征通常需要领域专业知识,手动描述符在处理复杂场景中的变化和不确定性方面具有有限的鲁棒性。深度学习的最新进展导致了相关理论和方法的应用于端到端描述符生成。许多方法从点云数据中自动学习多层次表示,捕捉复杂场景中变化和遮挡的模式。为了满足实时要求,最近的方法利用从点云生成的范围图像作为输入。OverlapNet,由Chen等人提出,直接估计激光雷达帧之间的重叠和相对偏航角以实现地点识别。然而,"受限的感受野"问题限制了当前区域捕获目标级信息的能力,并通过层叠堆叠来阻碍水平感受野的扩展。这种限制进一步阻碍了提取当前场景的全局信息,并破坏了点云列之间的结构关系。

为了解决这些问题,本文提出了一个具有回归损失的圆形卷积Transformer网络,用于具有可移动对象遮挡的场景中的地点识别任务。首先,提出了一个圆形卷积模块。它将范围图像视为一个环,利用多列卷积来学习局部特征细节,范围图像列之间的关系以及点云的圆形结构特征。接下来,提出了一个范围变换器模块,动态分配权重给各种通道和像素区域,使信息在通道和空间维度之间进行融合和交互。最后,引入了一个回归损失函数,使用两帧点云之间的重叠作为生成的描述符的相似度的精确标签。

下面一起来阅读一下这项工作~

1. 论文信息

标题:CCTNet: A Circular Convolutional Transformer Network for LiDAR-based Place Recognition Handling Movable Objects Occlusion

作者:Gang Wang, Chaoran Zhu, Qian Xu, Tongzhou Zhang, Hai Zhang, XiaoPeng Fan, Jue Hu

原文链接:https://arxiv.org/abs/2405.10793

2. 摘要

位置识别是机器人应用的基本任务,允许机器人在同时定位和地图构建(SLAM)中执行回环检测,并在先前的地图上实现重定位。当前基于范围图像的网络使用单列卷积来保持特征不变性,以应对由激光雷达视点变化引起的图像列的移动。然而,这引发了诸如"受限感受野"和"过度关注局部区域"等问题,降低了网络的性能。为了解决上述问题,我们提出了一种轻量级的循环卷积Transformer网络,称为CCTNet,通过捕获点云中的结构信息并促进空间和通道信息的跨维度交互来提高性能。首先,引入了循环卷积模块(CCM),扩展了网络的感知范围,同时在不同的激光雷达视角下保持特征一致性。然后,提出了一个范围Transformer模块(RTM),通过采用通道和空间注意机制的组合,增强了在可移动物体场景中的场所识别准确性。此外,我们提出了一个基于重叠的损失函数,将场所识别任务从二元循环闭合分类转化为与激光雷达帧之间重叠的回归问题。通过对KITTI和Ford Campus数据集的广泛实验,CCTNet超越了可比方法,在测试集上实现了0.924和0.965的Recall@1,以及0.990和0.993的Recall@1%,展示了卓越的性能。在自行收集的数据集上的结果进一步证明了所提出的方法在处理可移动物体的复杂场景中的实际实施潜力,并显示了在各种数据集中的改进泛化能力。

3. 效果展示

相邻位置上的可移动物体的查询帧(蓝色)和参考帧(绿色)。1)在 A)、B) 和 C) 处的遮挡通常占据多个像素列。单列卷积的有限感知范围阻碍了网络捕捉全局信息。2)尽管两个帧源自同一位置,但在 A) 处相比于 a) 的可移动物体的存在,由单一空间注意机制捕捉导致更高的权重分配给该区域。我们的循环卷积 Transformer 网络能够拓宽水平感受野,并促进空间和通道信息的跨维度交互。

4. 主要贡献

a)提出了一种新颖的圆形卷积方法,它扩展了水平感受野,同时保留了点云的结构特征,解决了传统卷积受到视角变化影响的问题。

b)在空间-通道维度上引入了一个交互式Transformer模块,平衡了通道之间的全局交互表示和空间注意机制。

c)设计了一个与点云重叠相关的损失函数,消除了平衡正负样本的需要,并解决了长尾效应。

d)在KITTI、Ford和一个自收集的数据集上进行了大量实验,验证了所提方法的泛化能力。

5. 基本原理是啥?

本节提出了一种基于变换的定位架构,包括五个阶段:1)范围图像编码器,2)循环卷积模块,3)范围变换器模块,4)全局描述符编码器和5)损失函数。在范围图像编码器阶段,点云被转换为等效偏航角的范围图像。接下来,循环卷积模块将范围图像视为360°全景图像,提取循环结构特征和列关系。然后,范围变换器模块接收循环卷积模块的输出,利用通道和空间注意机制减轻可移动对象对特征图的影响。特征图进一步送入全局描述符编码器,该编码器利用NetVLAD和MLP将其转换为场景的全局描述符。在训练过程中,点云之间的重叠作为生成的描述符相似性的标签,增强了模型的领域适应性。图2展示了所提方法的整体流程。

图3(a)展示了一个列宽为1的卷积核。为了捕捉图像列之间的关系,需要扩大卷积核的列宽wK,如图3(b)中标记为2)的矩形所示。在传统的卷积方法中,对两端应用零填充以避免卷积图像的宽度收缩,如图3(b)中的灰色区域所示。然而,当激光雷达(LiDAR)视角发生变化时,范围图像会发生列位移,如图3(b)和3(c)中的2)和3)所示。在这种情况下,在图3(b)和(c)的两端添加零填充会导致在不同视角下从相同位置生成的图像具有不同的填充位置。这进一步导致不同的卷积结果,这对于地点识别是不可接受的。因此,在本文中引入了循环卷积模块CCMF,如图3(d)中标记为5)和6)的红色框所示。该模块根据卷积核大小和步幅自适应地将图像的一侧填充到另一侧,使得卷积核可以跨越图像的两端。这确保了卷积结果不受视角变化的影响。

在这种情景中,物体对位置识别有不同的贡献。传统的卷积在从图像中提取局部特征方面表现出色,但可能难以优先考虑到关键区域。为了克服这一限制,目前的方法通常利用以其空间注意力能力而闻名的ViT网络。ViT为图像中不同区域的像素分配不同的权重,将图像分成多个具有不同重要性级别的区域。然而,空间注意力强调特定区域的像素,导致具有或没有可移动物体的场景中的特征差异,从而产生描述符的变化。为了缓解这一问题,引入了一个范围变换器模块,结合了通道注意力和空间注意力机制。通道注意力动态地为特征分配权重,减轻了空间注意力对局部焦点的关注。这有助于生成一致的描述符。

6. 实验结果

我们的方法和其他方法的结果如表2所示。可以看出,本文提出的方法优于比较的方法。我们的方法在Recall@1方面取得了0.924的结果,相比于最先进的深度学习方法CVTNet和Overlap Transformer分别提高了1.43%和1.99%。与手工特征方法Iris和Scan Context相比,我们的方法分别提高了10.66%和12.68%。这表明,当面对仅选择排名第一的结果的约束时,我们的方法通过正确识别更多的实例分别提高了10.66%和12.68%。至于Recall@1%的指标,我们的方法仍然优于其他方法,值为0.990。超过了第二好的方法CVTNet 1.23%,这意味着当受限于在每百个位置中仅选择排名最高的结果时,我们的方法在正确识别位置方面优于CVTNet,超过了1.23个位置。这一成功归功于多列卷积策略实现的高效特征提取和稳定描述符生成,以及通道和空间注意机制的集成。这在像KITTI 00数据集这样的场景中尤其有益,其中闭环样本跨越了重要间隔,导致了场景内可移动物体位置变化的概率较高。

为了进一步验证所提出的方法能够很好地推广到具有不同LiDAR传感器的多样环境中,我们进行了一系列实验,使用了自行收集的数据集。对于JLU校园数据集,序列03具有最多的闭环数量,特别是具有大量的反向闭环,使其成为模型训练的理想数据集。序列02作为验证集。序列01和04被指定为测试集,因为它们具有前向和反向闭环。设置地面真值的标准是初始帧与闭环帧之间的距离小于4米。这些序列的详细信息如表3所示。图7中的可视化提供了有关数据集的额外见解。

图8和表4展示了我们的方法在JLU校园数据集上在定性和定量方面与其他方法相比的表现。显然,我们的方法在两个序列上都表现出了出色的领先性能。在序列01上,Overlap Transformer的AR@1仅为0.4852,低于传统方法ISC的0.4926。此外,它在其他指标上的表现也不如后者。这主要是因为在可移动物体的干扰下,范围图像更容易受到遮挡的影响。基于范围映射的方法相比于点云数据更容易丢失信息。与点云数据相比,基于范围图像的方法在性能上遇到了挑战。我们的方法在这种复杂场景中始终优于其他算法。值得注意的是,我们取得了0.546的AR@1分数,比第二名ISC提高了显著的10.89%。此外,以0.9731的AR@1%分数,它展示了范围变换模块(RTM)在应对具有挑战性环境中的可移动物体影响方面的有效性。序列04上的表现进一步验证了我们的方法。Overlap Tranformer在序列04上的AR@1为0.7594,低于ISC的0.7693和IRIS的0.7714。我们的方法达到了0.8244,比Overlap Transformer提高了8.56%。这显示了我们的方法在具有可移动物体的环境中的可靠性,展示了其在实际自动驾驶应用中的潜力。

每种方法的运行时间如表6所示。记录了描述符提取和搜索步骤的运行时间。在描述符提取步骤中,快速直方图是最快的方法,而我们的方法运行时间为1.53毫秒,略逊于快速直方图,但比激光雷达(100毫秒)的采样速度快得多。在描述符搜索阶段,我们的方法仅需0.39毫秒。它优于其他方法,表明CCTNet生成的描述符更具有区分性。以上结果表明,我们的方法能够实现实时位置识别任务,这归因于我们的轻量级网络结构。

7. 总结

本文提出了一种基于激光雷达的位置识别方法,考虑了点云结构信息,并解决了场景中的移动物体遮挡问题。首先引入了圆形卷积模块,它不仅扩大了网络的感受野,而且捕获了点云的环状结构特征。此外,还采用了一个Transformer模块,将通道注意力和空间注意力集成在一起,以解决在存在遮挡物的情况下,单个空间注意力过度关注特定区域的问题。此外,提出了一种基于重叠的回归损失函数,以增强模型的域自适应能力。该方法在KITTI和Ford Campus数据集上分别实现了0.924和0.965的Recall@1得分,达到了最佳水平。为了进一步评估在具有多个移动物体的场景中的性能,我们在JLU Campus数据集上进行了大量比较实验。实验结果表明,我们的方法优于其他方法。未来的工作可能旨在将时间信息整合到我们当前的模型中。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉工坊知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网: www.3dcver.com






请到「今天看啥」查看全文