专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

顶刊TIV！无缝嵌入SLAM回环检测&重定位！基于深度特征的视觉位置识别！

3DCV · 公众号 · · 2024-10-30 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：On Model-Free Re-ranking for Visual Place Recognition with Deep Learned Local Features

作者：Tomáš Pivoňka, Libor Přeučil

机构：Czech Technical University in Prague

原文链接：https://arxiv.org/abs/2410.18573

1. 导读

重新排序是视觉地点识别任务的第二阶段，其中系统从预先选择的候选图像子集中选择最匹配的图像。无模型方法基于对应的局部视觉特征的空间比较来计算图像对相似性，消除了对描述图像之间的变换的模型的计算昂贵的估计的需要。这篇文章关注的是基于标准局部视觉特征的无模型重排序及其在长期自治系统中的适用性。它引入了三种新的无模型重排序方法，这些方法主要是为深度学习的局部视觉特征而设计的。这些特征表现出对各种外观变化的高鲁棒性，这是用于长期自治系统的重要属性。所有引入的方法都与D2网络特征检测器一起用于一个新的视觉地点识别系统，并通过各种具有挑战性的公共数据集进行了实验测试。所获得的结果与当前最先进的方法相当，证实了无模型方法是长期视觉位置识别的可行且有价值的途径。

2. 引言

视觉位置识别（VPR）是指从查询图像中搜索其拍摄位置的任务。环境由特定地点的图像数据库或由此数据库构建的模型来表示。在某些情况下，单个数据库图像的全局位置也是已知的。然后，VPR的输出可以是查询图像的全局位置、其与最佳匹配图像的相对位置，或者仅仅是最佳匹配图像的索引。本文工作专注于上述类型中的最后一种，即在不知道全局图像位置的情况下搜索最佳匹配图像。在这种情况下，VPR通常被视为图像检索任务。

在移动机器人和自动驾驶车辆中，这些VPR系统用于基本定位，并有两个主要应用。在同时定位与地图构建系统（SLAM）中，VPR系统支持闭环检测，这触发了地图的全局优化，以减少累积误差。其次，识别出的图像可以直接用于自动驾驶车辆的导航。例如，基于外观的教学-重复系统直接控制车辆，依赖于查询图像与教学阶段构建的数据库中最接近图像之间的检测到的偏移。

由于计算时间有限，通常不可能以穷举的方式将查询图像与数据库中的所有图像进行比较。因此，VPR通常分为两个阶段：过滤和重新排序。在过滤阶段，算法在整个数据库中进行快速搜索，并找到一定数量的最佳匹配候选图像。然后，在VPR的第二阶段，通过进行更深入的比较对找到的候选图像进行重新排序。

空间验证和非几何重新排序属于主要的重新排序方法。空间验证方法利用图像之间匹配的稀疏局部视觉特征来计算图像相似性。这些方法可以进一步分为基于模型和无模型两类。基于模型的系统估计图像之间的空间变换，通常使用鲁棒方法来处理错误匹配（例如，RANSAC），并基于模型评估相似性。替代的无模型方法直接从匹配中计算图像相似性，例如，通过直方图投票。

非几何方法不依赖于局部对应关系，而是利用其他替代原理。迄今为止，只有少数系统使用了无模型方法，尤其是在与深度学习的视觉特征相结合时。本文工作的主要动机是语义和空间匹配视觉位置识别系统（SSMVPR），该系统在2020年的许多公共数据集上取得了最先进的成果，并展示了无模型方法的潜力。然而，该方法与标准的局部视觉特征不兼容，并且依赖于仅在固定、规则网格位置提取的自身类型的局部视觉特征。它们的主要缺点是这些特征不直接与图像内容结构相关。图1提供了与标准局部视觉特征相比的此概念的说明。

本文工作的主要目标是研究和设计新的无模型方法，这些方法使用标准的局部视觉特征。一般来说，由于标准视觉特征与图像中真正存在的结构相关，因此它们可以在图像之间更好地匹配。它们也大多在图像的纹理良好部分中被检测到。此外，由于其通用适用性，其他视觉系统（例如，视觉里程计）可以同时重用相同的特征，这在实际应用中节省了计算资源。由于本研究侧重于长期自主系统的方法，因此新方法主要针对通常对环境中的各种外观变化保持高度鲁棒性的深度学习局部视觉特征进行设计。

3. 效果展示

公差范围为2的所有数据集中的平均召回率为1 [%]。橙色柱是本系统的结果，蓝色柱是参考系统的结果。

4. 主要贡献

在这里，我们介绍了三种新的无模型重新排序方法，这些方法专为标准局部特征而设计。为了评估目的，这些重新排序方法与鲁棒的D2-net特征检测器一起进行了测试，该检测器仍属于VPR任务的最新检测器。首先，将新的重新排序方法与原始SSM-VPR的过滤阶段相结合，并在多个具有挑战性的公共数据集上进行了测试。这些数据集包含由移动物体、天气和季节变化或不同光照条件引起的环境中的各种外观变化。由于原始SSM-VPR过滤阶段证明对整体性能有限制，因此使用更新的MixVPR系统重复了最佳重新排序方法的实验。此外，还为此配置测试了一种结合过滤和重新排序分数的新方法。推荐课程：彻底搞懂视觉-惯性SLAM：基于VINS-Fusion 。

5. 方法

本节介绍了三种新的无模型重新排序方法。这些方法根据计算出的与查询图像的相似度分数对候选图像（在VPR过滤阶段中选择的）进行重新排序，并返回最终的最佳匹配图像。图像对的相似度分数是从局部视觉特征的相互对应关系计算得出的标量值。所提出方法的输入是检测到的局部视觉特征的位置及其对应关系，这些对应关系匹配图像之间最相似的视觉特征。可选输入是检测到的特征的质量分数或匹配描述符的距离，这两者都用于对单个匹配进行加权。

第二种方法旨在将基于锚点原理的SSM-VPR的成功方法与与图像结构相关的标准局部视觉特征相结合。原始方法的一个关键属性是，视觉特征是在固定的方形网格位置提取的（图1），因此两个图像之间的特征匹配可以存储在二维矩阵中。该矩阵对应于方形网格中视觉特征的空间排列。每个矩阵元素表示第一幅图像中的特定视觉特征，并存储第二幅图像中具有最接近描述符的最相似特征的位置。该位置由网格中特定位置的唯一索引表示，该索引可以分解为二维特征网格中的两个坐标。

这种矩阵表示不适用于标准局部视觉特征，因为它们在图像中的分布是不规则的，并且它们的数量会波动。但是，它们的匹配可以转换为具有固定特征位置的类似表示，然后几乎以相同的方式进行处理。下面将介绍这种方法。

将第一幅图像分成模拟原始SSM-VPR特征网格的方形区域，并将局部特征组织成与特定区域相对应的组。在每个区域中，分配的特征使用其匹配的位置为第二幅图像中同样划分的相应区域投票。每个匹配的投票强度由其权重决定。选择得分最高的区域作为最终匹配。通过这种方式，局部特征被转换为几乎与原始SSMVPR相同的矩阵表示。

唯一不同的是，并非所有区域都必然有匹配项。

锚点和相似度分数计算的原始概念如图3所示。一对锚点是两幅图像之间的选定匹配项。无模型方法检查两幅图像中，与锚点对相邻的特征及其匹配项的相对位置是否相等，即是否相互一致。相邻特征是从第一幅图像中锚点周围的方形窗口中选择的。每个锚点的分数是一致特征的数量，最终候选相似度分数是所有作为锚点选取的特征的分数之和。

所引入的无模型方法被应用于一个新的视觉位置识别（VPR）系统中。该系统将SSM-VPR过滤阶段或MixVPR与新的重排序方法相结合。

第二阶段的局部视觉特征由D2-net检测器提取。这代表了一种最先进的基于深度学习的解决方案，在应对显著外观变化方面表现出卓越的鲁棒性。与SSM-VPR类似，视觉特征是从卷积神经网络（CNN）层中提取的，但它们与图像的结构相关，并非在固定位置检测。因此，特征可以更加精确地匹配，特别是在纹理良好的图像部分中尤为明显。在所展示的系统中，特征是在单个图像尺度上通过D2-Net作者在MegaDepth数据集上训练的默认网络提取的。

整个系统的流程图如图4所示。两个阶段分别进行视觉特征检测和数据库创建。重排序阶段数据库存储了所有参考图像的D2-net特征。在识别过程中，查询图像的D2-net特征与过滤阶段返回的最佳匹配候选图像的特征进行匹配。该系统使用基于描述符欧几里得距离的标准最近邻匹配器和交叉检查。交叉检查是一个额外步骤，仅保留具有相互最近特征的匹配项。之后，所选的无模型方法根据匹配项为每个候选图像计算相似度分数。最后，返回得分最高的图像作为表示识别地点的最佳图像。

6. 实验结果

7. 总结 & 未来工作

本文介绍了三种新的无模型重排序方法，这些方法通常适用于所有标准的局部视觉特征。这些方法主要是为了深度学习局部视觉特征而设计的，因为它们特别适用于长期自主应用。这类特征的关键优势在于，它们通常对环境中的各种外观变化保持高度的鲁棒性。

为了评估和测试所引入的方法，它们与D2-net特征检测器一起被应用到一个新的VPR系统中。该系统将所提出的重排序方法与SSM-VPR过滤阶段或MixVPR相结合。该系统在六个公共数据集上进行了实验评估，并与几种最先进的解决方案进行了直接比较。实验证实，所引入的无模型方法非常适合长期VPR。具有更新过滤功能的位移直方图重排序方法在Nordland数据集上取得了最佳结果，并且在所有测试方法中具有最高的平均召回率。此外，Mix-histcomb版本表明，重排序性能可以从过滤阶段的分数中受益。

新方法对所有标准局部视觉特征的通用适用性，使其有可能与其他稳健的深度学习检测器结合使用，并为长期VPR达到新的最先进的成果。此外，新的VPR系统和所引入的方法可以像其他定位系统（例如，SLAM）一样直接应用于教学-重复导航。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。