专栏名称: 新机器视觉

最前沿的机器视觉与计算机视觉技术

2024年图像匹配挑战赛：银牌解决方案！

新机器视觉 · 公众号 · 科技自媒体 · 2024-11-12 11:22

主要观点总结

本文介绍了在图像匹配挑战中的一项研究，该项目旨在利用不同图像集构建3D地图。文章详细描述了项目的方法、实验结果和其他尝试。

关键观点总结

关键观点1: 项目背景与目的

该项目是为了参与2024年图像匹配挑战，目标是利用来自不同场景、环境和领域的图像集构建3D地图。

关键观点2: 项目方法

项目采用流水线方法，包括图像检索、关键点特征提取、关键点特征匹配、融合和空间位置估计等步骤。

关键观点3: 图像检索

使用EfficientNet-B7模型提取图像全局描述符，基于余弦距离进行图像对排序和筛选。

关键观点4: 关键点特征提取

尝试了多种关键点特征提取方法，最终采用KeyNetAffNetHardNet和SuperPoint进行特征提取。

关键观点5: 关键点特征匹配

使用了AdaLAM和SuperGlue进行关键点匹配。

关键观点6: 融合策略

采用融合学习，结合多种特征提取和匹配算法，提高整体性能和适应性。

关键观点7: 空间位置估计

使用pycolmap库进行空间位置估计。

关键观点8: 实验结果

项目在私有列表上取得了良好成绩，并通过实验验证了由KeyNetAffNetHardNet+SuperPoint组成的流程优于其他方法和单一流程。

关键观点9: 其他尝试

项目尝试了一阶段密集匹配器如LoFTR、DKM等，但结果较差。此外，还尝试了图像旋转方法，但发现不使用旋转的方法结果更好。

正文

来源：3DCV

0. 论文信息

标题：Silver medal Solution for Image Matching Challenge 2024

作者：Yian Wang

机构：North Broward Preparatory School

原文链接：https://arxiv.org/abs/2411.01851

1. 导读

图像匹配挑战2024是一项专注于从不同图像集构建3D地图的竞赛，要求参与者解决不同角度、光照和季节变化的图像匹配中的基本计算机视觉挑战。该项目开发了一种结合多种先进技术的管道方法:使用预训练的EfficientNet-B7进行初始特征提取和基于余弦距离的图像对过滤，使用KeyNetAffNetHardNet和SuperPoint进行关键点特征提取，使用AdaLAM和SuperGlue进行关键点匹配，最后应用Pycolmap进行3D空间分析。该方法在私人排行榜上获得了0.167的优异成绩，实验结果表明，KeyNetAffNetHardNet和SuperPoint的组合在关键点检测和匹配方面具有显著优势，特别是在处理表面纹理和环境条件的挑战性变化时，这些变化通常会降低传统算法的性能。

2. 引言

2024年图像匹配挑战赛的目标是利用来自不同场景、环境和领域的图像集构建3D地图，这些图像包括无人机拍摄的画面、茂密森林深处的景象以及夜间拍摄的图片等。

与去年的2023年图像匹配挑战赛相比，今年的要求极为严格，例如模型的多样性、可变性和鲁棒性等方面。由于每张照片的拍摄角度略有不同，且照片拍摄的具体时间和季节不同，阴影也会有所变化。一张照片可能是在地面上拍摄的，另一张是从台阶上拍摄的，还有一张则是无人机拍摄的。从不同视角匹配图像是计算机视觉领域一个尚未得到完全解决的问题。诸如表面纹理或周围环境等因素可能会导致原本表现良好的算法性能下降。本项目开发了一种流水线方法，具体流程为：首先，使用预训练模型efficientnet-b7中的ImageNet权重提取每个场景图像集中的图像数据特征，基于余弦距离进行过滤，并根据相似性对图像集中的前n对图像进行排序。然后，逐一检索图像对，使用两个关键点特征检测器提取相关特征点位置，使用两个关键点匹配算法对所有匹配点位置进行匹配计算，并保存成功匹配的对（匹配对）。最后，将成功匹配点（匹配对）的图像对进行集成，排除相同的图像对，然后将其叠加到pycolmap中，以计算最终的3D空间位置关系（位置和姿态估计）。该流水线方法在排行榜的私有列表测试和公开测试中得分均为0.168089。

先前研究

为了完成2024年图像匹配挑战赛，本项目参考了2023年或2022年图像匹配挑战赛的工作，许多研究人员已经公布了他们所使用的方法，这些方法大多分为以下四个部分，即图像检索、特征提取、匹配和3D重建，分别进行实现。本项目介绍了这四个部分的一般方法。推荐课程：面向三维视觉算法的C++重要模块精讲：从零基础入门到进阶。

1.1 图像检索

图像检索是计算机视觉中的一项关键任务，旨在从大规模图像集中识别出高度相似的图像对。近年来，随着深度学习的进步，大多数图像检索方法现在依赖于深度学习技术来提取图像的全局特征。这些方法主要使用卷积神经网络（CNN）或Transformer网络。

卷积神经网络（CNN）因其能够高效地捕获图像中的空间层次结构而被广泛用于图像检索。NetVLAD是一种基于CNN的显著方法，它将VLAD（向量局部聚合描述符）聚合层的优势与深度学习特征相结合，在各种数据集上显著提高了检索性能。EfficientNet是另一种值得注意的CNN架构，它通过平衡网络的深度、宽度和分辨率，以更少的参数和计算资源实现了最先进的结果。ConvNeXt是一种现代化的CNN架构，它结合了Transformer网络的设计元素，进一步增强了其检索能力。

Transformer网络因其能够捕获图像中的长距离依赖关系和上下文信息而越来越受到关注。DINOv2是一种自监督的基于Transformer的模型，它能够在无需标记数据的情况下学习稳健的视觉表示，并在图像检索任务中表现良好。CLIP及其变体EVA-CLIP利用大规模图像-文本对进行预训练，实现了零样本迁移学习，并在图像检索基准测试中取得了显著成果。ViT引入了一种视觉Transformer架构，并直接将Transformer模型应用于图像块，在包括图像检索在内的多种视觉任务中创造了新纪录。

1.2 特征提取

随着SIFT的发展，局部特征已成为计算机视觉的重要组成部分。基于SIFT的经典方法包括三个步骤：关键点检测、方向估计和描述符提取。另一种方法AKAZE则是通过结合快速显著扩散和非线性尺度空间来实现的。

最近，描述符提取通常是在图像块（通常来自SIFT关键点）上训练深度网络。这些网络包括L2-Net、HardNet、TFeat。研究人员还尝试仅学习关键点检测器或描述符，其中包括TCDet、Keynet。还有一种端到端训练方法，包含SuperPoint、D2-Net、R2D2、ALIKED。

1.3 匹配

局部特征匹配通常是通过检查关键点、计算视觉描述符，并使用最近邻（NN）搜索这些特征的匹配项，从而筛选出错误的匹配项来完成的。另一种方法是使用鲁棒求解器（如RANSAC）来找到匹配项。基于深度学习的匹配方法最近也得到了发展，如SuperGlue、LightGlue，前者基于灵活的上下文聚合机制和基于注意力的图结构，后者则基于Transformer以及自注意力和交叉注意力。

1.4 重建

在结构从运动（SFM）领域，最流行的框架是VisualSFM和COLMAP，后者因其能够生成真实值且是多视图任务的核心而常被用于相关项目。

3. 方法

本节详细描述了本项目的整体流程架构，该流程包含五个部分：图像检索、关键点特征提取、关键点特征匹配、融合和空间位置估计，以下各节将详细阐述这些部分。

图像检索

项目针对每个场景，在数据集中筛选出相似的图像对。它采用高效的卷积神经网络模型（EfficientNet-B7）来提取图像的全局描述符，并基于这些描述符计算图像之间的相似性。项目将N值设定为45，如果场景中数据集的总图像数量小于此值，项目将采用穷举搜索方法来获取所有可能的图像对。相反，项目使用EfficientNet-B7模型获取全局描述符之间的欧几里得距离，然后根据距离矩阵和相似性阈值筛选出相似的图像对。

关键点特征提取

关键点特征提取在整个流程中占据关键位置，项目尝试了多种关键点特征提取方法，如：ALIKED、DISK[29]、SIFT、SuperPoint、Dog-hardnet，但效果并不理想。项目多次尝试改变关键点检测阈值、检测到的特征数量、图像形状大小、多个模型的融合等，发现这些参数影响模型效果，并最终发现当检测到的特征数量为8081、关键点检测阈值为0.001023349、图像形状大小为1024时，效果最佳。项目方法采用两种关键点特征提取方法，分别是KeyNetAffNetHardNet和SuperPoint，后续项目将介绍这两种特征提取方法。

Key-Aff-HardNet

Key-Aff-HardNet由三个模块组成：方向估计模块、特征点检测模块和描述符模块。其中，方向估计模块OriNet用于角度估计，特征关键点检测器使用KeyNet检测器以及AffNet形状估计，描述符使用HardNet网络。

HardNet是用于局部描述符学习的紧凑描述符，其核心是一种新颖的损失函数，旨在最大化一批数据中最近正样本和最近负样本之间的距离。该损失函数受SIFT匹配标准的启发，通过最小化匹配描述符与最近不匹配描述符之间的距离，来提高描述符的判别能力。具体来说，该方法首先生成一批包含匹配局部图像块的集合，然后通过网络计算这些图像块的描述符，并构建距离矩阵。接下来，从每对匹配样本中选择最接近的不匹配描述符，形成三元组。最后，通过计算三元组损失来优化模型。

HardNet架构采用L2Net CNN架构，使用一系列卷积层和批量归一化层来输出128维描述符，其网络结构如图1所示。本研究表明，HardNet在包括图像检索和宽基线立体视觉匹配在内的多个实际任务中，显著优于手工制作的和其他学习到的描述符。性能的提升归功于其简单而有效的学习目标以及对现有数据集的充分利用。

HardNet网络优于其他模型的原因之一是使用了三元组损失，通过最大化匹配样本对与最近负样本之间的距离来提高模型的判别能力。其原理是从训练数据中生成一组匹配的局部图像块对，计算所有样本对之间的欧几里得距离以形成距离矩阵，并从距离矩阵中选择每个锚点和正样本最接近的非匹配样本，即最难负样本。对于每对样本，根据匹配样本的距离和最近负样本的距离计算损失值，并将所有样本对的损失值平均以获得最终损失。以下给出公式（1）：

AffNet是一个用于估计局部仿射形状的卷积神经网络（CNN），旨在提高图像特征匹配的可靠性和准确性。传统的特征检测器，如Hessian-Affine，在光照和视角变化下表现不佳，无法保证可靠的特征匹配。AffNet学习仿射形状和方向，并提出了一种新的Hard Negative-Constant Loss函数，该函数结合了三元组损失和对比度损失的优点，以优化仿射区域估计。具体公式（2）如下：

公式（2）中，d(si, s˙i)表示第i个样本与其正样本之间的距离。该距离越小越好，因为它表示正样本之间的相似性更高。d(si,N)表示第i个样本与其负样本之间的距离。该距离越大越好，因为它表示负样本之间的相似性更低。该损失的核心是比较正样本之间的距离d(si, s˙i)和负样本之间的距离d(si,N)。对于每个样本si，如果1+d(si, s˙i)−d(si,N)的值大于0，则将其包含在损失中，否则为0。

KeyNet结合了手工制作和学习的卷积神经网络（CNN）滤波器，用于在浅层多尺度架构中高效稳定地检测关键点。手工制作滤波器提供锚结构，学习到的滤波器负责定位、评分和排序关键点，网络通过尺度空间表示在不同层次上提取关键点。

SuperPoint

SuperPoint是一个用于兴趣点检测和描述的自我监督学习框架。其方法基于全卷积神经网络架构，包含一个共享的编码器以及两个解码器头，分别用于兴趣点检测和描述符生成。

共享编码器采用VGG风格，通过卷积层、池化层和激活函数减少输入图像的空间维度。输入图像从I∈RH×W变为RHc×Wc，其中Hc=H/8且Wc=W/8，特征图缩小到原来的1/8。在兴趣点检测解码器中，特征图被映射到X∈RHc×Wc×65，其中65个通道用于8*8网格区域加上一个兴趣点分数。输出向量通过softmax转换为RH×W。

描述符解码器使用双三次线性插值将特征图映射到D∈RHc×Wc×D的原始图像分辨率，然后通过L2归一化将描述符压缩为单位值。SuperPoint在此项目中使用了预训练模型进行推理。

关键点特征匹配

项目尝试了三种方法，如LightGlue、SuperGlue、AdaLAM。

AdaLAM

AdaLAM是一种基于局部仿射运动验证和样本自适应阈值的图像匹配高效离群点检测方法。该方法结合了计算机视觉领域多年来开发的最佳实践，提出了一种用于高效离群点过滤的分层流程，并整合了现代并行硬件的利用，使其能够在短时间内处理大量图像关键点匹配。具体来说，AdaLAM通过选择高置信度和分布良好的种子点，并验证其邻域内的局部仿射一致性，来过滤掉错误的匹配。其自适应阈值机制通过统计显著性检验进行调整，提高了算法在不同场景下的泛化能力和鲁棒性。实验结果表明，AdaLAM在多个室内和室外场景中表现良好，并显著优于现有的最先进方法。

SuperGlue

SuperGlue是一个用于图像特征匹配的神经网络，通过结合图神经网络和注意力机制来解决图像之间的特征匹配问题。它侧重于通过解决微观最优传输问题来估计匹配关系，并使用图神经网络预测匹配成本。SuperGlue引入了自注意力和交叉注意力机制，使其能够在图像内部和图像之间聚合上下文信息，并同时推理3D场景和特征分配。该方法包含两个主要模块：注意力图神经网络和最优匹配层。前者通过自注意力和交叉注意力机制聚合图像特征，后者通过最优传输问题生成部分分配矩阵，以有效处理遮挡和不可重复的关键点。SuperGlue能够实时运行，并且可以无缝集成到现代结构光（SfM）或即时定位与地图构建（SLAM）系统中，为它们提供高质量的特征匹配和姿态估计。

融合