作为计算机视觉领域的一项基石性研究,图像匹配具有广泛的应用,包括目标检测、图像拼接、从运动恢复结构(Structure-from-Motion,SfM)、视觉定位和姿态估计。图像匹配可分为传统方法、基于深度学习的方法和混合方法。传统方法通常依赖于图像中关键点的检测和匹配,如尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)、加速鲁棒特征(Speeded Up Robust Features,SURF)和定向快速和旋转简短(Oriented FAST and Rotated BRIEF,ORB)。这些技术通过识别和比较关键点来实现图像匹配,这些关键点本身被设计为能够抵抗图像缩放、旋转和部分遮挡等变化。然而,这些方法在处理复杂的图像变化(如剧烈的光照变化或视角的大幅偏移)时可能效果不佳。此外,每个关键点仅包含其自身的特征,并未利用相邻关键点的特征。相比之下,深度学习方法通过训练神经网络来学习图像的深度特征表示,从而增强了图像匹配的鲁棒性。这些方法通常使用卷积神经网络(Convolutional Neural Networks,CNNs)或Transformer来提取图像特征,并通过端到端过程直接从数据中学习匹配模式。深度学习方法擅长处理非线性图像变化和复杂模式,从而表现出卓越的性能。然而,与传统方法类似,深度学习方法通常只能捕获局部或全局特征,而无法有效地将两者结合起来。混合方法结合了传统方法和深度学习方法的优点。这些方法旨在通过将手工制作的特征融入深度学习框架或在特征提取阶段将它们结合起来,从而提高图像匹配的准确性和鲁棒性。文献成功探索了在决策层面结合手工特征和深度特征进行匹配,并取得了优异的结果。此外,我们认识到上述方法往往忽略了关键点之间的相互依赖关系,如位置关系。我们认识到可以通过另一种范式来研究图像匹配。手工特征提取的关键点可以形成图结构,这促使我们考虑是否可以用不同的方式来研究图像匹配。然而,传统的CNN在处理此类不规则数据时存在困难。幸运的是,与图像和文本等高度结构化数据不同,由顶点和边组成的图在表示和分析非欧几里得空间中的数据方面表现出色。此外,专门为图数据设计的图神经网络(Graph Neural Networks,GNNs)可以直接处理图结构,并被视为推动人工智能从“感知智能”向“认知智能”发展的关键。GNNs可以学习任何图结构的通用范式,并且任何改进都可以跨领域推广,因此具有广泛的应用。事实上,近年来GNNs在图像匹配领域已展现出巨大潜力。为了使图像适合GNN处理,可以采用各种方法来构建图。然而,这些方法往往导致图的顶点和边数量过多,并包含孤立的顶点或子图。为了解决这些问题,我们提出了一种基于两种协同工作的新方法的图像匹配系统。首先,我们采用了一种基于相似性的自适应图构建方法,通过在高相似度顶点对之间选择性地创建边来最小化顶点和边的冗余。其次,我们利用GNN和Transformer的优点,将局部结构与全局信息相结合,以实现稳健的图像匹配。