专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
清廉蓉城  ·  案说规纪法丨“编织”的人生 ·  昨天  
成都本地宝  ·  成都周边10个免费的小众景点!当天就能来回! ·  2 天前  
中金固定收益研究  ·  【中金固收】春节读书心得与图书推荐 ·  3 天前  
拾榴询财  ·  聊聊长假全球市场,从黄金创新高说起 ·  4 天前  
51好读  ›  专栏  ›  3D视觉工坊

精度暴涨40倍!全新开源GIMS:将图像特征匹配推向极致!

3D视觉工坊  · 公众号  ·  · 2024-12-26 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:GIMS: Image Matching System Based on Adaptive Graph Construction and Graph Neural Network

作者:Xianfeng Song, Yi Zou, Zheng Shi, Zheng Liu

机构:South China University of Technology、University of British Columbia

原文链接:https://arxiv.org/abs/2412.18221

代码链接:https://github.com/songxf1024/GIMS

1. 导读

基于特征的图像匹配在计算机视觉中有着广泛的应用。图像中检测到的关键点可以自然地表示为图形结构,图形神经网络(GNNs)已经被证明优于传统的深度学习技术。因此,经由GNNs的图像匹配范例在最近的学术研究中获得了显著的重要性。在本文中,我们首先介绍了一种创新的自适应图构造方法,该方法利用了基于距离和动态阈值相似性的过滤机制。这种方法基于现有顶点的特征动态地调整合并新顶点的标准,允许构建更精确和健壮的图结构,同时避免冗余。我们进一步将GNNs的顶点处理能力与Transformers的全局感知能力相结合,以增强模型在图结构中的空间和特征信息的表示。这种混合模型提供了对顶点之间的相互关系及其对匹配过程的贡献的更深入的理解。此外,我们采用Sinkhorn算法迭代求解最佳匹配结果。最后,我们使用大量的图像数据集验证了我们的系统,并进行了全面的对比实验。实验结果表明,该系统的整体匹配性能平均提高了3.8-40.3倍。此外,顶点和边的数量显著影响训练效率和内存使用;因此,我们采用多GPU技术来加速训练过程。

2. 引言

作为计算机视觉领域的一项基石性研究,图像匹配具有广泛的应用,包括目标检测、图像拼接、从运动恢复结构(Structure-from-Motion,SfM)、视觉定位和姿态估计。图像匹配可分为传统方法、基于深度学习的方法和混合方法。传统方法通常依赖于图像中关键点的检测和匹配,如尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)、加速鲁棒特征(Speeded Up Robust Features,SURF)和定向快速和旋转简短(Oriented FAST and Rotated BRIEF,ORB)。这些技术通过识别和比较关键点来实现图像匹配,这些关键点本身被设计为能够抵抗图像缩放、旋转和部分遮挡等变化。然而,这些方法在处理复杂的图像变化(如剧烈的光照变化或视角的大幅偏移)时可能效果不佳。此外,每个关键点仅包含其自身的特征,并未利用相邻关键点的特征。相比之下,深度学习方法通过训练神经网络来学习图像的深度特征表示,从而增强了图像匹配的鲁棒性。这些方法通常使用卷积神经网络(Convolutional Neural Networks,CNNs)或Transformer来提取图像特征,并通过端到端过程直接从数据中学习匹配模式。深度学习方法擅长处理非线性图像变化和复杂模式,从而表现出卓越的性能。然而,与传统方法类似,深度学习方法通常只能捕获局部或全局特征,而无法有效地将两者结合起来。混合方法结合了传统方法和深度学习方法的优点。这些方法旨在通过将手工制作的特征融入深度学习框架或在特征提取阶段将它们结合起来,从而提高图像匹配的准确性和鲁棒性。文献成功探索了在决策层面结合手工特征和深度特征进行匹配,并取得了优异的结果。此外,我们认识到上述方法往往忽略了关键点之间的相互依赖关系,如位置关系。我们认识到可以通过另一种范式来研究图像匹配。手工特征提取的关键点可以形成图结构,这促使我们考虑是否可以用不同的方式来研究图像匹配。然而,传统的CNN在处理此类不规则数据时存在困难。幸运的是,与图像和文本等高度结构化数据不同,由顶点和边组成的图在表示和分析非欧几里得空间中的数据方面表现出色。此外,专门为图数据设计的图神经网络(Graph Neural Networks,GNNs)可以直接处理图结构,并被视为推动人工智能从“感知智能”向“认知智能”发展的关键。GNNs可以学习任何图结构的通用范式,并且任何改进都可以跨领域推广,因此具有广泛的应用。事实上,近年来GNNs在图像匹配领域已展现出巨大潜力。为了使图像适合GNN处理,可以采用各种方法来构建图。然而,这些方法往往导致图的顶点和边数量过多,并包含孤立的顶点或子图。为了解决这些问题,我们提出了一种基于两种协同工作的新方法的图像匹配系统。首先,我们采用了一种基于相似性的自适应图构建方法,通过在高相似度顶点对之间选择性地创建边来最小化顶点和边的冗余。其次,我们利用GNN和Transformer的优点,将局部结构与全局信息相结合,以实现稳健的图像匹配。

3. 效果展示

不同算法的匹配可视化。我们通过从三个测试集中选择一些图像来比较不同方法的实际匹配结果。GIMS在所有情况下,甚至在具有挑战性的情况下,都显著提高了匹配数量,展示了其强大的匹配性能。

在现实世界中对GIMS进行匹配可视化。我们的方法可以有效适应不同的视角、距离和旋转。

4. 主要贡献

我们将所提出的图像匹配系统的主要贡献总结如下:

• 为了有效减少图的冗余,我们引入了一种新的基于相似性的自适应图构建方法。通过根据特征描述符之间的相似性动态调整图构建过程,我们仅在具有高相似度的顶点对之间添加边。这种数据驱动的方法意味着图构建过程直接由数据的特性和相互关系决定,从而更好地捕获和利用图像数据中的内在结构和模式,同时有效地控制图的密度。 推荐课程: 多传感器标定不得不聊的20种标定方案(Lidar/Radar/Camera/IMU等)

• 为了成功地将局部结构与全局信息相结合,我们提出了一种将GNN与Transformer相结合的新方法。首先,GNN通过聚合图上相邻顶点的信息来更新每个顶点,从而捕获局部结构之间的复杂关系。然后,Transformer捕获长距离依赖性。这两种方法的结合有效地融合了局部图结构和全局特征。

• 为了提高模型训练效率,我们采用了多GPU并行加速技术。与传统的手工特征方法相比,深度学习模型,尤其是GNN和Transformer,通常需要大型数据集进行训练。为了有效减少训练时间,我们实现了数据并行策略来加速训练过程。

• 为了全面展示所提出的方法,我们提供了所提出系统与现有方法的综合比较实验。我们在标准的大规模基准图像数据集上对经典方法、最先进的方法和所提出的方法进行了比较。此外,我们还探索了不同场景下的性能,从而全面评估了每种方法的有效性和适用性。

5. 方法

在图神经网络(GNNs)中融入位置信息有助于模型理解顶点之间的物理关系。将GNNs引入图像匹配领域,有望显著提升匹配的准确性和效率。在本文中,我们提出了一种新颖的图像匹配系统,即基于图神经网络的匹配(GM),其总体架构如图1所示。

基于GNNs的图匹配总体流程。对于通过自适应图构建方法获得的图,我们提取以顶点为中心的图像块,并将其输入CAR-HyNet以提取特征描述符。GNN对顶点的局部空间信息进行编码,并整合位置数据,而Transformer则对全局信息进行编码。通过计算两个图的特征描述符的内积,我们利用Sinkhorn算法生成并优化得分矩阵,以产生匹配结果。

6. 实验结果

有效匹配数是直观的性能指标,能够清晰地反映匹配方法在特定任务上的性能,直接影响系统的可用性。在表III中,我们添加了每种方法在三个测试集上的平均匹配数(AMN)。为便于理解,我们对结果进行了排序。评估结果表明,不同方法呈现出一致的趋势。具体而言,我们的方法在匹配数上平均优于其他方法3.8倍至40.3倍。这一显著提升归因于我们的方法能够高效地识别和匹配不同场景中的相似图像特征,这得益于GNN提取的局部信息的有效利用。此外,GIMS(基于图神经网络的图像匹配系统)的匹配数仍略高于D-GIMS(动态图神经网络图像匹配系统),进一步证明了所提出的自适应图构建方法的有效性。此外,我们还从三个测试集中选择了图像,对不同方法的实际匹配结果进行了比较,如图7所示。结果表明,对于变化较小的图像,所有方法均取得了良好的匹配性能。然而,随着难度的增加,所有方法的匹配性能均不同程度地下降。此外,DeDoDe倾向于选择像素变化显著的区域,且检测到的顶点聚集在一起。这种聚集使得匹配性能更易受到局部区域的影响。相比之下,我们的方法在所有情况下都显著提高了匹配数,即使在具有挑战性的场景中也是如此。这是因为GNN模型允许顶点整合来自邻居的信息,即使图像发生变换,也能为单个顶点提供更稳健的特征表示。此外,自注意力机制和交叉注意力机制使顶点能够理解其在当前图像和待匹配图像中的全局位置信息。然而,由于篇幅限制,本文仅展示了一部分图像,而其他图像则呈现出相同的趋势。

7. 总结

在本文中,我们提出了GIMS,这是一种基于相似性感知的自适应图构建方法和基于图神经网络的图像匹配方法的新型图像匹配系统。所提出的图构建方法通过根据邻域距离和特征相似性在顶点之间建立边,并根据现有顶点特征动态调整纳入新顶点的标准,从而将GNNs应用于图像。这种方法构建了精确且稳健的图结构,避免了冗余的顶点和边。此外,我们使用GNN显式学习顶点的局部特征编码,然后通过位置编码和注意力Transformer学习顶点的空间和全局特征编码。这种方法有助于改善图结构中顶点的局部和全局表示。最后,我们采用Sinkhorn算法迭代确定最优匹配结果。我们在单台机器上使用多个GPU训练了我们的系统。然后,我们在大型图像数据集和实际图像上进行了实验。实验结果表明,与现有方法相比,我们的系统在图像匹配性能上取得了显著提升,在常用基准数据集上,整体匹配结果提高了3.8倍至40.3倍。我们承认当前的图构建方法复杂且耗时。在未来的工作中,我们计划探索优化工作,包括更合适的GNN模型、更快的图构建技术、高效的最优传输方法以及更合适的关键点检测方法。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文