专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

华科白翔团队重磅开源！MINIMA：统一图像匹配！

3D视觉工坊 · 公众号 · · 2025-01-01 00:10

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：MINIMA: Modality Invariant Image Matching

作者：Xingyu Jiang, Jiangwei Ren, Zizhuo Li, Xin Zhou, Dingkang Liang, Xiang Bai

机构：Huazhong University of Science and Technology、Wuhan University

原文链接：https://arxiv.org/abs/2412.19412

代码链接：https://github.com/LSXI7/MINIMA

1. 导读

跨视图和跨模态的图像匹配在多模态感知中起着至关重要的作用。在实践中，不同成像系统/风格导致的模态差距对匹配任务提出了巨大挑战。现有的工作试图提取特定模态的不变特征，并在有限的数据集上进行训练，表现出较差的泛化能力。在本文中，我们提出了极小值，一个统一的图像匹配框架多跨模态的情况。不追求花哨的模块，我们的MINIMA旨在从数据扩展的角度增强通用性能。为此，我们提出了一个简单而有效的数据引擎，它可以自由地产生包含多种模态、丰富场景和精确匹配标签的大型数据集。具体来说，我们通过生成模型，从廉价但丰富的仅RGB匹配数据中放大模态。在这种设置下，RGB数据集的匹配标签和丰富多样性被生成的多模态数据很好地继承。受益于此，我们构建了MD-syn，一个新的综合数据集，填补了一般多模态图像匹配的数据空白。使用MD-syn，我们可以在随机选择的通道对上直接训练任何高级匹配管道，以获得跨通道能力。对域内和零触发匹配任务的大量实验，包括19跨模态案例表明，我们的最小值可以明显优于基线，甚至超过特定模态的方法。

2. 效果展示

在六个真实跨模态图像对数据集上的整体图像匹配准确性和效率。使用姿态误差(@10°)或重投影误差(@10px)的AUC进行准确度评估，使用每秒钟对数进行效率测试。左图:报告了每个数据集上代表性方法的AUC。右图:总结了平均性能，其中不同的颜色表示稀疏、半密集和密集匹配的匹配管道，而我们的MINIMA被标记为★只有通过我们的数据引擎创建的合成多模态数据，MINIMA才能泛化到真正的跨模态场景，并带来大幅改进。

真实跨模像对的定性结果。我们的方法MINIMALG(稀疏)和MINIMARoMa(密集)与稀疏匹配管道ReDFeat进行了比较。而 OmniGlue 以其泛化能力而闻名。每种方法生成的匹配被绘制出来，红线表示超出5x10-4或3个像素的极线误差(姿态)或投影误差(仿射变换)。详细信息记录在每对图像的左上角，包括默认 RANSAC 估计产生的几何误差和(正确匹配数/总匹配数)。

3. 引言

图像匹配指的是在两个视角的图像之间建立像素级的对应关系，这是众多视觉应用的基础。近年来，在跨模态感知中，包括图像融合与增强、视觉定位/导航、目标检测/识别/跟踪等，对不同成像系统/风格的图像进行匹配起着至关重要的作用。这些应用通过图像对齐来融合不同模态的优势，从而获得更全面、更准确、更鲁棒的表征。然而，跨视角和跨模态的特性使得匹配任务更具挑战性，尤其是使用单个模型来处理如RGB-红外（IR）、RGB-深度、RGB-事件等不同的模态。推荐课程：彻底搞懂大模型数学基础剖析、原理与代码讲解。

现有研究更多关注仅针对RGB图像的匹配，因为可获取的训练集推动了众多先进匹配架构的产生。相比之下，跨模态匹配数据集在规模和场景覆盖面上较弱，如表1所示。主要原因如下：i) 捕获大量同一目标/场景的跨模态图像既费力又难以确保丰富的场景覆盖。因此，现有数据集通常是从驾驶视角或固定摄像头视角捕获的，且每个数据集包含的模态类型通常仅有两到三种。ii) 创建精确且密集的标签成本高昂。研究人员往往手动标注匹配的地标，或使用相机校准来生成近似姿。

这些有限的数据集由于存在不平衡问题，无法很好地支持通用匹配方法的训练，导致模型容易被简单数据集所主导。此外，为了扩大数据规模，研究人员通常从对齐的图像对中生成伪变换。然而，这种方法仍受限于原始数据，其中模拟的变形与实际视角变化不一致。因此，现有工作只能针对特定模态提取可匹配的特征，泛化能力较差。

在本文中，我们试图通过一种有效的数据引擎填补数据空白，为多种跨模态情况开发一个统一的匹配框架。该引擎帮助我们自由地将廉价的RGB图像扩展为具有丰富场景和精确标签的大型多模态数据集。所引入的数据集能够很好地支持任何匹配流程的训练，并显著提升跨模态性能和零样本能力。

4. 主要贡献

我们的贡献如下：

我们引入了一个简单而有效的数据引擎，用于自由构建高质量的图像匹配多模态数据集。在此基础上，我们构建了场景覆盖广泛且标签精确的综合数据集MD-syn，填补了匹配领域的数据空白。

我们对包括19个跨模态案例在内的域内和零样本匹配任务进行了大量实验，证明了MD-syn的高质量以及MINIMA的出色泛化能力。

5. 方法

在构建MD-syn之后，我们的模态不变图像匹配（MINIMA）的训练变得简单明了。如图3所示，它包括以下两个阶段：

阶段1：在多视角RGB数据上预训练先进的匹配模型，直至收敛。

阶段2：以较小的学习率对随机选择的跨模态图像对进行微调。

我们采用先预训练后微调的策略，原因如下。首先，由于不同模态之间的高差异性，在MD-syn上从头开始训练具有挑战性，这需要大量的迭代才能收敛。相比之下，在RGB数据集上训练更容易。预训练模型可以为如多模态匹配等困难任务提供良好的匹配先验，从而使其快速收敛，如图5所示。此外，RGB数据集的训练已得到充分研究，其官方训练的模型可直接支持我们的微调。

由于MegaDepth已经催生了众多稀疏、半密集和密集匹配的匹配方法，我们从中选择了三个代表性模型作为我们的基础模型，即LightGlue（LG）、LoFTR和RoMa。我们将对这些模型进行微调，并发布我们的三个模型，即MINIMALG、MINIMALoFTR和MINIMARoMa。这些模型将在合成和真实跨模态数据集上进行域内和零样本匹配评估。

6. 实验结果

我们首先在MD-syn数据集上测试了匹配方法，MD-syn是由我们的数据引擎合成的多模态图像匹配数据集。表2报告了定性结果。结果表明，我们的MINIMA方法可以大幅提升基线模型的跨模态能力。然而，对于RGBSketch和RGB-Paint，我们取得的优势较为微弱，因为这两种艺术模态与RGB更为相似。如表所示，GIM在多模态情况下的泛化能力较差，因为它在RGB视频上出现了过拟合。ReDFeat在新场景下的表现不佳，甚至在事件案例中失败。至于LoFTR系列，原始的LoFTR和ELoFTR的表现不如SuperGlue和LG。由于边缘或形状信息对于多模态图像匹配更为重要，因此半密集方法很难在无纹理区域之间建立匹配。XoFTR取得了具有竞争力的结果，因为它在充足的多光谱图像对上进行了预训练，并配备了许多先进的设计。至于密集匹配，DKM和GIMDKM在四种跨模态情况下的表现不佳，因为它们之间存在巨大的模态差异。而原始的RoMa表现出良好的泛化能力，这主要归功于其使用的DINOv2，DINOv2在预训练期间见过多种类型的图像。我们的MINIMA仍然相较于RoMa取得了显著的增强。此外，我们还评估了这些方法在原始Megadepth-1500数据集上的表现

7. 总结 & 局限性

我们的目标是生成伪模态以构成大型多模态数据集，这可能会带来两个潜在的局限：i) 真实模态与伪模态之间的差异。ii) 生成过程中的虚假信息。幸运的是，这两个潜在的局限对我们的任务影响甚微。

首先，多模态图像在像素强度分布上本身就存在差异。这一特性在我们生成的模态中得到了很好的体现，在训练通用匹配模型中起着重要作用。现有的基于扩散的方法能够生成高质量的目标模态图像，使伪模态更加接近真实模态。大量实验验证了我们生成数据的高质量。至于生成的虚假信息，它能够很好地模拟多模态情况，例如目标在红外模态中可见但在RGB模态中不可见，这可能有助于增强训练模型的鲁棒性。

本文提出了一种名为MINIMA的统一匹配框架，适用于任何跨模态情况。该框架通过利用有效的数据引擎填补数据鸿沟来实现，该引擎能够将廉价的RGB数据自由扩展为大型多模态数据。构建的MD-syn数据集包含丰富的场景和精确的匹配标签，支持任何先进匹配模型的训练，显著提高了在未见跨模态情况下的跨模态性能和零样本学习能力。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。