专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

目录

相关文章推荐

IPO早知道 · 慧算账更新招股书：中国最大的中小微企业财税解 ... · 2 天前

财联社AI daily · “星际之门”首个数据中心重磅启航！ · 2 天前

财联社AI daily · “星际之门”首个数据中心重磅启航！ · 2 天前

观海新闻 · 注册资本1个亿！歌尔股份在青设立新公司 · 2 天前

观海新闻 · 注册资本1个亿！歌尔股份在青设立新公司 · 2 天前

秦皇岛晚报 · 奋进的河北丨新能源汽车加速驶进千家万户 · 3 天前

IPO早知道 · 逐际动力半年完成5亿元A轮系列融资，聚焦三大 ... · 3 天前

51好读 › 专栏 › 我爱计算机视觉

CVPR 2025 MINIMA：首个通用多模态图像匹配架构（模型、数据已全部开源）

我爱计算机视觉 · 公众号 · · 2025-03-02 21:02

正文

关注公众号，发现CV技术之美

论文信息：

论文链接：https://arxiv.org/abs/2412.19412
代码链接：https://github.com/LSXI7/MINIMA
在线demo：https://huggingface.co/spaces/lsxi77777/MINIMA

摘要：

跨视图、跨模态图像匹配是多模态融合感知中的核心问题之一，具有重要实际意义。然而，由于不同成像系统或风格所引发的模态差异，该任务面临严峻挑战。现有方法通常专注于提取特定模态的不变特征，并依赖有限规模的数据集进行训练，其泛化能力十分有限。

为解决上述难题，本文提出一种 统一的多模态图像匹配框架——MINIMA 。该方法摒弃了复杂模块设计的传统思路，转而从数据扩增的角度出发，旨在全面提升模型的通用性能。

为此，我们设计了一种简洁高效的数据引擎，能够生成包含多种模态、丰富场景以及精确匹配标签的大规模数据集。具体而言，通过引入生成模型，我们将廉价且易于获取的RGB匹配数据扩展至其他模态类型，从而有效继承原始RGB数据集中丰富的匹配标签和多样性。基于此，我们构建了大规模合成数据集MD-syn，填补了当前多模态图像匹配领域的数据空白。

实验结果表明，借助MD-syn数据集，现有的匹配模型能够轻松获得强大的跨模态匹配能力。我们在涵盖视觉、遥感、医学等多个领域的19种跨模态匹配任务中进行了全面测试， 结果显示MINIMA框架可显著提升基准方法的综合性能及零样本泛化能力，最高提升幅度可达98% 。此外，在某些模态任务上，我们的方法甚至超越了特定模态的专有方法。

文章亮点：

首个跨模态统一匹配框架MINIMA ：一次训练即可适配视觉、遥感、医学等多领域的19种跨模态场景。

首个大规模多模态匹配数据集MD-syn ：对标Megadepth，利用生成模型构建数据引擎，自动生成4.8亿对高质量跨模态图像对，同时涵盖稠密匹配标签，为多模态图像匹配研究填补了数据空白。

行业应用新突破 ：MINIMA在真实多模态场景中可显著提升基准方法的性能，为多模态感知任务提供了全新的技术基础，可用于多源多模态图像配准、融合感知、多模态定位导航、3D生成等任务。

整体结果展示：

图1. 真实数据集上MINIMA整体性能表现。左图展示了不同方法在多个数据集上的准确率（AUC），右图总结了稀疏、半稠密和稠密匹配管道的整体性能。MINIMA大幅提升了基准方法的跨模态能力。

图2. MINIMA在医学、遥感、视觉真实跨模态匹配结果，每组左为特征匹配，右为像素对齐后结果。

MINIMA实现细节

MINIMA 框架分为两大核心模块，如图所示：

1.数据生成引擎 ：以 MegaDepth 数据集为基础，利用数据引擎生成包括红外（Infrared）、深度（Depth）、事件（Event）等在内的多种模态数据。生成的数据在模态多样性和场景覆盖性上均优于现有数据集。

2.匹配模型训练 ：采用“预训练 + 微调”的两阶段策略。第一阶段在多视角 RGB 数据上进行预训练；第二阶段在生成的跨模态数据上进行微调，快速适应多模态任务。

如下图所示。由于不同模态之间的差异性，直接在MD-syn上重新开始训练需要较大代价，而从单一可见光数据训练的模型可以提供良好的匹配先验，从而使多模态微调过程快速收敛。

论文其他图表结果

消融实验和视觉定位应用实验结果

请到「今天看啥」查看全文

推荐文章

IPO早知道 · 慧算账更新招股书：中国最大的中小微企业财税解决方案提供商，毛利率64%

2 天前

财联社AI daily · “星际之门”首个数据中心重磅启航！

2 天前

财联社AI daily · “星际之门”首个数据中心重磅启航！

2 天前

观海新闻 · 注册资本1个亿！歌尔股份在青设立新公司

2 天前

观海新闻 · 注册资本1个亿！歌尔股份在青设立新公司

2 天前

秦皇岛晚报 · 奋进的河北丨新能源汽车加速驶进千家万户

3 天前

IPO早知道 · 逐际动力半年完成5亿元A轮系列融资，聚焦三大核心具身智能技术

3 天前

海报网 · 私照| 贝嫂晒小七萌照爱溢出屏，原来时尚圈也流行"世界那么大，我们走走停停"！

7 年前

八卦我实在是太CJ了 · 小包总人设崩塌？安迪变绿茶婊？《欢乐颂2》还能否挽回口碑？

7 年前

熊眼看世界 · 自取其辱的标准样本

7 年前

梦幻西游 · X9联赛丨点杀与反点杀，精锐组决赛鼓浪屿霸气夺冠

7 年前

鲁中晨报 · 淄博人注意！他涉嫌杀害16岁女孩，警方悬赏5万元！

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!