专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

几何 & 语义的双重SOTA！NVIDIA新作MATCHA：首次使用单一特征，统一全部特征匹配任务！

3DCV · 公众号 · · 2025-01-31 01:04

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：MATCHA:Towards Matching Anything

作者：Fei Xue, Sven Elflein, Laura Leal-Taixé, Qunjie Zhou

机构：University of Cambridge、University of Toronto、NVIDIA、Vector Institute

原文链接：https://arxiv.org/abs/2501.14945

1. 导读

在图像之间建立对应关系是计算机视觉中的一个基本挑战，是运动结构、图像编辑和点跟踪等任务的基础。传统方法通常专门用于特定的对应类型，几何、语义或时间，而人类自然地识别跨这些领域的比对。受这种灵活性的启发，我们提出了MATCHA，一种统一的特征模型，旨在“统治所有人”，在不同的匹配任务之间建立鲁棒的对应关系。基于扩散模型特征可以编码多种对应类型的见解，MATCHA通过基于注意力的模块动态融合高级语义和低级几何特征，创建富有表现力、多功能和健壮的特征，从而增强了这种能力。此外，MATCHA集成了DINOv2中的对象级功能，以进一步提高泛化能力，使单个功能能够匹配任何东西。大量的实验验证了MATCHA在几何、语义和时间匹配任务中始终优于最先进的方法，为计算机视觉中基本对应问题的统一方法奠定了新的基础。据我们所知，MATCHA是第一种能够用一个统一的功能有效处理不同匹配任务的方法。

2. 效果展示

MATCHA用于匹配任何事物。我们使用单个特征描述符可视化MATCHA建立的地理、语义和时序匹配关系。

时间匹配可视化。在这里我们可视化了几个建立时间匹配关系的具有挑战性的案例，MATCHA 在处理极端规模和视角变化以及具有多个相似实例的场景方面通常表现出最佳性能。(DIFT*是经过调整的 DIFT，我们使用其合并的语义和几何特征进行时间匹配，以获得更好的性能。)

3. 主要贡献

我们系统我们总结了这项工作的贡献如下:

(i)分析了用于匹配的常见特征模型，为MATCHA的设计提供了信息，MATCHA是一种新颖的特征模型，它能够动态地融合几何和语义信息，以提高表示的鲁棒性，而不会失去一般性。

MATCHA证明了(ii)静态特征融合可以克服单个描述符的局限性，使单个特征能够有效处理一系列对应任务。推荐课程：国内首个基于面结构光的高反射物体重建方法课程（相位偏折术）。

全面评估显示(iii)MATCHA在大多数基准上超越了最先进的技术，在语义和几何匹配方面显著优于无监督方法，突显了对应监督对精确度的重要性。

我们首次展示了(iv)一个特征能够跨越所有三种常见的对应问题达到新的最先进状态。

(iiv)作为对社区的贡献，我们重新设计了TAP-Vid点跟踪基准。对于时间匹配评估，建立共同特征基线以支持未来关于匹配的统一特征学习的研究。

4. 方法

MATCHA架构。给定一个RGB图像，MATCHA生成一个用于几何、语义和时序匹配的单特征，使用最近邻搜索。MATCHA建立在稳定扩散(SD)模型之上。从SD中提取的原始几何和语义特征首先与一个转换器动态融合。在这种动态融合过程中，几何特征和语义特征在训练过程中相互增强，并由相应的真实信号进行监督。然后，通过连接将增强的几何和语义特征与DINOv2特征静态地统一到一个单一特征中，以匹配任何东西。

5. 实验结果

6. 总结 & 局限性

在这项工作中，我们引入了一个新的视觉挑战:通过单一、统一的特征表示实现“匹配任何东西”的能力。我们提出了MATCHA，一种新颖的特征模型，它利用现有的对应监督资源来缩小基础特征和任务特定监督方法之间的准确性差距，同时保持跨不同对应任务的泛化能力。通过结合有限的、高质量的监督，我们朝着消除任务特定特征描述符的需求迈出了重要的一步，更接近通用匹配特征。这种方法对依赖稳健对应的应用有直接影响，包括三维重建、跟踪和定位、图像重测和图像编辑。

我们的实验表明，与虽然从基础模型中提取的特征可以捕捉丰富的信息，但它们仍然面临着在细粒度几何匹配的分辨率精确度方面的挑战，并且通常没有针对运行时效率进行优化。我们鼓励未来的工作解决这些局限性，以实现更广泛的应用。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云