专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
FM93交通之声  ·  毒性胜砒霜!女子吃一口抢救3天,千万小心! ·  昨天  
FM93交通之声  ·  刚刚确认:今晚抵达浙江,做好准备... ·  昨天  
浙江市场监管矩阵  ·  省市场监管局召开机关干部大会贯彻落实省委新春 ... ·  昨天  
杭州日报  ·  刚刚,他哭了!冲上热搜 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

上交最新开源!涨点36%!DMESA:最强匹配一切!吊打SuperGlue和LoFTR!

计算机视觉工坊  · 公众号  ·  · 2024-08-04 00:00

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

编辑:计算机视觉工坊

0. 这篇文章干了啥?

特征匹配旨在建立图像之间的对应关系,这在诸如即时定位与地图构建(SLAM)、运动恢复结构(SfM)和视觉定位等众多应用中至关重要。然而,由于存在匹配噪声(包括尺度变化、视角和光照变化、重复模式以及纹理较差等问题),实现精确的点匹配仍然是一个挑战。

近年来,基于学习的特征匹配取得了显著进展。学习检测器、描述符和匹配器的出现彻底改变了传统的稀疏匹配方法。同时,基于学习的半密集和密集方法通过在整个图像上进行密集特征比较,进一步在精度上与其稀疏对应方法拉开了显著差距。然而,所有这些匹配方法都面临着一个共同的障碍:匹配冗余。从本质上讲,在不相关的图像区域中,基于学习的特征之间的相互作用容易受到匹配噪声的影响,从而降低这些方法的匹配性能。

直观上,大多数匹配冗余可以通过高级图像理解来有效识别,并且只有强相关的局部区域(或区域)才需要通过密集特征比较来确定精确匹配。因此,最近的方法在匹配之前进行基于学习的重叠分割。然而,隐式学习需要不可重复使用的计算开销,并且在详细匹配过程中重叠区域中的冗余仍然存在。为了解决这些问题,一些工作转向明确的语义先验。与手动指定主题数量来分组特征块不同,SGAM提出的区域到点匹配(A2PM)框架提供了一种更直观的方式来减少匹配冗余。具体而言,该框架首先建立语义区域匹配,在语义基础上大幅消除匹配冗余,然后在这些区域内通过点匹配获得精确对应关系。然而,SGAM依赖于语义分割来指导区域匹配。因此,在遇到不准确的语义标签和语义模糊时,其性能会下降。此外,由于语义标签的封闭性,A2PM的优势无法推广到更一般的场景中。因此,通过语义分割减少匹配冗余存在不切实际的问题。

最近,Segment Anything Model(SAM)因其卓越的性能和通用性而受到了研究界的广泛关注,它可以作为不同任务的基本前端。这表明该基础模型能够跨不同领域准确地理解图像内容。受此启发,我们意识到可以利用SAM的图像理解能力来减少匹配冗余。因此,我们提出基于SAM分割建立区域匹配,以克服SGAM的局限性。与语义分割类似,图像分割也在图像中提供了多个区域,但这些区域没有附加语义标签。然而,SAM的通用对象感知确保其分割结果本质上包含隐式语义信息。换言之,SAM总是将完整的语义实体分割为一个独立区域。因此,匹配这些隐式语义区域也能有效减少匹配冗余,并促进区域内精确的点匹配。此外,没有明确的语义标签也缓解了因错误标注导致的不准确区域匹配问题。同时,也克服了因语义粒度导致的泛化限制。然而,区域匹配不能仅通过语义标签来实现,在这种情况下需要其他方法。

在本文中,我们提出了“通过分割任何事物来匹配所有事物”,这是一种从SAM分割中进行精确区域匹配的方法。MESA主要关注两个方面:区域关系建模和基于关系的区域匹配。特别是,由于SAM区域仅提供局部信息,独立匹配它们可能导致不准确的结果,特别是在存在尺度变化和重复性的场景中。为了解决这个问题,我们构建了一种新的图结构,称为区域图(AG),以区域的全局上下文为基础进行后续精确匹配。AG将区域作为节点,并通过两种类型的边将它们连接起来:无向边表示相邻关系,有向边表示包含关系。这两种边都捕获了全局信息,用于构建层次结构,以实现高效的匹配。在关系建模的基础上,MESA通过从AG中导出两个图形模型来进行区域匹配:区域马尔可夫随机场(AMRF)和区域贝叶斯网络(ABN)。AMRF涉及所有全局信息丰富的边,因此可以通过图上的能量最小化来实现全局一致的区域匹配。具体来说,图的能量是根据区域之间的学习相似性和空间关系来确定的,这使得能量最小化问题可以通过图割来有效解决。此外,ABN的提出是为了利用AG的层次结构来简化图的能量计算。最后,我们提出了一个全局匹配能量来解决图割中的多解问题,从而最终实现有效的匹配冗余减少。

尽管MESA在高精度方面展现出潜力,但其复杂的处理过程却显著降低了效率。为了探究这一效率问题的根源,我们深入回顾了MESA的匹配过程。与点匹配中的稀疏框架类似,MESA本质上是一个稀疏区域匹配框架。它首先从图像中提取区域候选,然后在图像对中的候选集之间进行密集相似性计算。由于候选区域数量庞大,这导致了巨大的计算开销。此外,与点相比,确定区域之间的相似性要昂贵得多。因此,MESA的效率缺陷主要源于稀疏匹配框架中区域相似性计算的昂贵成本。

为了解决这个问题,我们从点匹配中使用的密集框架中获得灵感,并提出了MESA的密集版本,命名为DMESA,以执行密集区域匹配框架。与点匹配中的普遍观点相反,密集区域匹配框架比稀疏框架更高效。这种差异源于基本单元之间的重叠。在点匹配中,基本单元(即点)之间没有重叠。因此,在整个图像中寻找对应关系的密集框架比仅考虑关键点的稀疏框架产生更高的计算成本。然而,在区域匹配中,基本单元(即候选区域)存在显著重叠,并且经常覆盖整个图像。因此,在稀疏框架的区域相似性计算中存在重复计算。相反,在密集框架中,可以通过在整个图像上直接生成密集匹配分布来避免这些重复计算。此外,我们注意到这些匹配分布可以通过块匹配来推导,这反映了当前半密集点匹配器的粗略匹配阶段。因此,DMESA专注于利用块匹配来实现区域匹配。具体来说,它首先利用现成的粗略匹配方法在源区域和目标图像之间建立块匹配。然后,它使用高斯混合模型(GMM)对这些块匹配的联合匹配分布进行建模,该模型可用于指导后续的区域匹配。考虑到块匹配的准确性问题,DMESA引入了循环一致性来优化分布,该优化基于有限步长的期望最大化(EM)算法。之后,可以从细化后的分布中获得精确的区域匹配。

本工作是我们在CVPR'24上提出的MESA的扩展版本。在此,我们介绍了以下技术改进和实验贡献:1)在深入研究MESA的效率问题后,我们提出了其密集对应版本,即DMESA,采用密集区域匹配框架。DMESA能够基于块匹配实现区域匹配,而无需额外训练。在实验中,它可以在比MESA快近5倍的速度下建立具有竞争力的准确度的区域匹配,提供了更好的精度/效率权衡;2)我们在实验中观察到图像分辨率对特征匹配有实质性影响。因此,我们对此影响进行了深入分析,并得出了A2PM的改进配置。此外,我们在实验中彻底研究了图像分辨率,为我们的方法提供了更全面的评估;3)我们在实验中添加了一个稀疏点匹配基线,以证明我们的方法能够惠及所有现有的点匹配器类型。通过采用更具可重复性的实验设置,我们为之前的实验提出了新的结果,并在另外两个室内和室外数据集上进行了实验。此外,本版本中还进行了跨域泛化研究和模型微调影响的实验。

下面一起来阅读一下这项工作~

1. 论文信息

标题:DMESA: Densely Matching Everything by Segmenting Anything

作者:Yesheng Zhang, Xu Zhao

机构:上海交通大学

原文链接:https://arxiv.org/abs/2408.00279

代码链接:https://github.com/Easonyesheng/A2PM-MESA

2. 摘要

我们提出了MESA和DMESA这两种新颖的特征匹配方法,它们利用“万事皆可分割”模型(Segment Anything Model, SAM)来有效减少匹配冗余。我们方法的关键见解是,在点匹配之前,基于SAM的高级图像理解能力,建立隐式语义区域匹配。然后,具有一致内部语义的信息丰富区域匹配能够进行密集特征比较,从而促进精确的区域内点匹配。具体来说,MESA采用稀疏匹配框架,首先通过新颖的区域图(Area Graph, AG)从SAM结果中获取候选区域。然后,将候选区域之间的区域匹配问题表述为图能量最小化问题,并通过从AG派生的图模型来解决。为了解决MESA的效率问题,我们进一步提出了其密集对应物DMESA,应用密集匹配框架。在通过AG识别候选区域后,DMESA通过生成密集匹配分布来建立区域匹配。这些分布是通过使用高斯混合模型的现成块匹配生成的,并通过期望最大化进行细化。由于减少了重复计算,DMESA与MESA相比,速度提高了近五倍,同时保持了相当的准确性。我们在五个涵盖室内和室外场景的数据集上对我们的方法进行了广泛评估。结果表明,在所有数据集上,我们的方法相对于五个不同的点匹配基线均表现出一致的性能提升。此外,我们的方法展现出良好的泛化性和对图像分辨率变化的鲁棒性。代码已公开在github.com/Easonyesheng/A2PM-MESA上。

3. 效果展示

4. 主要贡献

我们的工作做出了以下几项贡献:1)我们提出了利用SAM的高级图像理解能力来有效减少特征匹配中的冗余。为此,我们设计了两种方法,即MESA和DMESA,用于从SAM分割结果进行区域匹配,并最终提升特征匹配性能。2)在应用稀疏匹配框架时,MESA首先通过一种名为AG的新型图结构从图像中提取候选区域,该图结构对全局区域关系进行建模。然后,基于从AG派生的图形模型,MESA实现了精确的区域匹配。3)为了提高MESA的效率,我们进一步引入了DMESA,它利用密集框架在准确性和效率之间实现更好的平衡。DMESA通过在整个图像上生成密集匹配分布来实现区域匹配。这些分布来自现成的块匹配,这些块匹配通过高斯混合模型(GMM)进行建模,并通过有限步长的EM算法进行细化。4)在五个不同的数据集上进行的大量实验表明,我们的方法在各种点匹配器中,对于稀疏、半密集和密集匹配框架,均实现了显著的性能提升。此外,我们的方法还表现出显著的跨域泛化能力和对输入图像分辨率的优越鲁棒性,凸显了其实际应用价值。

5. 基本原理是啥?

6. 实验结果

表2总结了点匹配的结果。随后,我们主要根据点匹配器的类别对这些结果进行了分析。对于稀疏匹配器SP+SG(作为基线),我们观察到在所有三个输入尺寸下,我们的方法都实现了一致且显著的精度提升。我们的方法大幅超越了SGAM。MESA展现了最佳的整体性能,而DMESA也取得了令人印象深刻的结果。特别是,在480×480的小尺寸输入下,MESA/DMESA+SP+SG比640×640的大尺寸输入获得了更好的结果(MESA在MMA@20上的得分为56.87 vs. 56.29),这表明在较低的计算成本下实现了更高的精度,证明了其分辨率鲁棒性。

对于三个半密集匹配器,训练尺寸过拟合的现象较为明显,因为使用训练尺寸获得的结果显著优于其他尺寸。在两个正方形输入尺寸下,我们的方法在所有三个匹配器上都取得了显著的改进。然而,在训练尺寸下,MESA/DMESA+ASpan和MESA+LoFTR的精度有所下降。这部分原因可以归咎于Transformer对长宽比的敏感性,因为ScanNet的训练长宽比与A2PM获得的长宽比(原始图像固有)略有不同。尽管如此,我们的方法仍然改进了QT的结果并超越了SGAM。由于DMESA具有更高的区域匹配精度,因此其总体结果通常优于MESA。在所有输入尺寸下,DMESA的整体性能与MESA相当。考虑到其速度和灵活性,DMESA在效率和精度之间提供了更好的平衡。

对于密集匹配器,由于DKM的鲁棒性,过拟合问题相对较小。我们的方法在所有三个输入尺寸下都一致地提高了性能,并显著优于SGAM。此外,在小输入尺寸下,DMESA表现出了更优的性能。

表3报告了在ScanNet1500数据集上的姿态估计结果。与点匹配实验相同,我们在三种不同的PM输入分辨率下评估了姿态估计的准确性。对于稀疏匹配器,我们的方法能够在所有分辨率下持续且显著地提高姿态精度。值得注意的是,不同分辨率之间的精度差距很小。这表明,在点匹配器本身足够鲁棒的前提下,我们的方法可以在不同分辨率下提供稳定的改进。

对于A2PM框架中的半密集匹配器,除了MESA+LoFTR外,其他匹配器在训练分辨率下的精度均有所下降,这与点匹配实验的结果类似。这可能是由于在640×480分辨率下进行了过度的区域大小调整,从而削弱了A2PM的优势。然而,MESA和DMESA在其他方形分辨率下均显著提高了姿态精度。这种差异可以归因于Transformer模型固有的过拟合问题。为了提高精度,可以对这些匹配器在方形分辨率下进行微调,从而在该数据集上达到新的最先进水平(SOTA)。

ETH3D数据集中的图像对存在严重的运动模糊、光照变化和纹理缺失区域,导致姿态估计困难。结果总结在表4中。根据ETH3D中图像的分辨率范围,我们选择640×640作为大尺寸,480×480作为小尺寸。为了消除调整大小带来的失真,我们保持原始宽高比并使用零填充来达到方形尺寸。

对于稀疏匹配器,我们的方法显著提高了准确性。特别值得一提的是MESA+SPSG的性能,在480×480分辨率下,其AUC@20达到了48.85,高于640×640分辨率下的48.51。这证明了我们的方法增强了点匹配器的分辨率鲁棒性。对于三个半密集匹配器,我们的方法在两个不同分辨率下均一致地提高了点匹配的准确性。在较小分辨率下,原始点匹配器的性能显著下降,而我们的方法通过恢复大部分丢失的性能来有效缓解这一问题,实现了高达80.84%的相对改进。

MegaDepth作为我们基线方法的室外训练数据集。在MegaDepth1500基准测试中,我们选择832×832作为大分辨率,这与训练时使用的分辨率相同。同时,为了比较,我们还采用了480×480的小分辨率。为了避免缩放失真,我们采用了短边填充的方法。结果如表5所示。

对于稀疏匹配器,我们的方法在精度上实现了稳定且显著的提升,远超OETR。此外,MESA/DMESA显著缩小了不同分辨率之间的精度差距,这证明了我们的方法的有效性以及它们对分辨率变化的鲁棒性。

对于半密集匹配器,与室内训练数据集(ScanNet)上的结果不同,我们的方法一致且显著地提高了姿态精度。这可以解释为该数据集的训练分辨率是方形的,与A2PM框架非常吻合。因此,我们通过方法实现的精确区域匹配(AM)有效地减少了该数据集上的匹配冗余,最终提高了半密集点匹配器的性能。

对于密集匹配器,我们的方法在两个分辨率下都提高了姿态精度,在该基准测试上达到了新的最先进水平(SOTA)。考虑到DKM对AM的敏感性,这证明了MESA和DMESA的有效性。

7. 总结 & 未来工作

我们引入了MESA和DMESA方法,通过利用SAM(场景解析图)的一般图像理解能力来减少特征匹配中的冗余。虽然这两种方法都侧重于从SAM结果中建立区域匹配,但MESA遵循稀疏框架,而DMESA则采用密集方式。具体来说,我们首先提出了一种新颖的区域图(AG)来建模图像区域的全局上下文。基于该图,我们可以从图像中识别出具有显著语义的候选区域。随后,MESA利用从AG中导出的图形模型,在图上通过最小化能量来匹配这些区域。虽然MESA是精确的,但其稀疏性带来了效率挑战。为了克服这一限制,我们提出了DMESA作为密集区域匹配方法。DMESA从现成的块匹配中推导出区域匹配,这些块匹配通过高斯混合模型(GMM)进行建模。然后,在目标图像中为源区域生成密集匹配热图,以实现区域匹配。为了细化粗略匹配的准确性,DMESA进一步引入了循环一致性,并采用了有限步长的EM算法。我们的方法能够与属于稀疏、半密集和密集框架的PM基线进行集成。在广泛的实验中,MESA和DMESA在五个室内和室外数据集上一致且显著地提高了五个基线的性能。DMESA在保持竞争精度的同时,比MESA的速度提高了近五倍,提供了优越的精度/速度权衡。此外,我们的方法大大提高了对数据域和输入分辨率变化的鲁棒性,有利于下游任务。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、Mamba、 NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群







请到「今天看啥」查看全文