这篇文章致力于解决图像特征匹配中存在的匹配冗余问题。该方法首先利用SAM对图像进行分割,获取具有隐含语义的区域。然后构建区域图(Area Graph)建模这些区域的空间结构,并转换成区域马尔可夫随机场(Area Markov Random Field)和区域贝叶斯网络(Area Bayesian Network),以能量最小化的方式确定区域匹配。最终在区域匹配结果上,使用点匹配器进行稠密匹配,获取精确的特征匹配结果。
下面一起来阅读一下这项工作~
1. 论文信息
标题:MESA: Matching Everything by Segmenting Anything
作者:Yesheng Zhang, Xu Zhao
机构:上海交通大学CVLab
原文链接:
https://arxiv.org/abs/2401.16741
2. 摘要
特征匹配是计算机视觉领域的关键任务,涉及寻找图像之间的对应关系。先前的研究通过基于学习的方法取得了显著的性能,然而图像中普遍存在的匹配冗余导致这些方法存在不必要的计算和错误。为了解决这个问题,我们提出了一种名为MESA的新方法,用于精确区域匹配以高效减少匹配冗余。MESA首先利用Segment Anything Model (SAM)的先进图像理解能力获得隐含语义的区域,然后提出了一个多关系图来建模这些区域的空间结构并构建尺度层次。基于该图的图形模型,我们将区域匹配重新表述为一个能量最小化问题并有效地解决了它。大量实验表明,MESA在室内外下游任务中明显提高了多个点匹配器的精度,例如室内姿态估计中DKM的+13.61%。
Area Graph定义:
Area Graph是一个多关系图,用于建模图像分割区域的空间结构和尺度层次。其节点是图像区域,包括Segment Anything Model (SAM)生成的区域和通过图补全算法生成的区域。节点分为L个层级,代表不同尺度的图像。边分为包含边(Ein)和邻接边(Eadj),包含边表示层级关系,邻接边表示空间关系。
Area Graph构建:
首先进行区域预处理,删除过小或长宽比过大的区域,得到合适的区域作为初始节点。然后进行图链接预测,根据区域的重叠面积比例预测边的存在。最后进行图补全,为每个孤儿节点生成父节点,建立树状结构。
Area Graph应用:
Area Graph包含了区域的空间位置和尺度信息,为后续的区域匹配提供了结构信息。基于该图可以建立两种图模型:Area Markov Random Field和Area Bayesian Network,将区域匹配建模为图上的能量优化问题,并采用图割算法进行求解。
Area Graph优势:
相比直接在分割结果上进行匹配,Area Graph考虑了全局上下文信息,建立了区域的层级结构,提高了匹配的鲁棒性和效率。同时,包含边和邻接边的设置合理地表示了区域的包含和邻接关系。
5.2 图形区域匹配
Area Markov Random Field (AMRF):
将Area Graph中的邻接边转换为无向边,建立AMRF。引入随机变量表示节点的匹配状态,通过最大化联合概率分布将区域匹配建模为能量最小化问题。设计能量函数,利用图割算法求解。
Learning Area Similarity:
引入学习模型计算区域相似度。该模型将区域匹配分解为两个二分类问题,通过构建活动图表示区域匹配。利用Siamese网络提取特征,并通过自注意力与交叉注意力计算活动度。
Area Bayesian Network (ABN):
利用Area Graph中的包含边建立ABN。利用该网络的条件独立性,高效地进行能量计算。通过构建相似度矩阵,可以高效访问节点相似度。
Global Matching Energy Minimization:
建立全局匹配能量,综合考虑两张Area Graph的结构信息,进行进一步的匹配结果优化。能量函数包含自能量、父能量、子能量和邻域能量,选择最小能量节点作为匹配结果。
6. 实验细节
Area Matching:
在ScanNet1500数据集上,对比了MESA与SEEM、SGAM在区域匹配任务上的性能。主要评估了AOR(区域重叠率)、AMP(匹配精度)等指标。结果显示,MESA获得了更高的匹配精度和更多的匹配区域,有效减少了匹配冗余。