0. 这篇文章干了啥?
特征匹配旨在在两幅图像之间建立准确的对应关系,是计算机视觉中各种关键任务(如对象识别、运动结构(SfM)恢复以及同时定位与地图构建(SLAM))的基础。然而,图像间的视角变化、光照变化、尺度变化、遮挡和运动模糊等因素带来了挑战。这些复杂性增加了特征匹配的难度,特别是在实际应用中需要实时性能时。目前,特征匹配方法大致可分为两类:稀疏匹配方法和密集匹配方法。稀疏匹配方法旨在在两个关键点集之间建立对应关系,因此,在此过程中融入检测器变得至关重要。相比之下,密集匹配方法则直接寻求密集特征之间的匹配。
通过对当前流行的稀疏和密集匹配方法进行全面考察,我们识别并随后解决了三个关键问题,这些问题限制了匹配数量的理论上限,即“天花板”。
(1) 稀疏与密集方法:在小尺度图像中,可匹配关键点的数量急剧减少。小尺度图像中的重叠区域在尺寸上受到限制,大多数关键点或网格点位于不相关的背景中,这不仅导致信息传递中的冗余,而且极大地限制了真实匹配的数量。对于半稀疏和密集匹配范式,这一挑战仅出现在源图像中,因为它们在目标图像中进行密集搜索。为了应对这一挑战,我们提出了一种动态视图切换器,该切换器学习将较大尺度的图像切换到源图像。这一策略性的切换显著增加了重叠区域内可匹配关键点的数量,从而大幅度提高了匹配器的理论上限。
(2) 密集方法:在大尺度变化场景中,由于一对一匹配策略导致的匹配冲突。在处理显著尺度变化时,会出现多对一匹配的情况,因为大尺度图像中的更多像素对应于小尺度图像中的较少像素。然而,现有的半密集方法在处理这一挑战时存在困难,因为它们在粗匹配阶段采用了一对一匹配策略,即在目标图像的每个8×8区域内最多生成一个粗匹配,同时丢弃其他有效匹配。
(3) 稀疏方法:严重依赖关键点的可重复性。稀疏方法通过利用检测器来战略性地缩小匹配器的搜索范围,但同时它们也严重依赖于关键点的可重复性。当输入的关键点在两幅图像的相应位置没有被精确检测,并且在具有挑战性的场景中导致很少的真实匹配时,即使是一个完美的稀疏匹配器也无法“无中生有”。这一挑战启发了半稀疏范式,即在源图像中检测关键点,在目标图像中进行密集搜索,从而消除了对两幅图像中关键点精确检测的需求。我们采用了半稀疏范式,并将其与粗到细的架构无缝集成,使得RCM在全局搜索目标图像中的亚像素匹配时仍能保持效率。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Raising the Ceiling: Conflict-Free Local Feature Matching with Dynamic View Switching
作者:Xiaoyong Lu, Songlin Du
机构:东南大学
原文链接:https://arxiv.org/abs/2407.07789
2. 摘要
当前的特征匹配方法主要侧重于提高建模能力,以便更好地将输出与真实匹配(即匹配结果的理论上限,可形象地描述为“天花板”)对齐。然而,这些增强并未解决直接阻碍真实匹配的根本问题,包括小尺度图像中可匹配点的稀缺性、密集方法中的匹配冲突以及稀疏方法对关键点可重复性的依赖。我们提出了一种名为RCM(Raising the Ceiling of Matching,即提高匹配上限)的新型特征匹配方法,该方法从三个方面入手提升匹配上限。1) RCM引入了一种动态视图切换机制,通过策略性地切换图像对来解决源图像中可匹配点稀缺的问题。2) RCM提出了一个无冲突的粗匹配模块,通过多对一的匹配策略解决目标图像中的匹配冲突。3) 通过整合半稀疏范式和由粗到细的结构,RCM保留了高效性和全局搜索的优势,减轻了对关键点可重复性的依赖。因此,RCM能够在目标图像中以穷尽且无冲突的方式匹配源图像中更多的可匹配点,从而使真实匹配数量大幅增加260%。综合实验表明,与最先进的方法相比,RCM在性能和效率方面均表现出色。
3. 效果展示
在RCM、RCMLite、SuperGlue、LoFTR和 MatchFormer之间的比较中,全功能的RCM在显著加速LoFTR(达2.2倍)的同时,还实现了更优的性能。轻量级的RCMLite则在保持速度优势的同时,比SuperGlue的性能高出+7.5%。在可视化中,相同颜色表示匹配的特征。
这个比较结果表明,RCM和RCMLite在特征匹配任务中展现出了强大的竞争力。RCM通过其高效的算法设计,在大幅提升速度的同时,依然能够保持甚至超越其他先进方法的性能。而RCMLite则进一步体现了在保持高性能的同时,通过轻量化设计来优化计算效率的潜力。这样的结果对于实际应用场景中的实时性和准确性要求具有很高的价值。
此外,可视化中的颜色匹配直观地展示了不同方法在特征匹配上的效果,有助于更直观地理解各种方法之间的优势和差异。
在我们的方法中,以多对一的方式在源图像和目标图像之间建立对应关系。如图2(c)和图6(a)所示,每个可匹配点都可以独立地搜索对应关系而不会发生冲突。
4. 主要贡献
我们将半稀疏范式与由粗到细的架构无缝结合,为我们后续努力提升特征匹配理论上限奠定了坚实基础。
我们设计了一个视图切换器,该切换器能够根据源图像和目标图像的尺度动态地切换它们。这种视图切换器为增加源图像中可匹配点的数量提供了一种直接且有效的方法。
我们提出了一个无冲突的粗匹配模块,该模块以多对一的方式匹配两组特征,进一步突破了在大尺度变化场景下的匹配数量瓶颈。
所提出的RCM和RCMLite在性能与效率之间实现了出色的平衡,使得这些匹配器适用于更广泛的应用范围。
5. 基本原理是啥?
图3展示了RCM的总体架构。该流程由U-Net提取模块启动,该模块使用卷积神经网络(CNN)从两张图像中提取粗特征和细特征。随后,两张图像的粗特征在视图切换器中进行处理。在这个模块中,较大尺度图像的粗特征被切换到稀疏分支,并由检测头提取为稀疏特征;而较小尺度图像的粗特征则保留为密集特征。然后,通过无冲突的粗匹配模块,以多对一的方式对稀疏和密集特征进行匹配。最后,细匹配模块在粗匹配位置裁剪出细特征,并通过基于相关性的方法对粗匹配进行细化。
6. 实验结果
如表1所示,在所有阈值下,RCM均实现了最佳的整体性能。与密集方法相比,RCM在大视角变化场景下显示出显著的精度优势,分别领先LoFTR和MatchFormer(+9%,+11%,+12%)和(+10%,+12%,+10%)。我们将这一性能提升归因于视图切换器增加了源图像中的可匹配点,以及通过多对一匹配在目标图像中实现了无冲突匹配。与稀疏方法SuperGlue相比,RCM由于半稀疏范式带来的密集搜索和由粗到细架构带来的亚像素精度,整体性能领先(+5%,+5%,+4%)。
如表2所示,在MegaDepth数据集上,RCM取得了第二佳的性能。RCM优于最先进的LoFTR方法,这证明了视图切换器和多对一匹配的优势。轻量级的RCMLite与SuperGlue相比,性能提升了(+7.5%,+7.5%,+5.7%)。图5展示了SuperGlue、LoFTR和RCM的定性比较。更多可视化和分析见补充材料。
如表3所示,在ScanNet数据集中,RCM相比LoFTR实现了(0.4%,1%,1.5%)的性能提升。值得注意的是,上标∗表示零样本性能,且模型是在MegaDepth上训练的。尽管如此,我们的方法在性能上仍与在ScanNet上训练的最新稀疏方法相当。密集和半密集匹配方法在目标图像中穷尽地寻找匹配项,从而减轻了室内场景中非重复性这一挑战,这是稀疏方法的一个主要限制。
7. 限制性 & 总结 & 未来工作
视图切换器假设其中一张图像的尺度相对较大,而当两张图像的尺度都较小时,特征匹配就变得更加棘手。一种潜在的方法是根据重叠区域动态调整图像对的尺度,确保两张图像中的重叠区域同时保持较大且尺度相当。
由于目标图像中的匹配点是基于回归得到的,而不是预先检测到的点,因此RCM(Regression-based Coarse Matching,基于回归的粗匹配)在SfM(Structure from Motion,运动恢复结构)任务中缺乏离散的轨迹,需要额外的适应策略。
半稀疏范式减轻了对关键点重复性的依赖,但仅解决了更广泛关键点依赖问题的一部分。检测方面仍然存在挑战,如数量少、分布差,这些都会影响RCM在无纹理场景中的性能。我们相信,将半稀疏范式与先进的检测方法相结合,是实现高效、有效特征匹配的一个有前景的方向。
本文引入了一种新颖的视角,通过提高理论上限来增强匹配器的性能。我们分别为源图像提出了动态视图切换机制,为目标图像提出了无冲突粗匹配层。通过集成视图切换器和多对一匹配层,我们增加了源图像中可匹配点的数量,同时在目标图像中实现了无冲突匹配。从本质上讲,RCM通过增加图像之间的真实匹配数量,提高了实际匹配结果的理论上限。定性和定量实验的结果表明,匹配器的实际性能得到了显著提升,尤其是在具有大尺度变化等挑战性的场景中表现尤为明显。凭借其出色的性能和效率,我们相信RCM在研究和应用方面具有巨大的潜力。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉知识星球
「
3D视觉从入门到精通
」知识星球,已沉淀6年,星球内资料包括: