0. 论文信息
标题:LoFLAT: Local Feature Matching using Focused Linear Attention Transformer
作者:Naijian Cao, Renjie He, Yuchao Dai, Mingyi He
机构:Northwestern Polytechnical University
原文链接:https://arxiv.org/abs/2410.22710
1. 导读
局部特征匹配是图像匹配中的一项基本技术,在广泛的基于视觉的应用中起着至关重要的作用。然而,由于注意力机制的二次计算复杂性,现有的基于变换器的无检测器局部特征匹配方法遇到了挑战,尤其是在高分辨率下。然而,尽管现有的基于变换器的无检测器局部特征匹配方法已经使用线性注意机制降低了计算成本,但是它们仍然难以捕捉详细的局部交互,这影响了精确局部对应的准确性和鲁棒性。为了在保持低计算复杂度的同时增强注意力机制的表示,本文提出了一种新的使用聚焦线性注意力转换器的局部特征匹配方法LoFLAT。我们的LoFLAT由三个主要模块组成:特征提取模块、特征转换模块和匹配模块。具体地,特征提取模块首先使用ResNet和特征金字塔网络来提取分层特征。特征变换器模块还采用聚焦的线性注意力,以利用聚焦的映射函数来细化注意力分布,并利用深度卷积来增强特征多样性。最后,匹配模块通过由粗到精的策略来预测准确和鲁棒的匹配。大量的实验评估表明,提出的LoFLAT在效率和准确性方面都优于LoFTR方法。
2. 引言
图像匹配是计算机视觉中的一项基本任务,对于包括物体识别、三维重建和自主导航在内的多种应用至关重要。此过程涉及图像的对齐和比较,以准确识别对应的特征或区域,这对于在不同视角、尺度和光照条件下实现精确视觉对应至关重要。在图像匹配所采用的各种技术中,局部特征匹配是一种关键方法。该技术侧重于识别和比较图像中的独特局部特征,通过利用包含图像内容独特方面的局部描述符,有效处理视角、尺度和光照的变化。一般而言,现有的局部特征匹配方法可以大致分为两类:基于检测器的方法和无需检测器的方法。
基于检测器的局部特征匹配方法依赖于特定算法来识别图像中的显著点,如角点或边缘,这些点对包括尺度、旋转和光照变化在内的各种变换具有鲁棒性。在检测到这些关键点后,计算特征描述符以封装每个点周围的局部图像信息,通过比较不同图像之间的这些描述符来促进匹配过程。SIFT、SURF和ORB等方法属于此类,它们在结构化和纹理良好的环境中提供了高鲁棒性和准确性来识别对应点。然而,这些方法存在明显局限性,特别是在具有重复模式、无纹理区域或视角变化显著的场景中,对独特关键点的依赖可能导致匹配不足和性能下降。
另一方面,无需检测器的方法,也称为密集或端到端学习方法,避免了显式检测关键点。相反,它们侧重于匹配图像中所有像素或密集网格内的特征,从而利用整个图像内容。这些方法利用深度学习架构,如卷积神经网络(CNNs)和Transformer,联合学习特征表示和匹配函数。通过在大数据集上进行训练,这些方法可以有效处理包括无纹理区域、复杂光照和严重几何变换在内的各种挑战条件。FlowNet和SuperGlue等技术体现了这一范式,在多种视觉任务中表现出卓越的灵活性和适应性。最近,基于Transformer主干网的方法开始出现,以更好地建模长距离依赖关系。通过自注意力机制,Transformer可以同时考虑图像中的所有像素或特征点,从而在全局上下文中实现特征匹配。这一能力对于处理显著视角变化或复杂场景特别有益。
作为一项代表性工作,LoFTR采用自注意力和交叉注意力块来更新跨视图特征。值得注意的是,LoFTR集成了线性Transformer来替代全局全注意力机制,从而实现了可控的计算成本。它还使用自注意力和交叉注意力块来更新跨视图特征。然而,研究表明,LoFTR中线性Transformer生成的交叉注意力图往往分布在较大区域,而不是集中在实际对应区域。因此,由于像素标签之间缺乏详细的局部交互,LoFTR在提取高精度和稳定的局部对应方面遇到了重大限制。
3. 效果展示
为了公平比较,我们重新训练了LoFTR作为基线,并将原始图像调整为500×500像素。LoFTR与所提出的LoFLAT在MegaDepth数据集上的匹配比较如图3所示。从图3(a)和(b)中可以观察到,两种方法均能在视角变化较小的情况下实现密集匹配结果。然而,我们的方法产生了更多且更准确的匹配。在图3(c)和(d)中,证明了在视角和尺度变化显著的情况下,LoFTR的准确性明显下降,导致错误匹配的数量增加。相比之下,我们的方法在这些具有挑战性的情况下显著提高了匹配准确性。总体而言,我们的方法在匹配密度和准确性方面均优于LoFTR,展现出更强的鲁棒性和稳定性。
4. 主要贡献
本文提出了一种基于聚焦线性注意力Transformer的新型局部特征匹配方法。所提出的LoFLAT由三个关键模块组成:特征提取模块(FEM)、特征Transformer模块(FTM)和匹配模块(MM)。具体而言,FEM首先使用ResNet和特征金字塔网络(FPN)从待匹配的两幅图像中提取多级特征。之后,应用FTM进一步捕获上下文相关且位置依赖的局部特征。具体而言,利用聚焦映射函数通过调整每个查询和关键特征的方向,同时排斥不相似的对,来确保注意力分布的锐化。此外,还结合了深度卷积来增强特征多样性并捕获输入图像的深层上下文结构。最后,MM使用由粗到细的框架预测准确且鲁棒的特征匹配。在MegaDepth数据集上的实验结果表明,所提出的LoFLAT在效率和特征表示质量方面优于LoFTR。
推荐课程:
国内首个面向工业级实战的点云处理课程
。
5. 方法
如图1所示,特征提取模块首先使用ResNet作为特征提取的主干网络。为了提取不同分辨率的特征,还结合了特征金字塔网络(FPN)来构建多尺度特征金字塔。之后,特征通过特征Transformer模块进行转换,该模块利用自注意力和交叉注意力层来捕获既上下文相关又位置依赖的局部特征。最后,匹配模块通过由粗到细的过程输出精确且鲁棒的特征匹配。
先前的研究已经表明,与Softmax注意力相比,线性注意力(Linear attention)展现出相对更平滑的分布。这表明,在线性注意力中,注意力权重在多个输入特征上的分布更加均匀。然而,对于粗匹配(coarse matching)而言,Softmax注意力的更尖锐分布特性使模型能够聚焦于更小的一组关键特征,从而增强其判别能力。为了兼顾模型复杂度和表示有效性,我们提出在粗匹配中应用聚焦线性注意力(Focused Linear attention)。在特征变换器(Feature Transformer)模型的设计中,我们首先采用聚焦映射函数从查询Q和键K中提取关键特征。之后,我们遵循线性注意力的原则,以降低计算成本,同时保持注意力层输出的准确性。同时,对值V应用深度卷积(depthwise convolution)以捕获详细的局部特征,增强模型对细粒度信息的敏感性。最终,我们将这两个过程的输出相结合,生成一种平衡全局上下文与丰富局部细节的特征表示。基于聚焦线性注意力的变换器架构如图2所示。这种方法不仅显著提升了注意力机制的性能,还确保了模型在计算上保持高效,同时有效处理信息。
6. 实验结果
我们进一步比较了LoFTR和我们提出的LoFLAT在不同角度误差阈值(5°、10°和20°)下的AUC指标性能。从表I中可以观察到,我们的模型在所有三个阈值下均优于基线方法LoFTR,分别提高了2.7%、1.9%和0.9%。值得注意的是,在更严格的阈值条件下(即角度误差更小),性能提升更为显著。这表明我们的方法在需要精确匹配的任务中表现尤为出色。
7. 总结 & 未来工作
本文提出了一种基于聚焦线性注意力变换器的新型局部特征匹配方法,以解决LoFTR的局限性。我们的方法包括三个主要模块:特征提取模块、特征变换器模块和匹配模块。特征提取模块利用ResNet和特征金字塔网络提取层次特征,而特征变换器模块则使用聚焦映射函数和深度卷积来优化注意力分布,以增强特征多样性。匹配模块采用由粗到细的策略来预测准确且稳健的匹配。广泛的实验评估表明,所提出的LoFLAT在效率和准确性方面均显著优于LoFTR方法。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
「
3D视觉从入门到精通
」
知识星球
「3D视觉从入门到精通」知识星球