0. 这篇文章干了啥?
这篇文章提出了
XFeat:一种新颖的卷积神经网络(CNN)架构,使用精心设计的策略进行关键点检测和局部特征提取,以尽量减少计算占用,同时保持鲁棒性和准确性。
XFeat被设计为硬件无关,确保在各种平台上都具有广泛的适用性,但这并不排除在特定硬件配置上优化XFeat的可能性。此外,XFeat适用于基于关键点的稀疏特征匹配和粗特征图的密集匹配。这种多功能性带来了两全其美的效果:基于关键点的方法更适合于基于运动结构(SfM)地图的高效视觉定位,而在纹理较差的场景中,密集特征匹配可能更有效地进行相机姿态估计。与当前可用于图像对应的方法相比,XFeat在匹配精度和计算效率之间显著改善了权衡比,在速度上超过了所有轻量级深度学习局部特征的替代方法,同时在准确性上与SuperPoint和DISK等更大模型相当。
下面一起来阅读一下这项工作~
1. 论文信息
标题:XFeat: Accelerated Features for Lightweight Image Matching
作者:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. Nascimento
机构:Universidade Federal de Minas Gerais、Universit´e de Bourgogne、Google Research、Universit´e de Lorraine、Microsoft
原文链接:https://arxiv.org/abs/2404.19174
代码链接:https://github.com/verlab/accelerated_features
官方主页:https://www.verlab.dcc.ufmg.br/descriptors/xfeat_cvpr24/
2. 摘要
我们介绍了一种轻量级而准确的资源高效视觉对应的架构。我们的方法,被称为XFeat(加速特征),重新审视了卷积神经网络在检测、提取和匹配局部特征方面的基本设计选择。我们的新模型满足了对于适用于资源有限设备的快速和稳健算法的迫切需求。特别是,准确的图像匹配需要足够大的图像分辨率------出于这个原因,我们尽可能地保持分辨率的大小,同时限制网络中通道的数量。此外,我们的模型被设计为在稀疏或半密集级别进行匹配的选择,其中每种级别可能更适合不同的下游应用,比如视觉导航和增强现实。我们的模型是第一个高效提供半密集匹配的模型,利用了一种依赖于粗糙局部描述符的新型匹配细化模块。XFeat是多才多艺且与硬件无关的,以比当前基于深度学习的局部特征更快的速度(最多快5倍)和可比较或更好的准确性,证明了在姿态估计和视觉定位中的效果。我们展示了它在廉价笔记本电脑CPU上实时运行,没有专门的硬件优化。代码和权重在下方提供!
3. 效果展示
在XFeat中,准确性与效率相遇。XFeat在Megadepth-1500数据集上提供了出色的速度和相对姿态估计准确性之间的良好折衷,正如橙色Pareto前沿曲线所证明的那样。其轻量级架构使其能够在无GPU设置和资源受限设备上实时提取特征,而无需硬件特定的优化。在预算友好的笔记本电脑(Intel(R) i5-1135G7 @ 2.40GHz CPU)上,以VGA分辨率进行推断速度。∗表示半密集提取。
稀疏(上)和半密集(下)匹配。XFeat 凭借其双重能力,既能执行稀疏匹配,又能执行半密集匹配,为从具有稀疏匹配的视觉定位到具有更密集对应关系的姿态估计和三维重建等广泛应用提供快速特征,这些更密集的对应关系提供了额外的约束和更完整的表示。
4. 主要贡献
为了减少计算成本,同时保持竞争性的准确性,这项工作提供了三个主要贡献:
(1)一种新颖的轻量级CNN架构,可部署在资源受限的平台上,以及需要高吞吐量或计算效率的下游任务,而无需耗时的硬件特定优化。XFeat可以很容易地替换现有的轻量级手工制作解决方案、昂贵的深度模型和轻量级深度模型在诸如视觉定位和相机姿态估计等下游任务中的应用;
(2)设计了一种简约、可学习的关键点检测分支,快速且适用于小型提取器骨干,在视觉定位、相机姿态估计和单应性注册中显示其有效性;
(3)提出了一种新颖的匹配细化模块,用于从粗糙的半密集匹配中获取像素级偏移。与现有技术相,XFeat除了局部描述符本身外,不需要高分辨率特征,大大减少了计算量。
5. 基本原理是啥?
加速特征提取网络架构
。XFeat提取一个关键点热图K,一个紧凑的64-D密集描述符映射F,和一个可靠性热图R。它通过早期下采样和浅层卷积,然后在后续编码器中进行更深的卷积以实现无与伦比的速度。与典型方法相反,它将关键点检测分离成一个独立的分支,使用1×1的卷积在一个8×8的张量块变换图像上进行快速处理。
密集匹配设置的匹配细化模块
。该模块学习通过仅考虑原始粗糙级别特征中原始空间分辨率的1/8处的最近邻对来预测像素级偏移,从而显着节省内存和计算。
6. 实验结果
在Megadepth-1500上相对摄像机姿态估计任务的指标
。XFeat比最快的基于学习的解决方案(ALIKE)快得多(5×),并在几个指标上在稀疏设置下取得了竞争性结果。此外,与DISK∗进行公平比较,考虑相同数量的描述符时,它可以在AUC@20◦、Acc@10◦和MIR上提供最先进的密集匹配配置结果,DISK∗是一个更重的模型。值得一提的是,由于需要对描述符进行插值并在较粗分辨率下预测偏移量,XFeat在更松散的阈值下获得了最先进的结果。
图5显示了XFeat在现有解决方案上的突出表现示例。与DISK和SuperPoint相比,XFeat还允许使用低维描述符(64-f)进行更高效的匹配。
表2显示了ScanNet-1500室内图像中最具竞争力的方法的AUC值。请注意,没有任何方法被重新训练。DISK和ALIKE显示出对地标数据集的偏见迹象,而XFeat则表现出更好的泛化能力。
表3显示,XFeat与最准确的描述符相当,强化了关键点和描述符头的稳健性。相反,其他轻量级解决方案如ORB和SiLK的性能在光照和视角分离方面受到严重影响,因为它们在处理最难的图像对中的侵略性视角和光照变化方面能力有限。
表4呈现了视觉定位实验的结果。XFeat表现出与领先方法SuperPoint和DISK相似的性能,同时实现了显著的速度优势,至少快9倍,并且具有更紧凑的描述符。这些发现挑战了文献中使用大型和更复杂模型进行下游任务的普遍趋势。相反,它们强调了简单模型的有效性,这些模型不仅匹配准确性,而且还提供了在资源受限系统上高效运行的好处。
7. 总结 & 未来工作
这篇文章介绍了XFeat,一种用于加速特征提取的轻量级CNN架构,适用于稀疏和半稠密图像匹配。通过对三种不同任务的实验和消融分析,表明可以在不依赖于先进的低级硬件优化的情况下实现快速准确的图像匹配。这与部署越来越大型和复杂模型的普遍趋势形成对比。XFeat为增强现实和移动机器人领域的下一代应用铺平了道路,其中高效和通用的数据驱动解决方案仍然对实际部署至关重要,特别是在移动应用中。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。