专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
IT服务圈儿  ·  本地部署 DeepSeek ... ·  2 天前  
姑苏晚报  ·  《哪吒2》,全球第一! ·  3 天前  
姑苏晚报  ·  《哪吒2》,全球第一! ·  3 天前  
港天港地港人才  ·  4类人申请港硕爽翻天,利益buff拉满! ·  3 天前  
港天港地港人才  ·  4类人申请港硕爽翻天,利益buff拉满! ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

浙大新作!HomoMatcher:稠密匹配的精度,半稠密匹配的效率!

计算机视觉工坊  · 公众号  · 科技自媒体  · 2024-11-14 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:HomoMatcher: Dense Feature Matching Results with Semi-Dense Efficiency by Homography Estimation

作者:Xiaolong Wang, Lei Yu, Yingying Zhang, Jiangwei Lao, Lixiang Ru, Liheng Zhong, Jingdong Chen, Yu Zhang, Ming Yang

机构:Zhejiang University、Ant Group

原文链接:https://arxiv.org/abs/2411.06700

1. 导读

图像对之间的特征匹配是驱动许多应用的计算机视觉中的基本问题,例如SLAM。最近,半密集匹配方法已经实现了实质性的性能增强,并建立了广泛接受的从粗到细的范式。然而,大多数现有的方法集中于改进粗略的特征表示,而不是精细匹配模块。先前的精细匹配技术依赖于点对点匹配概率期望或直接回归,通常缺乏精度,并且不能保证特征点在连续图像上的连续性。为了解决这个限制,本文致力于增强半密集匹配框架中的精细匹配模块。我们使用一个轻量级和有效的单应性估计网络来生成从粗匹配获得的片之间的透视映射。这种小块到小块的方法实现了两个小块的整体对齐,通过结合额外的约束,产生了更高的亚像素精度。通过利用块之间的单应性估计,我们可以以低计算成本获得密集的匹配结果。大量实验表明,与以前的半密集匹配器相比,我们的方法获得了更高的准确率。同时,与以前的密集匹配器相比,我们的密集匹配结果表现出相似的端点误差精度,同时保持半密集效率。

2. 引言

特征匹配是一项基本的计算机视觉任务,它估计两幅图像中对应于同一3D点的像素对。这项任务对于许多下游应用至关重要,如运动恢复结构(Structure from Motion,SfM)、同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)、视觉定位、图像拼接等。

早期的方法主要依赖于特征检测器,涉及识别一对图像中的显著点,为这些点构建描述符,随后完成特征匹配。这一时期的重点是创建更高效的特征检测器,从而推动了诸如SIFT、ORB和其他基于学习的方法的发展。然而,对检测器的依赖显著降低了鲁棒性,导致在无纹理区域或视角变化较大的场景下失败。

最近,LoFTR引入了一种基于由粗到细范式的无检测器方法。它利用Transformer的上下文聚合和位置编码能力来生成具有区分性的粗特征,使其更擅长处理无纹理场景。采用互最近邻策略获得粗匹配,然后利用这些粗匹配从高分辨率的精细特征图中提取相应的图像块对进行进一步细化。基于源图像块中心点和目标图像块之间的相关性和期望值进行精细匹配。

ASpanFormer采用了一种不确定性驱动的方案来自适应调整局部注意力范围,通过更强的特征表示来提高模型性能。然而,精细匹配仍然依赖于点到图像块的细化。这种使用点到图像块匹配来计算期望值的方法可能会受到不相关区域的影响,导致空间方差,进而影响精细粒度的准确性。

还有一些方法也对精细级别的匹配进行了改进。Efficient LoFTR采用了一种两阶段细化策略来减小相应图像块的大小,但它仍然依赖于计算点到图像块的相关性期望值。

为解决上述问题,并考虑到匹配图像块之间的透视变换关系,我们提出了一种轻量级但有效的单应性估计网络,以确定匹配图像块对之间的精细映射。我们的方法通过关注高度相关的区域来对齐图像块,利用更丰富的约束来最小化不相关区域的影响,从而获得更准确的结果。在获得单应性估计后,可以在两个图像块之间自由且快速地执行稀疏或稠密匹配。在此之前,像LoFTR这样的无检测器方法在SLAM或SfM应用中保持关键点在连续图像匹配中的一致性方面遇到了挑战。具体来说,当一幅图像在某个时刻作为目标进行匹配,而稍后作为源图像时,所得的关键点可能会不一致,从而影响SLAM后端优化中的光束平差(Bundle Adjustment,BA)过程,该过程需要一组在多视图图像中对应于同一3D点的2D关键点位置。我们的方法可以从图像块内的任何位置获得匹配结果,确保在连续匹配过程中关键点的连续性。

与稠密匹配方法相比,我们的模型保持了半稠密方法的效率。我们提出的精细匹配模块可以直接集成到现有的利用由粗到细框架的无检测器方法中。我们在LoFTR和ASpanFormer模型上进行了综合实验,证明我们的方法显著提高了模型性能,甚至达到了半稠密匹配方法的最新水平。值得注意的是,我们的轻量级版本在保持更快处理速度的同时,也提升了原始模型的性能。

我们还计算了端点误差,这是稠密方法中常用的确定性指标,以明确评估模型在精细粒度匹配方面的性能。实验结果表明,我们的方法显著优于其他半稠密方法,并达到了与稠密方法相似的结果。

3. 效果展示

我们提出的HomoMatcher和稠密匹配方法RoMa的稠密匹配结果可视化。HomoMatcher在半稠密框架内运行,保持效率,并能够从半稠密结果中灵活扩展稠密映射。中间行是RoMa的结果,显示了确定性值高于0.02的变形。底行展示了我们的结果,证明了我们的方法在稠密匹配细化方面的能力。

4. 主要贡献

我们的主要贡献如下:

• 我们引入了一种基于单应性估计的新型精细匹配模块,该模块通过图像块到图像块的全局对齐,抑制了细化过程中不相关区域引起的空间方差,实现了更准确的亚像素级匹配。

• 通过利用图像块之间的单应性估计,我们的方法可以为图像块内的任何点提供匹配结果,确保关键点的可重复性。此外,它还允许以半稠密方法的效率增加匹配的密度。

• 所提出的方法可以直接集成到现有的半稠密方法中,实验表明,用我们的方法替换其精细匹配模块可以显著提高匹配准确性。

5. 方法

如图2所示,我们的方法采用了LoFTR(Sun等人,2021)开创的由粗到细的范式。给定一对图像IA和IB,我们的网络在降采样分辨率下生成粗匹配,然后使用单应性估计进行细化。首先,两幅图像都通过带有特征金字塔网络(Feature Pyramid Network,FPN)的ResNet主干进行多级特征提取。粗级别特征在原始分辨率的1/8处提取,而精细级别特征在1/2处提取。

这些粗特征在位置编码后,通过迭代自/交叉注意力模块进行特征增强,该模块通过Transformer实现。一些最近的方法采用自适应注意力区域或可变形注意力来进一步增强特征表示。在获得具有区分性的粗特征后,通过特征的内积导出得分矩阵,并使用双softmax运算符获得初步匹配概率矩阵Pc。接下来,使用互最近邻(MNN)确定粗匹配结果Mc:

其中,i、j分别表示IA和IB在降采样为1/8的图像上的位置,θc是粗匹配的概率阈值。为实现亚像素精确匹配,从以Mc为中心的精细级别特征中裁剪特征图像块进行细化。以前的方法会在精细匹配阶段选择源图像块中的一个参考点,然后进行特征相关性和异常值处理。然而,这种方法可能会受到不相关区域的影响,导致空间方差。 推荐课程: 如何快速上手全球最强开源飞控px4?

可以使用单应性估计成功对齐图像之间的小图像块。我们提出了一种使用单应性估计对齐图像块的方法,只关注高度相关的区域,而忽略相关性较低的区域。这种对齐图像块之间高度相关区域的方法会得到一个映射矩阵,从而产生更精确和鲁棒的结果。

利用单应性估计Hk-1对4D相关体积进行可视化采样。上排展示了从维度为w×w×w×w的4D相关体积中采样到w×w×(2r+1)×(2r+1)的4D相关切片的过程。下排展示了如何基于像素映射结果,使用(2r+1)×(2r+1)窗口从相关块中对每个像素位置进行采样。

不同扩展半径(re)对匹配致密化的影响可视化。从左至右,图像展示了变形目标以及使用扩展半径re=2、3、4所获得的密集匹配变形结果。尖顶部分的放大细节进一步说明了本模型致密化的可靠性。

6. 实验结果

至于表1中所示的相对姿态指标,仅将精细匹配模块替换为我们提出的单应性估计方法,就显著提升了LoFTR和ASpanFormer在两个数据集上的性能。在MegaDepth数据集上,基于ASpan Homo的LoFTR的AUC@5提升了4.4%,ASpan Homo则提升了3.3%。此外,ASpan Homo的性能可与之前最先进的半密集方法相媲美。

表2中的PCK结果和图5中的定性示例表明,本方法在像素级精度上显著优于之前的半密集匹配方法。像RoMa及其DINOv2主干这样的密集方法,通常依赖于更重且更复杂的架构,导致在实际应用中运行时速度较慢。相比之下,本方法以显著降低的计算成本实现了相当的精细匹配精度。此外,本方法的重型版本在精度上超越了DKM。在单个V100 GPU上,将MegaDepth图像的分辨率调整为1152时,ASpan Homo的运行时间为442毫秒,重型版本为697毫秒,而使用官方代码的RoMa则需要1527毫秒。

HPatches数据集提供了在不同视角和光照条件下对同一场景拍摄的多个图像序列集,以及相应的真实单应性。遵循LoFTR的评估协议,我们将图像的短边调整为480。我们计算角点的平均误差,并报告在3像素、5像素和10像素三个像素阈值下的曲线下面积(AUC),采用与其他方法进行单应性估计时所使用的相同RANSAC方法。表3中的实验结果表明,本方法显著优于之前的稀疏和半密集方法。

7. 总结 & 未来工作

在本工作中,我们引入了一个基于轻量级且有效的单应性估计的强大精细匹配模块。通过粗匹配对齐图像块对,本方法减少了不相关区域的影响,消除了空间方差,从而实现更精确的子像素级匹配。此外,通过单应性估计自由选择源图像块上的匹配点,使我们在各种任务中保持关键点一致性,甚至可以对匹配结果进行致密化。匹配结果的致密化能够在模型训练期间进行密集监督,从而显著提升模型性能。参数为5/1/1的优化版本在性能上超越了之前的方法,同时提供了更高的效率。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉知识星球







请到「今天看啥」查看全文