0. 这篇文章干了啥?
从二维(2D)图像中重建三维(3D)结构数十年来一直是计算机视觉领域的一项基本挑战。经典的运动恢复结构(Structure-from-Motion, SfM)技术,最早由Ullman在20世纪70年代提出,包括识别不同的特征点、匹配具有重叠视图的点,并解决三角测量问题以估计空间中的3D特征点以及相机的位置和方向。这一过程传统上是通过解决一系列更小的问题来实现的:图像检索、特征提取、特征匹配、几何验证、使用几何随机样本一致性(RANSAC)的相机姿态估计和异常值剔除、三角测量和光束平差法。
通过SfM,可以获得稀疏点云和成对图像姿态,这些被用于广泛的计算机视觉任务,包括但不限于密集3D重建、自主导航和导引以及3D对象检测、跟踪和分割。稀疏点云和姿态对多个领域都大有裨益,如自动驾驶、考古学和建筑学、制造业、医疗保健以及城市规划。
SfM的一个关键组成部分是特征提取和匹配步骤,其目的是在多幅图像中识别对应点。这是一项具有挑战性的任务,即使对人类也是如此,因为它需要在多个图像中可靠地识别相同的几何点,特别是在相机参数、光照、季节变化、遮挡和透明度等条件变化的情况下。在经典的SfM技术中,Lowe于1999年开发的尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)作为一种参数化方法,被用于对应匹配,并且至今仍是现实世界中应用最广泛的方法。然而,传统的参数化方法,如SIFT和加速稳健特征(Speeded-Up Robust Features, SURF),在处理重复模式或无纹理空间时往往力不从心。近年来,深度学习(DL)方法,如带有可变形变换的轻量级关键点与描述符提取(ALighter Keypoint and Descriptor Extraction with Deformable transformation, ALIKED)、SuperPoint和DISK等,已作为SIFT的潜在替代方案,用于特征提取和匹配。这些方法旨在学习鲁棒且准确的特征或对应关系。然而,当应用于域外数据时,这些方法可能会失效,即图像特征与训练数据差异显著的情况,如透明物体或剧烈的光照变化。
由于获取大规模、高质量和多样化的3D场景既昂贵又耗时,因此现有的训练数据集并不全面。因此,模型会过度拟合于可用训练数据的特定特征,并难以泛化到新领域。尽管存在这些挑战,但近期的一些工作声称解决了泛化性问题,并优于传统的SIFT等方法。
本文旨在深入探讨从2D图像进行3D重建的最新特征提取和匹配方法。据我们所知,本文是首次全面评估最新先进(State-of-the-Art, SOTA)模型的论文。我们讨论了对于现实世界应用而言泛化性的重要性,并为该领域的研究方向提供了建议。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Mismatched: Evaluating the Limits of Image Matching Approaches and Benchmarks
作者:Sierra Bonilla, Chiara Di Vece, Rema Daher, Xinwei Ju, Danail Stoyanov, Francisco Vasconcelos, Sophia Bano
机构:University College London
原文链接:https://arxiv.org/abs/2408.16445
2. 摘要
从二维图像重建三维(3D)是计算机视觉中一个活跃的研究领域,其应用范围从导航和目标跟踪到分割和三维建模。传统上,参数技术已被用于这项任务。然而,最近的进展已经转向基于学习的方法。鉴于快速的研究步伐和新的图像匹配方法的频繁引入,有必要对它们进行评估。在本文中,我们提出了一个综合评价各种图像匹配方法使用结构从运动管道。我们在域内和域外数据集上评估这些方法的性能,确定方法和基准中的关键限制。我们还研究了作为预处理步骤的边缘检测的影响。我们的分析表明,用于3D重建的图像匹配仍然是一个公开的挑战,需要针对特定场景仔细选择和调整模型,同时也突出了当前度量如何表示方法性能的不匹配。
3. 效果展示
4. 主要贡献
本文的贡献可以概括为:
比较了20种SOTA图像匹配方法,其中8种于2024年提出,并讨论了它们的泛化性和当前数据集的局限性(图1)。我们使用了(a)一个域内数据集,包含来自单个场景、光照条件和相机参数一致的清晰图像,以及(b)一个域外数据集,包含具有不同光照、相机内参、季节和对象透明度的多种图像。
在SfM流程中,使用Dense Extreme Inception Network for Edge Detection(DexiNed)研究了边缘检测对各种传统和基于DL的图像匹配方法的影响。
在不同场景下评估了mAA指标,并探讨了其对图像匹配评估的意义。我们研究了未注册图像如何影响指标结果,并为更清晰、更一致的指标报告提供了建议,以增强可比性。
5. 基本原理是啥?
为了进行我们的分析,我们采用了一个针对每种待比较的图像匹配方法应用的流程。如图2所示,该流程包括三个主要部分:(1)边缘提取,(2)图像对生成,(3)运动结构恢复(SfM)。
边缘检测:使用基于学习的边缘检测方法DexiNed对图像集I =
In
进行预处理,以提取边缘图。由于DexiNed在不同尺度上输出边缘图,我们将它们平均化以创建边缘图像集IE =
IEn
。这使我们能够分析使用不同图像匹配方法突出边缘的影响。为了进行更深入的分析,我们引入了一个变量α,表示I和IE之间的混合因子。具体来说,当α = 0时,使用I作为图像匹配器的输入;当α = 1时,使用IE;当0 < α < 1时,使用I和IE的混合图像Iα。
图像对生成:为了选择用于匹配的图像对,我们首先配对连续帧(滑动窗口法)。然而,由于并非所有序列都是连续的,我们还采用了DINOv2-SALAD的预训练模型来生成额外的图像对。DINOv2-SALAD是一种视觉位置识别方法,它从数据库中查找与查询图像对应的图像。DINOv2用作局部特征提取的主干,而SALAD则作为一种聚合技术,利用特征与已学习聚类之间的关系,通过最优传输方法生成全局特征。
运动结构恢复(SfM):将配对列表中的I、IE或Iα图像输入到图像匹配器中。将得到的匹配特征和描述符输入到从COLMAP中采用的增量SfM模块中。该模块首先确保仅保留几何上一致的匹配项。然后,使用一对图像初始化增量重建过程,之后按顺序注册新图像并将其三角剖分为3D点。在此过程中,使用束调整和RANSAC进行姿态估计和外点剔除。该过程的输出包括估计的姿态,然后使用真实值对其进行评估。
推荐学习:
单目深度估计方法: 理论与实战
6. 实验结果
7. 总结 & 未来工作
在本文中,我们使用SfM来评估各种图像匹配技术。我们的主要发现包括:(1)很少有方法能够通用到足以处理领域外的挑战,且没有一种方法能够成功注册透明物体场景,这仍然是一个待解决的问题。(2)当前的mAA度量在错误定义和未注册图像的处理上存在模糊性,并且在某些条件下,度量意图的含义与内容之间存在不一致。(3)所有方法在IMC24数据集上的评估结果均不佳,表明需要捕获更广泛变异性的数据集。为了开发泛化能力良好的方法,仍需要更大且更接近于真实世界分布的数据集。鉴于这些挑战,选择最佳的整体方法是上下文依赖的,我们希望这项评估能为研究人员在选择和开发图像匹配方法时提供指导。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云