0. 这篇文章干了啥?
从一系列图像中恢复3D结构和相机运动,仍然是计算机视觉领域的一个基本问题,它与各种下游任务高度相关,如新视角合成或基于云的地图绘制和定位。文献中通常将这个问题称为运动恢复结构(Structure-from-Motion,SfM),多年来,已经出现了两种主要的解决范式:增量方法和全局方法。这两种方法都始于基于图像的特征提取和匹配,随后是两视图几何估计,以构建输入图像的初始视图图。增量方法从两个视图开始重建,并通过注册额外的相机图像和相关的3D结构来顺序扩展它。这个顺序过程交替进行绝对相机姿态估计、三角剖分和捆绑调整(bundle adjustment),尽管能够实现高精度和鲁棒性,但由于代价高昂的重复捆绑调整,其可扩展性受到限制。相比之下,全局方法通过联合考虑视图图中的所有两视图几何,在单独的旋转和平移平均步骤中一次性恢复所有输入图像的相机几何结构。通常,全局估计的相机几何结构随后被用作在最终的全局捆绑调整步骤之前对3D结构进行三角剖分的初始化。虽然最先进的增量方法被认为更准确、更鲁棒,但全局方法的重建过程更具可扩展性,并且在实践中要快几个数量级。在本文中,我们重新审视了全局SfM问题,并提出了一个全面的系统,该系统在保持全局方法效率和可扩展性的同时,实现了与最先进的增量SfM相似的精度和鲁棒性水平。
增量SfM和全局SfM在精度和鲁棒性方面的差距,主要原因在于全局平移平均步骤。平移平均描述的是从视图图中的一组相对姿态中估计全局相机位置的问题,这些相对姿态的相机方向已通过旋转平均恢复。在实际操作中,这一过程面临三大挑战。首先是尺度模糊性:从估计的两视图几何中得到的相对平移只能确定到尺度。因此,为了准确估计全局相机位置,需要三组相对方向。然而,当这些三组形成倾斜三角形时,估计的尺度尤其容易受到观测噪声的影响。其次,准确地将相对两视图几何分解为旋转和平移分量需要准确的相机内参的先验知识。没有这些信息,估计的平移方向往往会有很大的误差。第三个挑战来自于近乎共线的运动,这会导致一个退化的重建问题。这种运动模式很常见,特别是在顺序数据集中。这些问题共同导致了相机位置估计的不稳定性,严重影响了现有全局SfM系统的整体精度和鲁棒性。受平移平均难题的启发,大量研究工作致力于解决这一问题。许多近期的方法都与增量SfM有共同特点,即将图像点纳入问题公式中。基于这一见解,我们提出了一个全局SfM系统,该系统在单个全局定位步骤中直接结合了相机位置和3D结构的估计。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Global Structure-from-Motion Revisited
作者:Linfei Pan, Dániel Baráth, Marc Pollefeys, Johannes L. Schönberger
机构:ETHZ、微软
原文链接:https://demuc.de/papers/pan2024glomap.pdf
代码链接:https://github.com/colmap/glomap
官方主页:https://lpanaf.github.io/eccv24_glomap/
2. 摘要
从图像中恢复3D结构和相机运动一直是计算机视觉研究的长期焦点,被称为运动恢复结构(Structure-from-Motion,简称SfM)。该问题的解决方案分为增量法和全局法。到目前为止,由于增量法具有更高的准确性和鲁棒性,因此最受欢迎的系统都遵循增量范式,而全局法具有更高的可扩展性和效率。在这项工作中,我们重新审视了全局SfM问题,并提出了GLOMAP作为一个新的通用系统,该系统在全局SfM领域的表现优于现有技术。在准确性和鲁棒性方面,我们的结果可与COLMAP(最常用的增量SfM)相媲美或更优,同时速度却快几个数量级。我们已将系统作为开源实现共享于https://github.com/colmap/glomap。
3. 效果展示
4. 主要贡献
本工作的主要贡献是引入了一个通用的全局SfM系统,称为GLOMAP。与以往的全局SfM系统的核心区别在于全局定位步骤。我们提出的方法不是先进行病态的平移平均,然后进行全局三角剖分,而是进行联合相机和点位置估计。GLOMAP在保持全局SfM流程效率的同时,实现了与最先进的增量SfM系统[60]相似的鲁棒性和准确性水平。与大多数以往的全局SfM系统不同,我们的系统可以处理未知的相机内参(如在互联网照片中发现的),并且能够稳健地处理顺序图像数据(如手持视频或自动驾驶汽车场景)。我们的系统以开源实现的形式共享在https://github.com/colmap/glomap上。
5. 基本原理是啥?
所提出的GLOMAP系统的流水线,这是一个全局运动结构框架,通过将平移平均和三角测量阶段合并到一个全局定位步骤中,使其与其他全局方法区别开来。
6. 实验结果
ETH3D SLAM
是一个具有挑战性的数据集,包含具有稀疏特征、动态物体和剧烈光照变化的顺序数据。我们在带有毫米级精确真实值的训练序列上评估了我们的方法。由于测试序列和一些帧没有真实值,因此我们没有考虑它们。结果如表1所示。表中每一行都平均了具有相同前缀的序列的结果,完整结果见补充材料。结果表明,与COLMAP相比,我们提出的GLOMAP系统在召回率上高出约8%,在0.1米和0.5米阈值下的AUC得分分别高出9分和8分,而COLMAP的运行速度要慢一个数量级。与其他全局SfM管道相比,GLOMAP在召回率上提高了18%和4%,在0.1米阈值下的AUC高出约11分,证实了其鲁棒性。
ETH3D MVS(rig)
每个场景包含约1000个多脚架曝光,每个曝光包含4张图像。数据集包含5个训练序列的室外和室内场景,这些序列具有毫米级精确的真实值。我们没有为任何方法固定脚架的位姿。该数据集的结果如表2所示。我们的方法成功重建了所有场景。相比之下,OpenMVG在所有场景上的表现都很差,COLMAP在一个场景上失败,而Theia的表现始终比我们差。在COLMAP成功的序列上,我们的方法达到了相似或更高的精度。我们的运行时间比全局SfM基线稍慢,但比COLMAP快约3.5倍。
ETH3D MVS(DSLR)
包含了一组无序的室外和室内场景高分辨率图像,这些图像的训练和测试序列都具有毫米级精度的真实地面数据,结果如表3所示。与其他ETH3D数据集一致,我们的方法在保持与COLMAP相似精度的同时,优于OpenMVG和Theia。在展览厅(exihibition_hall)场景中,由于场景的旋转对称性导致旋转平均崩溃,GLOMAP的表现不准确。由于场景规模较小,所有方法的运行时间相当。
LaMAR
是一个大规模的室内和室外基准测试集,每个场景包含由多种增强现实(AR)设备和智能手机拍摄的数万张图像。对于这个数据集,我们使用基准测试集中的检索流程来建立匹配项。该数据集的结果如表4所示,定性结果如图1b所示。与包括COLMAP在内的所有其他基线方法相比,GLOMAP在HGE和LIN场景上实现了显著更准确的重建,同时速度比COLMAP快几个数量级。在CAB场景中,包括COLMAP在内的所有方法表现都不佳,尤其是在进行视觉检查时,由于存在许多向前运动轨迹、剧烈的昼夜光照变化以及楼层/房间之间和重复立面之间的许多对称性,这个极具挑战性的基准测试集对它们来说尤为困难。
7. 限制性 & 总结
尽管总体上取得了令人满意的效果,但仍存在一些失败案例。主要原因是旋转平均失败,例如由于对称结构(见表3中的Exhibition_Hall)。在这种情况下,我们的方法可以与现有方法(如Doppelganger)相结合。此外,由于我们依赖传统的对应关系搜索,因此错误估计的两视图几何或完全无法匹配图像对(例如,由于外观或视角发生剧烈变化)将导致结果下降,或在最坏的情况下,导致灾难性失败。
综上所述,我们提出了GLOMAP作为一种新的全局SfM(Structure-from-Motion,从运动中恢复结构)流程。以往该类别中的系统被认为比增量方法更高效但鲁棒性较差。我们重新审视了这个问题,并得出结论,关键在于优化中使用的点。我们不是通过不适定的平移平均来估计相机位置,并分别从点三角剖分中获取3D结构,而是将它们合并为一个全局定位步骤。在各种数据集上进行的大量实验表明,就准确性和鲁棒性而言,所提出的系统与增量方法相比达到了可比或更优的结果,同时速度快几个数量级。该代码已在商业友好的许可下作为开源软件提供。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉工坊知识星球