点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
一句话总结:XM是一个强大的可扩展优化引擎,专为大规模运动结构(SfM)任务而设计,可以在短短一小时内高效求解10155帧全局最小值。
0. 论文信息
标题:Building Rome with Convex Optimization
作者:Haoyu Han, Heng Yang
机构:School of Engineering and Applied Sciences, Harvard University
原文链接:https://arxiv.org/abs/2502.04640
代码链接:https://computationalrobotics.seas.harvard.edu/XM
1. 导读
通过深度预测和凸优化使全局光束法平差变得容易。我们(I)提出了一个缩放束调整(SBA)公式,它将2D关键点测量提升到具有学习深度的3D,(ii)设计了一个经验紧凸半有限程序(SDP)松弛,它将SBA求解为可证明的全局最优性,(iii)使用Burer-Monteiro因子分解和基于CUDA的信赖域黎曼优化器(称为XM)在极端尺度下求解SDP松弛,(iv)使用XM作为优化引擎构建了一个运动结构(SfM)流水线,并表明XM-SfM优于现有的SfM流水线。
2. 效果展示
由XM支持的更快、可扩展且无初始化3D重建:
对于Mip-NeRF数据集,我们将求解器生成的相机姿态输入到3D高斯Splatting渲染器中。
推荐课程:
为什么说colmap仍然是三维重建的核心?
Replica数据集的SLAM结果:
3. 主要贡献
(1)为可扩展BA调整问题,设计经验上的凸SDP松弛方案。
(2)使用BM分解和一个直接在C++/CUDA中实现的信任区域黎曼操作器(即XM)来解决极端尺度下的凸SDP问题;
(3)创建一个名为XM-SfM的完整SfM管道,该管道可以“通过凸优化构建罗马“。
4. 方法
BA公式的可视化。我们提出了一个可扩展的BA公式,通过将2D关键点提升到3D,以学习深度。
为了构建图像集的视图图形,我们首先运行COLMAP的特征提取器和详尽匹配器以提取2D对应关系。特征提取器使用SIFT用于特征检测和描述,而详尽的匹配器则匹配每一对图像。匹配后,我们应用GLOMAP的跟踪建立生成一个四列文件,其中前两列表示特征点的坐标,第三列表示图像索引,第四列对应3D地标索引。目前,我们使用COLMAP和GLOMAP的原始实现。但是,我们指出,使用C++和GPU实现可以进一步加快处理速度。我们将此留作未来步骤。
深度估计。我们使用深度估计模型UNIDEPTH为了计算给定图像的度量深度,并将视图图从2D提升到3D。如果给定置信度图,我们还将使用它来更新不同观测的权重。我们还尝试了其他深度预测模型,并在附录B中比较了它们的性能。
从两视图估计滤波器。使用2D观测值,我们估计两幅图像之间的相对位置。基于这个位置,我们过滤出欧几里得距离误差较大的3D地标。具体来说距离误差超过中位数三倍的标志将被移除。
XM求解器。然后,我们使用提升的3D测量和视图图来形成一个Q矩阵。我们使用我们的XM求解器来解决SDP问题。如果需要,我们还会删除10%的测量值,这些测量值具有最大的残差,并重新运行XM求解器。这对应于异常值删除的贪婪启发式方法。
CERES细化。通常深度预测相当杂,导致对XM的估计不准确。因此,我们还将估计的姿势和地标作为暖启动馈送到CERES,以解决原始捆绑调整问,XM的解总是为CERES提供强大的热启动。
5. 实验结果
BAL数据集的可视化。顶部:我们的XM求解器。中间:CERES-GT-0.01。底部:CERES-GT-0.1。我们的XM求解器和CERES-GT-0.01都能准确地恢复地面真实相机位姿和地标,而CERES-GT-0.1则失败。
GLOMAP有时会生成异常值(见第2和第3列):
6. 总结 & 未来工作
我们提出了XM,一个可扩展且无需初始化的全局捆绑调整求解器,利用学习的深度和凸优化。通过将缩放捆绑调整放松为凸SDP,并使用Burer-Monteiro分解和基于CUDA的信任区域黎曼优化器高效地解决它XM在极端规模上实现了可证明的全局最优性。集成到XM-SfM管道中后,它保持了现有SfM方法的准确性,同时显著提高了速度和可扩展性。