点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「
3D视觉从入门到精通
」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一种名为COLMAP-Free 3D Gaussian Splatting(CF-3DGS)的新方法,用于从图像序列中进行相机姿态估计和新视角合成。这种方法的核心在于它不依赖于预先计算的相机姿态,而是利用3D高斯点云的显式表示和输入视频流的连续性,实现了无需任何结构从运动(SfM)预处理的新视角合成。文章提出的方法能够顺序处理输入帧,并逐步增加3D高斯集合,一次处理一个输入帧,而无需预计算相机姿态。这种方法在处理大运动变化的场景时,相比于以往的方法有显著的改进,包括在视图合成和相机姿态估计方面的性能提升。此外,文章还提供了项目页面和开源代码,以便研究社区进一步探索和改进这项技术。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:COLMAP-Free 3D Gaussian Splatting
作者:Yang Fu, Sifei Liu等
作者机构:UC San Deigo,NVIDIA等
论文链接:https://arxiv.org/pdf/2312.07504
2. 摘要
虽然神经渲染在场景重建和新视角合成方面取得了令人印象深刻的进展,但它严重依赖于精确预先计算的相机姿态。为了放松这一限制,已经有多项工作尝试在不进行预处理相机姿态的情况下训练神经辐射场(NeRFs)。然而,NeRFs的隐式表示在同时优化三维结构和相机姿态时带来了额外的挑战。另一方面,最近提出的三维高斯散点提供了新的机会,因为它具有显式的点云表示。本文利用显式的几何表示和输入视频流的连续性,在无需任何结构自运动(SfM)预处理的情况下实现了新视角合成。我们以顺序方式处理输入帧,并通过每次引入一个输入帧逐步扩展三维高斯集合,无需预先计算相机姿态。我们的方法在视角合成和大幅运动变化下的相机姿态估计方面显著优于以往的方法。我们的项目页面是:https://oasisyang.github.io/colmap-free-3dgs。
3. 效果展示
在 Tanks and Temples 数据集上进行新视角合成的定性比较。我们的方法比其他基线生成了更加逼真的渲染结果。
在 CO3D V2 数据集上进行新视角合成和相机姿态估计的定性比较。我们的方法在相机姿态估计上比 Nope-NeRF 更加稳健,从而生成了更高质量的渲染图像。
4. 主要贡献
无需预处理相机姿态的新视角合成
:文章提出了一种新的方法,可以在没有预先计算相机姿态的情况下进行新视角合成。这是通过利用3D高斯溅射(3D Gaussian Splatting)的显式点云表示和输入视频流的连续性来实现的,从而无需任何结构从运动(SfM)预处理。
顺序处理输入帧
:该方法以顺序方式处理输入帧,并逐步增加3D高斯集合,一次处理一个输入帧,无需预计算相机姿态。这种方法在处理大运动变化的场景时,相比于以往的方法有显著的改进。
显式几何表示
:文章利用了3D高斯溅射的显式点云表示,为同时优化3D结构和相机姿态提供了更好的基础。
视频流连续性利用
:文章充分利用了输入视频流的时序连续性,为相机姿态估计和3D结构重建提供了额外的约束。
渐进式重建
:通过逐帧处理和添加3D高斯,实现了场景的渐进式重建,提高了算法的灵活性和鲁棒性。
无需COLMAP预处理
:文章摆脱了对传统SfM pipeline(如COLMAP)的依赖,大大简化了整个重建流程。
实验结果
:文章的实验结果表明,在大幅度相机运动的场景下,该方法在新视角合成和相机姿态估计方面显著优于之前的无预处理NeRF方法。
5. 基本原理是啥?
3D高斯场景表示
:文章提出了一种新的3D场景表示方法,使用3D高斯函数来表示场景中的点。每个3D高斯都有其位置(均值)、协方差矩阵(描述形状和尺度)以及颜色和密度参数。这种表示方法结合了显式的点云表示和连续的体积渲染,允许在不需要预先计算相机姿态的情况下进行新视角合成。
顺序处理输入帧
:该方法以顺序方式处理输入帧,并逐步增加3D高斯集合,一次处理一个输入帧。这种方法利用了输入视频流的连续性,为相机姿态估计和3D结构重建提供了额外的约束。
显式几何表示与视频流连续性利用
:文章利用了3D高斯溅射的显式点云表示,为同时优化3D结构和相机姿态提供了更好的基础。同时,充分利用了输入视频流的时序连续性,提高了算法的灵活性和鲁棒性。
渐进式重建
:通过逐帧处理和添加3D高斯,实现了场景的渐进式重建。这种方法提高了算法的灵活性和鲁棒性,尤其是在处理大运动变化的场景时。
无需COLMAP预处理
:文章摆脱了对传统SfM pipeline(如COLMAP)的依赖,大大简化了整个重建流程。这种方法不需要预计算相机姿态,可以直接从图像序列中联合估计相机姿态和生成新视角的图像。
快速体积渲染技术
:文章还提到了一种高效的体积渲染技术,这种技术能够通过快速排序和遮挡处理来提高渲染速度和质量,同时限制了可以接收梯度的高斯数量,这有助于更好地控制渲染过程中的资源消耗。
优化过程
:通过优化位置、协方差和球谐函数密度参数来创建3D Gaussian表示,优化流程包括使用分块的方法来提高渲染效率和速度。这种方法的优势包括能够有效处理包括复杂背景和深度变化大的场景在内的完整场景,并且无需法线信息就实现结构和深度复杂性的高质量渲染。
6. 实验结果
新视角合成和相机姿态估计的比较
:文章提出的方法(CF3DGS)在新视角合成的质量以及相机姿态估计的准确性方面,都优于之前的状态-of-the-art方法。在大运动变化的场景下,该方法表现出了更多的鲁棒性。
实验设置
:实验在Tanks and Temples数据集和CO3D V2数据集上进行。Tanks and Temples数据集包含了室内和室外场景,而CO3D V2数据集则包含了更复杂和具有挑战性的相机运动。
性能评估
:在Tanks and Temples数据集上,文章的方法在新视角合成和相机姿态估计方面的性能优于其他基线方法,包括Nope-NeRF、BARF、NeRFmm和SC-NeRF。在CO3D V2数据集上,该方法同样展现出了优越的性能。
训练时间
:与其他方法相比,该方法的训练时间显著缩短。例如,与Nope-NeRF相比,该方法的训练时间从大约30小时减少到大约2小时。
定量结果
:在Tanks and Temples数据集上的定量结果显示,该方法在相对姿态误差(RPEt)、相对姿态误差(RPEr)和平均轨迹误差(ATE)方面均优于其他方法。例如,在“Church”场景中,该方法的RPEt为0.008,RPEr为0.018,ATE为0.002,而Nope-NeRF的相应值为0.400,1.966和0.046。
定性结果
:在CO3D V2数据集上的定性比较显示,该方法估计的相机姿态更加稳健,从而生成了更高质量的渲染图像。
7. 总结 & 未来工作
在本研究中,我们提出了CF-3DGS,这是一种用于从图像序列中联合估计相机位姿和新视角合成的端到端框架。我们证明了之前的研究要么难以处理大范围的相机运动,要么需要极长的训练时间。与NeRF的隐式表示不同,我们的方法利用显式的点云来表示场景。通过利用3DGS的能力以及视频流中固有的连续性,我们的方法依次处理输入帧,逐步扩展3D高斯模型以重建整个场景。我们在挑战性的场景(如360度视频)中展示了该方法的有效性和鲁棒性。得益于高斯分布的优势,我们的方法实现了快速的训练和推理速度。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称