专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
疯子与书  ·  //@疯子与书:这绝非和稀泥、含糊,而是一种 ... ·  18 小时前  
新京报书评周刊  ·  DeepSeek刷屏之后:人机共创年代,还有 ... ·  3 天前  
单向街书店  ·  【单向历】2 月 7 日,宜坦荡 ·  3 天前  
蓝钻故事  ·  年少不懂苏东坡,读懂人已到中年 ·  2 天前  
疯子与书  ·  //@栝-cheetahs-每天吃一个西红柿 ... ·  2 天前  
51好读  ›  专栏  ›  计算机视觉工坊

新国立开源 | 无需SfM和位姿的3D Gaussian Splatting

计算机视觉工坊  · 公众号  ·  · 2024-12-10 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:SfM-Free 3D Gaussian Splatting via Hierarchical Training

作者:Bo Ji, Angela Yao

机构:National University of Singapore

原文链接:https://arxiv.org/abs/2412.01553

代码链接:https://github.com/jibo27/3DGS_Hierarchical_Training

1. 导读

标准3D高斯分布(3DGS)依赖于已知的或预先计算的相机姿态和从运动结构(SfM)预处理获得的稀疏点云来初始化和生长3D高斯分布。我们提出了一种新的无SfM的3DGS (SFGS)视频输入方法,消除了对已知相机姿态和SfM预处理的需要。我们的方法引入了一种分层训练策略,将多个3D高斯表示(每个都针对特定场景区域进行了优化)训练并合并到一个表示整个场景的统一3DGS模型中。为了补偿大的摄像机运动,我们利用视频帧插值模型。此外,我们结合多源监督,以减少过度拟合和提高代表性。实验结果表明,我们的方法明显优于最新的无SfM的新视图合成方法。在坦克和寺庙数据集上,我们将PSNR平均提高了2.25dB,在最佳场景下的最大增益为3.72dB。在CO3D-V2数据集上,我们实现了1.74dB的平均PSNR增强,最高增益为3.90dB

2. 引言

三维高斯溅射(3DGS)基于相机的内参和外参以及初始点云,从多视图图像中表示三维场景。获取相机位姿和初始点云需要进行预处理,这通常通过使用结构从运动(SfM)算法来完成。然而,SfM算法可能耗时较长,并且在处理重复模式、无纹理区域或特征提取错误时可能会遇到困难。此外,

SfM缺乏可微性,这可能限制其在未来研究中的应用。因此,一类新的视图合成方法正在尝试消除对SfM预处理的需求。

去除SfM预处理为3DGS带来了两个明显的问题。首先,如何估计输入图像的相机位姿?其次,如何在场景中初始化和扩展三维高斯?受CF-3DGS的启发,我们解决了从视频序列中构建无SfM的3DGS的挑战。假设视频输入中的相机移动较小,我们通过预测时间上相邻帧之间的相对位姿来解决相机位姿估计问题。通过顺序堆叠这些相对位姿,我们获得了整体的相机位姿。

为了改进相机位姿估计,我们工作中的一项关键创新是利用视频帧插值(VFI)模型来生成额外的帧。我们使用现成的深度模型通过帧间插值将输入视频长度加倍。虽然这些插值帧不是从底层三维模型渲染而来的,并且可能缺乏完美的几何一致性,但它们提供了足够的质量,能够连接帧之间的相对位姿,这对于相机移动较大的序列特别有益。它们还提供了额外的监督,涵盖了原始训练帧中不存在的视角。将这些插值帧纳入3DGS训练后,在Tanks and Temples数据集上的性能提升了0.35 dB。 推荐课程: 实时400FPS!高精NeRF/Gaussian SLAM定位与建图

为了解决初始化和扩展三维高斯的第二个问题,一个直接的方法是使用从第一帧的深度图中派生的点云;然而,这通常会导致在第一帧中不可见的区域的高斯覆盖稀疏。标准的自适应密度控制(通过分裂、克隆和修剪来调整三维高斯)在这些稀疏覆盖的区域中会遇到困难。在这些区域中,高斯可能具有非常小的梯度,使得激活加密过程变得具有挑战性。

为此,我们提出了一种新的分层训练策略,该策略将多个针对场景特定部分优化的基础3DGS模型合并成一个表示整个场景的统一模型。直观地看,自适应密度控制在稀疏的三维高斯区域中遇到困难;然而,在我们的策略中,这些区域被来自其他3DGS模型合并的三维高斯所填充。有趣的是,这种合并策略可以视为一种加密过程:我们丢弃不重要的三维高斯,并通过合并来自不同基础3DGS模型的重要高斯来加密表示。

此外,我们通过多源监督增强了表示质量,同时利用了基础3DGS模型和来自VFI的插值帧。我们的方法在Tanks and Temples上实现了2.25 dB的显著PSNR提升,在CO3D-V2[上实现了1.74 dB的提升,优于最先进的无SfM视图合成方法。即使在不知道相机内参的情况下,我们的方法在PSNR上也比最先进的方法高出0.89 dB。

3. 效果展示

图1展示了与没有分层训练的简单策略相比,我们的方法在三维高斯覆盖方面的改进。这一策略在Tanks and Temples数据集上将峰值信噪比(PSNR)提高了1.19–1.58 dB。

4. 主要贡献

我们的贡献如下:

• 我们通过利用视频帧插值来平滑相机运动,从而改进了位姿估计。

• 我们引入了一种分层训练策略,以解决无SfM预处理下的初始化和密度控制挑战。有趣的是,这种方法可以解释为一种加密步骤。

• 我们采用多源监督,重复使用基础3DGS模型和VFI插值帧来减少过拟合。

• 这些创新共同产生了一种无需SfM预处理的3DGS方法,其性能显著优于现有的无SfM视图合成方法。

5. 方法

考虑一个用相机小幅移动捕获的视频序列I。我们的目标是从I和相机内参K中重建一个三维高斯溅射表示(3DGS)。我们首先估计一系列相机位姿P。然后,我们将视频划分为重叠的段{Cj}。对于每个段Cj,训练一个基础3DGS模型SCj。然后,这些模型从相邻段中迭代合并,以形成一个统一表示。每次合并后,我们使用原始训练帧、来自基础模型的伪视图帧以及VFI在合并段上插值的帧来重新训练合并后的3DGS模型。这个合并和重新训练过程一直持续到我们获得表示整个序列I的最终3DGS模型S。图2提供了该流程的概述。

6. 实验结果

定量比较。我们与当前最先进的新视角合成方法进行了比较,这些方法无需进行结构从运动恢复(SfM)预处理,包括BARF、SCNeRF、Nope-NeRF和CF-3DGS,在Tanks and Temples数据集上进行了测试。如表1所示,与这些方法相比,我们的方法取得了更优的性能。具体而言,与CF-3DGS相比,我们的方法在平均峰值信噪比(PSNR)上提高了2.25 dB,在结构相似性指数(SSIM)上提高了0.03,并在感知图像补丁相似性(LPIPS)上降低了0.02。在Barn场景中,我们的方法提升最为显著,PSNR提高了3.72 dB,SSIM提高了0.07,LPIPS降低了0.05。

定性比较。图4显示,我们的方法实现了更精细的细节和更高的保真度,特别是在CF-3DGS难以生成3D高斯分布的高度详细区域,这凸显了我们训练策略的优势。

定量比较。鉴于该数据集带来的挑战,我们将比较范围限定为最先进的方法,即Nope-NeRF和CF-3DGS。表2显示,我们的方法优于这些方法,平均PSNR提高了1.74 dB。在场景34 1403 4393(teddybear)中,我们的方法提升最为显著,PSNR提高了超过3.90 dB,SSIM提高了0.07,LPIPS降低了0.06。

定性比较。图5表明,即使面对具有挑战性的输入视频,与CF-3DGS相比,我们的方法仍保持了高性能。CF-3DGS在场景34 1403 4393(teddybear)中出现了模糊和不真实的红色伪影,这是由于3D高斯分布学习不理想所致。

相机位姿估计。我们仅在CO3D-V2数据集上进行相机位姿估计的比较,因为它提供了真实相机位姿。如表3所示,我们的方法与所有竞争对手相比,表现相当或更优,将相对位姿误差平移(RPEt)和相对位姿误差旋转(RPEr)分别降低了最多0.464和0.078。我们在绝对轨迹误差(ATE)上的改进不太一致。我们推测,这是由于视频帧插值(VFI)模型生成的插值图像中存在误差,而相机位置估计对这些误差特别敏感。

7. 总结 & 局限性

我们提出了一种针对3D高斯溅射的分层训练策略,无需已知相机位姿或SfM预处理,通过合并特定段的基础3DGS模型来增强表示。我们还进一步结合了视频帧插值来平滑相机运动,并通过重用插值图像和基础模型来缓解过拟合。这种方法优于当前最先进的无需SfM的新视角合成方法,能够在无需SfM预处理的情况下,在多个数据集上实现更广泛的泛化。

局限性。我们的方法需要更长的训练时间,并且在处理大相机运动或低质量输入时可能面临挑战。虽然训练时间增加,但由于3D高斯分布数量减少,渲染速度更快。在实践中,可以通过减少迭代次数或移除VFI来缩短训练时间,这在相机运动较小或输入帧较多时尤其不必要。大运动或输入质量差可能导致3DGS模型合并时出现对齐错误。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文