专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
航空工业  ·  中航工业基层员工登上央视春晚 ... ·  2 天前  
航空工业  ·  护航亚冬,“吉祥”相伴 ·  3 天前  
51好读  ›  专栏  ›  我爱计算机视觉

MVGS | GS 优化新范式!最强 3D 与 4D 重建 GS 方法,已开源!

我爱计算机视觉  · 公众号  ·  · 2024-10-29 13:28

正文




关注公众号,发现CV技术之美




本篇分享论文 MVGS: Multi-view-regulated Gaussian Splatting for Novel View Synthesis ,悉尼科技大学、昆士兰大学和理想汽车联合提出 MVGS:GS 优化新范式!最强 3D 与 4D 重建 GS 方法,已开源!

  • Author: Xiaobiao Du
  • paper:https://arxiv.org/abs/2410.02103
  • Project page: https://xiaobiaodu.github.io/mvgs-project/
  • Code: https://github.com/xiaobiaodu/MVGS

摘要

最近在体积渲染领域开展的工作,例如 NeRF 和 3D Gaussian Splatting(3DGS)借助学习到的隐式神经辐射场或 3D Gaussians,大大提高了渲染质量和效率。

Vanilla 3DGS 及其变体在显式表示的基础上进行渲染,通过在训练过程中采用 NeRF 的每次迭代单视角监督来优化参数模型,从而提高实时效率。因此,某些视图被过度拟合,导致新视图合成中出现不令人满意的外观和不精确的三维几何图形。

为了解决上述问题,我们提出了一种新的 3DGS 优化方法,其中包含四个关键的新贡献:

  1. 我们将传统的单视角训练模式转变为多视角训练策略。通过我们提出的多视角约束,可以进一步优化三维高斯属性,而不会过度拟合某些训练视角。作为一种通用解决方案,我们提高了各种场景和不同高斯变体的整体准确性。
  2. 受多视图训练带来的好处和启发,我们进一步提出了cross-intrinsic guidance方案,从而实现了从粗到细的不同分辨率训练程序。
  3. 在多视角约束训练的基础上,我们进一步提出了cross-ray densification策略,从选定的视角出发,在射线交叉区域致密化更多的高斯核。
  4. 通过进一步研究致密化策略,我们发现当某些视图显著不同时,致密化的效果应该得到加强。

作为解决方案,我们提出了一种新颖的multi-view augmented densification策略,即鼓励三维高斯相应地致密化到足够的数量,从而提高重建精度。

我们进行了大量实验,证明我们提出的方法能够在各种任务中将基于高斯的显式表示方法的新视图合成的 PSNR 提高约 1 dB。


介绍

对于无界场景或单个物体的写实渲染在工业和学术领域都具有重要价值,如多媒体生成、虚拟现实和自动驾驶等。传统的基于几何图元的表示方法(如网格和点云)通过高效的光栅化技术实现了实时渲染。尽管这种渲染机制具有较高的效率,但在呈现精细、准确的外观时,仍然存在模糊伪影和不连续性的问题。

相反,隐式表示和神经辐射场(NeRF)利用多层感知机(MLP)提高了渲染高保真几何结构的能力,保留了更多细节。然而,即使采用加速算法,推理效率仍然有限。

近年来,基于3D高斯的显式表示(如高斯点阵)凭借定制的光栅化技术,在渲染质量和效率上都达到了最新水平。这种训练策略通过每次迭代使用单个相机视角的样本进行训练,在NeRF中常见。然而,由于其显式特性,我们观察到这种单视角训练模式容易导致过拟合,不能精确呈现场景中的所有细节。

本文提出了一种通用优化方法MVGS,增强了基于高斯的显式方法的精度。我们的主要贡献是改变传统的单视角训练方式,提出多视角约束学习。在训练过程中,3D高斯通过多个视角的结构和外观联合学习,避免了过拟合问题。此外,我们提出了从低分辨率到高分辨率的cross-intrinsic guidance,低分辨率训练提供了多视角信息,有助于在高分辨率训练中雕刻更精细的细节。

为了提高多视角学习的效果,我们还提出了一种Cross-ray Densification策略,利用2D损失图引导3D高斯在重叠区域进行密集化,从而提高多视角下的重建性能。此外,当视角差异显著时,我们提出了多视角增强的密集化策略,鼓励3D高斯适应多视角信息,改善表现。

大量实验表明,我们的方法在各种任务上提升了基于高斯方法的新视角合成精度,包括一般物体重建、4D重建和大规模场景重建。实验结果显示,随着每轮优化中视角数量的增加,精度得到显著提升。


方法

method

Gaussian Splatting 最近被提出用于实时的新视角合成和高保真 3D 几何重建。与 NeRF 和 NeuS 中采用的隐式表示(如 NeRF 中的密度场和 NeuS 中的 SDF)不同,Gaussian Splatting 利用了一组各自具有位置、颜色、协方差和不透明度的各向异性 3D 高斯函数来参数化场景。这种显式表示与之前的 NeRF 和 NeuS 方法相比,显著提高了训练和推理效率。

在渲染过程中,Gaussian Splatting 采用了基于点的体积渲染技术,类似于 NeRF。如图(a)所示,我们指出 NeRF 由于其点采样策略和隐式表示,无法在一个训练迭代中接收多视角监督。图像中像素 的视角依赖辐射 是通过混合沿着射线 的一组 3D 高斯来计算的。NeRF 使用采样器分配的点在辐射场中进行近似混合,而 3DGS 则通过栅格化与沿射线 个参数化核 进行精确混合。

假设第 个高斯 的属性分别由颜色 、不透明度 和协方差 描述,渲染的像素辐射 表示为

其中颜色 由透光率 加权。这里 表示高斯核的位置 与查询像素 之间的距离。 表示 3D 高斯的数量。

给定 对地真图像 及其对应的相机外参 和内参 ,即 ,3DGS 的目标是重建由多视角立体数据描述的 3D 模型。在训练策略方面,3DGS 遵循 NeRF 的惯例,即通过每次迭代的单视角监督来优化参数模型。关于训练,3DGS 通常通过每次迭代中的单视角信息监督进行优化,其中每次迭代中的监督是随机选择的

因此,原始 3DGS 的损失函数可以相应地表示为:

其中, 分别表示平均绝对误差和 D-SSIM 损失。 表示部分 会在单视角监督模式下受到较大的梯度影响。实际上,超参数 用于控制这两个损失项之间的比例。

Multi-view Regulated Learning

考虑到隐式表示(例如 NeRF)依赖于预训练的采样器来近似最具置信度的混合点,多视角监督并不能保证相较于单视角训练的提升,特别是在采样器未经过充分训练时。显式定义的高斯核则不依赖于采样器进行分配,因此我们提出的多视角训练策略是可行的,其中大部分混合核 可以通过多视角加权梯度进行反向传播,从而克服某些视角的过拟合问题。

与原始的单视角迭代训练不同,我们提出了一种多视角约束的训练方法,以多视角监督的方式优化 3D 高斯。具体来说,在一次迭代中,我们采样 对监督图像和相机参数。

因此,我们提出的在单次迭代中整合梯度的多视角约束学习可以表示为:

其中 表示在多视角训练中,每个视角的部分 3D 高斯 将受到大的梯度影响。与原始 3DGS 损失的唯一不同之处在于,我们提出的方法为优化一组 3D 高斯 提供了多视角约束。

通过这种方式,优化每个高斯核 可能会受到多视角信息的调节,从而克服对某些视角的过拟合问题。此外,多视角约束使 3D 高斯能够学习并推导出视角依赖信息,如反射,因此我们的方法在反射场景的新视角合成中表现良好。

Cross-intrinsic Guidance

如方法图底部所示,受图像金字塔的启发,我们提出了一种粗到细的训练方案,使用不同的相机设置(即内参 ),通过简单地补充更多的光栅化平面来实现。

具体来说,通过重新配置 中的焦距 和主点 ,可以构建一个具有降采样因子







请到「今天看啥」查看全文