0. 论文信息
标题:Binocular3DGS: Binocular-Guided 3D Gaussian Splatting with ViewConsistency for Sparse View Synthesis
作者:Liang Han, Junsheng Zhou, Yu-Shen Liu, Zhizhong Han
机构:Tsinghua University、Wayne State University
原文链接:https://hanl2010.github.io/Binocular3DGS/#
代码链接:https://github.com/hanl2010/Binocular3DGS
官方主页:https://hanl2010.github.io/Binocular3DGS/
1. 导读
在三维计算机视觉中,从稀疏输入合成新的视图是一项重要而具有挑战性的任务。以前的方法利用神经先验(例如,深度先验)作为附加监督来探索3D高斯分布,与基于NeRF的方法相比,证明了有希望的质量和效率。然而,来自2D预训练模型的神经先验通常是噪声和模糊的,难以精确地指导辐射场的学习。在本文中,我们提出了一种新的无先验知识的使用高斯分布从稀疏视图合成新视图的方法。我们的核心思想在于探索由视差引导的图像扭曲构造的每对双目图像之间的双目立体一致性中固有的自我监督。为此,我们额外引入高斯不透明度约束,其正则化高斯位置并避免高斯冗余,以提高从稀疏视图推断3D高斯的鲁棒性和效率。在LLFF、DTU和Blender数据集上的大量实验表明,我们的方法明显优于最先进的方法。
2. 引言
三维重建技术在给定一组密集输入视图的情况下,已展现出在合成逼真新视图方面的显著进步。为了探索在仅有稀疏输入的现实世界严苛环境中完成这一挑战性任务的方法,一些研究通过专门设计的约束和针对视图稀缺性的正则化来学习神经辐射场(NeRF)。然而,基于NeRF的方法通常存在训练和推理速度慢的问题,导致计算成本高,限制了其实际应用。
三维高斯溅射(3DGS)在渲染质量和效率方面取得了显著优势。然而,3DGS在处理输入稀疏视图时仍面临严峻挑战,其中具有有限约束的非结构化三维高斯分布往往会对给定的少数视图产生过拟合,从而导致场景学习的几何不准确。一些基于3DGS的稀疏视图合成最新研究采用来自预训练模型的常用深度先验作为对高斯几何形状的额外约束。然而,神经先验通常带有噪声且模糊,难以精确指导辐射场的学习。
在本文中,我们旨在设计一种无需外部先验作为监督的方法,该方法直接从少数输入视图中探索自监督,以提高稀疏3DGS的质量和效率。我们证明,实现这一目标的关键因素包括:1) 学习更准确的高斯场景几何形状,从而实现一致的视图合成;2) 避免表面附近存在冗余高斯分布,以提高效率和过滤噪声。
为了学习更准确的高斯场景几何形状,我们探索了双目立体一致性中固有的自监督,以约束仅从给定输入视图和合成新视图中使用的3DGS渲染的深度。我们的关键见解在于观察到双目图像对隐式地包含了视图一致性的属性,这在双目立体视觉方法中得到了证明。具体而言,我们首先将一个输入视图的相机稍微向左或向右平移以获得平移视图,然后从中使用3DGS渲染图像和深度。因此,渲染的图像和输入的图像形成了一对如双目立体视觉中的左右视图。然后,我们利用渲染的深度和已知的相机内参来计算这对视图的视差。我们通过使用视差将平移视图的渲染图像扭曲到输入图像的视角来进行监督,并对扭曲图像和输入图像之间的一致性进行约束。
为了进一步减少场景表面附近的高斯冗余,并提高新视图合成的质量和效率,我们提出了一种高斯不透明度的衰减方案。具体而言,我们简单地将衰减系数应用于高斯的不透明度属性,在训练过程中对不透明度进行惩罚。为此,不透明度梯度较低的高斯分布(即不透明度增加量小于衰减量)将被剪枝,而不透明度梯度较高的高斯分布(即不透明度增加量大于衰减量)将被保留。随着优化过程的继续,冗余的高斯分布被过滤掉,而新生成(复制或拆分)且更接近场景表面的高斯分布被保留,从而得到更干净、更稳健的高斯分布。这种不透明度衰减策略显著减少了新视图中的伪影,并减少了高斯分布的数量,提高了3DGS的渲染质量和优化效率。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
此外,为了在对稀疏视图进行优化时实现更好的几何初始化以提高3DGS的质量,我们使用预训练的关键点匹配网络生成密集的初始化点云。密集点云更准确地描述了场景的几何形状,防止高斯分布远离场景表面,尤其是在纹理较低的区域,其中高斯分布的分布受到有限约束。
3. 效果展示
从3个视角训练的效果:
4. 主要贡献
我们的主要贡献如下:
• 我们提出了一种新的方法,使用高斯溅射从稀疏视图中合成新视图,无需外部先验作为监督。我们探索了双目立体一致性中固有的自监督,以约束仅从现有输入视图和合成视图中获得的渲染深度。
• 我们提出了一种不透明度衰减策略,该策略显著规范了高斯分布的学习,减少了高斯分布之间的冗余,从而提高了使用高斯溅射从稀疏视图中合成新视图的渲染质量和优化效率。
• 在广泛使用的面向前方和360度场景数据集上的大量实验表明,与现有的稀疏新视图合成方法相比,我们的方法取得了最优结果。
5. 方法
我们方法的概述。(a)我们利用密集初始化来实现高斯位置,并且利用三个约束或策略来优化位置和高斯属性:(b)双目立体一致性损失。我们通过平移具有摄像机位置的输入视图来构建双目视图对,其中我们以自我监督的方式约束双目视图对的视图一致性。(c)不透明度衰减策略被设计成在训练期间衰减高斯不透明度以使它们正则化。(d)颜色重建损失。
6. 实验结果
7. 总结 & 未来工作
在本文中,我们提出了一种利用三维几何形状(3DGS)从稀疏视角合成新视角图像的新方法。我们利用渲染图像和输入图像构建了一个自监督的多视角一致性约束,并引入高斯不透明度衰减和密集点云初始化策略。这些约束确保高斯分布尽可能贴近场景表面,并过滤掉远离表面的高斯分布。我们的方法使非结构化高斯分布能够准确表示场景几何形状,即使输入视角稀疏,也能生成高质量的新视角渲染图像。在LLFF、DTU和Blender数据集上进行的大量实验表明,我们的方法优于现有的最先进的稀疏视角合成方法。
局限性。由于我们的方法利用视角一致性约束来估计场景深度,因此某些纹理较低的场景区域可能会导致深度估计不准确(例如DTU数据集中的白色背景区域),从而无法约束相应的高斯分布。这会导致白色高斯分布可能在新视角图像中遮挡物体。相比之下,DNGaussian使用预训练网络估计的深度先验来约束高斯分布,从而避免了这种情况的发生。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球