项目主页地址:
https://johanan528.github.io/Infusion/
Github仓库:
https://github.com/ali-vilab/infusion
机构单位: 中科大,港科大,蚂蚁,阿里巴巴
3D高斯泼溅最近已经成为新视角合成的一种高效表示方法。本工作研究了其编辑能力,特别是着重于补全任务,旨在为不完整的3D场景补充高斯,以实现视觉上更好的渲染效果。与2D图像补全任务相比,补全3D高斯模型的关键是要确定新增点的相关高斯属性,这些属性的优化很大程度上受益于它们初始的3D位置。为此,我们提出使用一个图像指导的深度补全模型来指导点的初始化,该模型基于2D图像直接恢复深度图。这样的设计使我们的模型能够以与原始深度对齐的比例填充深度值,并且利用大规模扩散模型的强大先验。得益于更精确的深度补全,我们的方法,称为InFusion,在各种复杂场景下以足够更好的视觉保真度和效率(约快20倍)超越现有的替代方案。并且具有符合用户指定纹理或插入新颖物体的补全能力。
(a)InFusion 能够无缝删除 3D 对象,以用户友好的方式进行纹理编辑和对象插入。
(b)InFusion 通过扩散先验学习深度补全,显着提高深度修复质量。
背景:
3D高斯作为新视角合成的一种重要方法,因能够以惊人的渲染速度制作出具有真实感的图像而受到重视。3D高斯提供了明确的表示能力和实时处理的可能性,大大提高了编辑3D场景的实用性。特别是对于虚拟现实(VR)和增强现实(AR)等互动式下游应用,研究如何编辑3D高斯变得越来越重要。我们的研究关注于3D高斯的补全任务,这对于3d场景编辑至关重要,有效填补了确实部分,并为进一步的移动物体,增加新物体,改变纹理等编辑方式奠定基础。
现有方法对3D高斯补全的初步探索通常是使用对不同角度的渲染图象进行图像层次的补全,迭代的使用修复后的2D多视图图像作为新的训练数据。但是,这种方法往往会因生成过程中的不一致而产生模糊的纹理,且速度缓慢。
值得注意的是,当初始点在3D场景中精确地定位时,高斯模型的训练质量会显著提高。因此一个实际的解决方案是将需要补全位置的高斯设置到正确的初始点,从而简化整个训练过程。因此,在为需补全高斯分配初始高斯点时,进行深度补全是关键的,将修复后的深度图投影回3D场景能够实现向3D空间的无缝过渡。
因此,我们引入了InFusion,一种创新的3D高斯补全方法,我们利用了预训练扩散模型先验,训练了一个深度补全模型。我们的方法表明,Infusion可以准确确定初始点的位置,显著提高了3D高斯图像修复的保真度和效率。该模型在与未修复区域的对齐以及重构物体深度方面展现了显著的优越性。这种增强的对齐能力确保了补全高斯和原3D场景的无缝合成。此外,为了应对涉及大面积遮挡的挑战性场景, InFusion可以通过渐进的补全方式,体现了它解决此类复杂案例的能力。
方法
如上图InFusion技术方案的核心是一个以输入的RGB图像为条件的深度补全模型。这个模型能够根据观测到的单视图图像来预测和修复缺失的深度信息。它利用了预训练的潜在扩散模型先验,这些模型在大规模图像数据集上进行训练,从而具备了强大的生成能力和泛化性。
整体流程如下:
1
)场景编辑初始化:
首先,根据编辑需求和提供的掩码,在训练
3d
高斯场景的过程中,利用预先标记的掩码,构造残缺的高斯场景。
2
)深度补全:
总体来说,选择一个参考视图,并对该视角渲染得到的单张
RGB
图像利用图像修复模型如(
Stable Diffusion XL Inpainting
)进行修复。
再利用深度补全模型基于观测图像预测出缺失区域的深度信息,生成补全后的深度图。
具体来说,深度补全模型接受三个输入:
从
3D
高斯渲染得到的深度图、相应的修复后彩色图像和一个掩码,其中掩码定义了需要补全的区域。
先使用变分自编码器(
VAE
)将深度图和彩色图像编码到潜在空间中。
其中通过将深度图重复使其适合
VAE
的输入要求,并应用线性归一化,使得深度值主要位于
[-1, 1]
区间内。
后将编码后的深度图加噪得到的近高斯噪声,将掩码区域设置为
0
的编码后的深度图,编码后的
R
GB
指导图像,以及掩码图像,在
channel
维度进行连接,输入到
U-Net
网络进行去噪,逐步从噪声中恢复出干净的深度潜在表示。
再次通过
VAE解码得到补全后的深度图。
3
)
3D
点云构建:
使用补全后的深度图和对应的彩色图像,通过
3D
空间中的反
投影操作,将
2D
图像点转换为
3D
点云,这些点云随后与原始的
3D
高斯体集
合合并。
4)Gaussian模型优化:合并后的3D点云通过进一步很少迭代次数的优化过程进行调整,以确保新补全的高斯体与原始场景在视觉上的一致性和平滑过渡。
实验结果
1.与过往方法对比,Infusion表现出保持 3D 连贯性的清晰纹理,而基线方法通常会产生模糊的纹理,尤其是复杂场景下。
2.在更具有挑战性的场景下,包括具有多对象遮挡的场景,Infusion相比于其他方法也能够产生令人满意的效果
3.同时通过与广泛使用的其他基线方法的比较,以及相应的点云可视化。比较清楚地表明,我们的方法成功地能够补出与现有几何形状对齐的正确形状。
4.Infusion可以通过迭代的方式,对复杂的残缺gaussian进行补全。
5.得益于Infusion补全3d高斯点的空间准确性,用户可以修改补全区域的外观和纹理。
6.通过编辑单个图像,用户可以将物体投影到真实的三维场景中。此过程将虚拟对象无缝集成到物理环境中,为场景定制提供直观的工具。
结论
本文提出的方法InFusion,为3D高斯场景提供了高质量且高效的补全能力。此外,我们证明了结合扩散先验能够显著增强了我们的深度图像修复模型。这个改进的深度补全模型对于各种3D应用,特别是在新视角合成领域有着很大的应用前景。我们的方法为潜在扩散模型(LDM)与3D场景编辑之间建立了联系。这种协同作用对于未来的进一步发展和优化具有重大潜力。