点击下方
卡片
,关注“
3D视觉之心
”公众号
>>
点击进入→
3D视觉之心技术交流群
0. 论文信息
标题:Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models
作者:Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling
机构:NVIDIA、National University of Singapore、University of Toronto、Vector Institute
原文链接:https://arxiv.org/abs/2503.01774
代码链接:https://research.nvidia.com/labs/toronto-ai/difix3d
1. 导读
神经辐射场和三维高斯分布已经彻底改变了三维重建和新视图合成任务。然而,从极端新颖的角度实现照片级真实感渲染仍然具有挑战性,因为伪像会在表示中持续存在。在这项工作中,我们介绍了Difix3D+,这是一种新的管道,旨在通过单步扩散模型增强3D重建和新视图合成。我们的方法的核心是Difix,这是一种单步图像扩散模型,经过训练可以增强和消除由3D表示的欠约束区域引起的渲染新视图中的伪像。Difix在我们的管道中扮演着两个关键角色。首先,在重建阶段使用它来清理从重建中渲染的伪训练视图,然后将其提取回3D。这极大地增强了欠约束区域,并提高了整体3D表达质量。更重要的是,Difix还在推理过程中充当神经增强器,有效地消除了不完善的3D监督和当前重建模型的有限容量所产生的残余伪影。Difix3D+是一个通用的解决方案,是一个与NeRF和3DGS表示都兼容的单一模型,它实现了平均2×在保持3D一致性的同时,提高了基线的FID分数。
2. 效果展示
我们展示了DiFIX3D+在野外场景(顶部)和驾驶场景(底部)上的表现。最近的新视图合成方法在稀疏输入设置或渲染远离输入相机姿态的视图时存在困难。DiFIX从2D生成模型的先验中提炼,以提高重建质量,并在推理时间进一步充当神经渲染器,以减轻剩余的不一致性。值得注意的是,相同的模型可以有效纠正NeRF和3DGS的伪影。
我们展示了在DL3DV数据集的保留场景中进行的比较。DiFiX3D+纠正了比其他方法多得多的伪影。
3. 主要贡献
我们做出了以下贡献:(i)我们展示了如何以最少的努力将二维扩散模型应用于去除由三维神经表示渲染所产生的伪影。微调过程在单张消费级显卡上仅需数小时。尽管训练时间较短,但同一模型已足够强大,可以去除来自隐式表示(如NeRF)和显式表示(如3DGS)的渲染图像中的伪影。(ii)我们提出了一种更新管道,通过反向提炼改进的新视图来逐步优化三维表示,从而确保多视图一致性和显著提高三维表示的质量。与在每次训练时间步长中查询扩散模型的当代方法[26, 72]相比,我们的方法速度提高了10倍以上。(iii)我们展示了单步扩散模型如何实现近乎实时的后处理,从而进一步提高新视图合成的质量。(iv)我们在不同数据集上评估了我们的方法,并获得了当前最佳(State-of-the-Art,SoTA)结果,平均峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)提高了1dB以上,弗雷谢特初始距离(Fréchet Inception Distance,FID)降低了2倍以上。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图