本篇分享 NeurIPS 2024 论文
How to Use Diffusion Priors under Sparse Views?
,北京航空航天大学计算机学院李甲教授和赵一凡副教授及其研究团队提出了一种基于内联先验引导分数匹配的稀疏视角三维重建。
-
-
-
-
项目组主页:https://cvteam.buaa.edu.cn
-
论文地址:https://arxiv.org/pdf/2412.02225
-
代码地址:https://github.com/iCVTEAM/IPSM
引言
基于梯度优化和可微渲染的新视角合成方法(如:神经辐射场、三维高斯溅射)是三维重建任务的研究热点之一。这类方法往往需要大量、稠密的稀疏视角用于训练,在稀疏训练视角的情况下,大部分新视角合成方法会产生严重的过拟合和性能退化问题,并难以合成高质量的新视角视图。
为了解决稀疏视图条件下的优化过拟合问题,目前的方法引入了外部先验来监督重构的优化,如CLIP语义信息、单目深度和扩散视觉先验。然而,尽管扩散模型作为外部先验可以提供比语义和深度信息更强的视觉监督,但它通常需要大量的计算资源来对扩散先验或预训练编码器进行微调。
研究动机
尽管扩散模型受益于最近快速发展的分数蒸馏技术(比如:分数蒸馏采样),在3D生成任务(比如:text-to-3D)中展示了极佳的指导能力,但是SDS在稀疏视图下,扩散先验的视觉信息引导能力较差,甚至在输入视图增加时对基线性能产生抑制作用,如图1所示。因此,SDS难以简单适用于在稀疏视图下通过扩散先验提升视觉监督。
图1分数蒸馏采样(SDS)在稀疏视角下展现出的不同优化特性。
在此基础上,我们可以认识到稀疏视图与文本提示的区别在于稀疏视图带来的内联约束。在稀疏视角下,理想的新视角图像监督信息并不完全缺失。由于三维几何结构的一致性,信息存在于给定的稀疏视图中,我们称之为
内联先验
。之前的工作尝试通过隐式编码输入稀疏视图来指导扩散模型的采样轨迹,从而引入内联先验。尽管如此,由于特定场景和扩散先验之间的域偏移,域修正经常需要大量的外部3D标注数据和计算资源。
针对上述分析,我们提出了内联先验引导评分匹配(IPSM),一种内联先验引导的分数匹配方法。
方法
图2 SDS和IPSM的比较。
针对扩散模型视觉先验在稀疏视角三维重建任务中无法提供有效视觉指导的问题,本文提出了内联先验引导分数匹配的稀疏视角三维重建方法。直观而言,SDS的优化目标是通过反向KL散度来将渲染图像分布模式与目标扩散先验分布模式对齐。然而,由于稀疏视图下渲染图像分布固有的次优性,SDS倾向于偏离目标模式,如图2左所示。
为了解决这一问题,我们提出了内联先验引导分数匹配(IPSM),利用内联先验来校正渲染图像分布的方法。如图2右所示,IPSM利用修正分布将SDS的优化目标划分为两个子目标。修正分布作为优化目标的中间状态,控制模式寻找方向,从而抑制了模式偏差,进而促进重建改进。
图3 IPSM-Gaussian方法。
基于上述提出的IPSM,我们以三维高斯溅射(3DGS)作为方法框架,进一步提出了IPSM-Gaussian Pipeline。该方法将稀疏输入视角反向变换至采样的伪视角,获得稀疏视角内联先验,而后通过Stable Diffusion Inpainting预训练模型结合内联先验建模修正分布作为优化的中间态,如图3所示。除IPSM正则项外,本文还引入了深度正则化和几何一致性正则化,来进一步改进修正分布,以及提升重建质量。
实验结果
图4 与其他方法的定量比较。
在LLFF数据集上的定量实验结果如图4所示,我们的方法三次实验平均值在多度量指标评估下,在现有的方法中取得了显著的改进,并达到了优秀的重建质量。对于基于NeRF的方法,我们方法的SSIM比SparseNeRF提高了12.5%,LPIPS比FreeNeRF提高了32.79%。对于基于3DGS的方法,与最先进的FSGS和DNGaussian相比,我们的方法的AVGE分别提高了6.48%和7.34%。
图5与其他方法的定性比较。
与其他方法的定性比较如图5所示。由于缺乏外部先验,3DGS和FreeNeRF表现出了3DGS和NeRF本身的优化特性(3DGS:高频伪影;NeRF:低频平滑)。虽然使用了外部单目深度先验的DNGaussian可以抑制伪影,但它只使用粗粒度的深度指导,缺乏细粒度的视觉指导,因此渲染的图像缺乏高频信息。而我们的方法在视觉和几何质量方面都取得了改进。