专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
中国城市规划  ·  天下事 | “2024年中国考古新发现”,揭晓! ·  2 天前  
中国城市规划  ·  理论研究 | 王明田:县城体检指标与方法 ·  3 天前  
中国城市规划  ·  理论研究 | ... ·  5 天前  
51好读  ›  专栏  ›  3DCV

清华 & 腾讯开源!NovelGS:无惧稀疏视角,快速重建高保真3D形状、几何、纹理

3DCV  · 公众号  ·  · 2024-11-30 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model

作者:Jinpeng Liu, Jiale Xu, Weihao Cheng, Yiming Gao, Xintao Wang, Ying Shan, Yansong Tang

机构:Tsinghua University、Tencent PCG

原文链接:https://arxiv.org/abs/2411.16779

1. 导读

我们介绍了NovelGS,一种给定稀疏视图图像的高斯分布扩散模型。最近的工作利用前馈网络来生成像素对齐的高斯图,这可以快速渲染。不幸的是,由于这些方法的公式化,该方法不能对输入图像未覆盖的区域产生令人满意的结果。相比之下,我们通过基于变压器的网络利用新颖的视图去噪来生成3D高斯图。具体来说,通过结合条件视图和噪声目标视图,网络预测每个视图的像素对齐高斯分布。在训练期间,渲染的目标和一些附加的高斯视图被监控。在推理过程中,目标视图被反复渲染并从纯噪声中去噪。我们的方法展示了在解决多视图图像重建挑战方面的最先进的性能。由于对不可见区域的生成式建模,NovelGS可以有效地重建具有一致和清晰纹理的3D对象。在公开可用的数据集上的实验结果表明,NovelGS在定性和定量两方面都大大优于现有的图像到3D框架。我们还通过将它与现有的多视图扩散模型相结合,展示了NovelGS在生成任务中的潜力,如文本到3D和图像到3D。我们将公开代码。

2. 引言

3D内容创建的自动化在数字游戏、虚拟现实和电影制作等多个领域具有巨大的潜力。核心方法,包括图像到3D和文本到3D的转换,通过大幅减少对专业3D艺术家手工劳动的依赖,提供了显著的优势。一些工作通过迭代提炼图像生成模型来生成3D资源。然而,基于分数提炼采样(SDS)的方法需要为每个资源长时间的优化,通常长达数小时。由于2D扩散模型对3D概念的理解有限,保持3D一致性颇具挑战。因此,这些方法容易产生几何伪影,如多面体Janus以及与内容漂移相关的问题。

随着大型3D数据集和隐式3D表示的出现,一些研究提出利用基于Transformer的模型,以前馈方式将图像映射到三平面特征中。然后,它们使用体积渲染技术来渲染新视图。虽然这些方法灵活,但在渲染过程中会产生密集计算,从而可能非常耗时。例如,在单个NVIDIA A100 GPU上渲染一个2秒(60帧)的视频大约需要1.5分钟。

为了提高用户友好性,一些研究提出将类似框架与Marching Cubes算法相结合,以直接生成3D网格。然而,这种方法在训练过程中颇具挑战且不稳定,且渲染质量欠佳。

3D高斯具有快速的渲染速度和明确的表示。一些研究利用堆叠的Transformer或U-Net模型将图像映射到像素对齐的高斯。然而,它们往往难以泛化到未由输入视图覆盖的新视图。因为它们基于相机的视角将图像的像素点对应到空间位置,所以对于相机未照亮的区域,结果往往较差且不一致。

3. 效果展示

像素对齐高斯重建模型和NovelGS的比较。(a)大多数现有模型基于相机光线将输入像素转化为像素对齐的高斯分布。(b)相反,我们提出通过大高斯重建模型对新视图图像进行去噪,其中对象的不可见部分可以被一致地重建。

NovelGS制作的高保真3D资产。它设计用于稀疏视图重建,并与各种补充工具结合使用,包括文本到图像生成和图像到多视图建模。这个协作框架促进了文本到3D(底部)和图像到3D(中间)的生成,以及真实世界对象的重建(顶部)。

4. 主要贡献

在本文中,我们提出了NovelGS,这是一个基于少数输入图像的3D高斯扩散模型。NovelGS利用基于Transformer的去噪网络,该网络不仅接收条件视图,还接收多个噪声视图。这些目标视图是为未见区域预设的,以生成未被条件视图覆盖的部分。然后,网络预测所有这些视图的像素对齐3D高斯。在训练过程中,我们期望从预测的高斯中渲染出清晰和噪声视图,并使用L2和LPIPS损失进行监督。在推理过程中,我们用纯噪声初始化目标视图,并通过网络逐步对其进行去噪,并从最后一步去噪中获得最终的高斯。具体而言,我们在重建过程中引入了新视图的去噪,以确保不可见部分具有一致的视觉效果。同时,我们的模型结构灵活,可以接受不同数量和位置的噪声视图和清晰视图的各种组合,以适应应用场景。该模型基于扩散时间步长,能够在整个扩散过程中管理不同的噪声水平。 推荐课程: 实时400FPS!高精NeRF/Gaussian SLAM定位与建图

5. 方法

我们在Objaverse的多视图图像上训练了NovelGS,并在Google Scanned Objects和OmniObject3D上评估了其性能。通过整合新视图去噪,我们的模型不仅在具有相同输入视图的情况下优于现有方法,而且还能够处理不平衡的输入图像,这些图像无法覆盖对象的足够部分。当与文本到图像和图像到多视图图像模型结合使用时,NovelGS在文本和单图像到3D对象生成方面达到了卓越的质量。实验结果证明了我们的方法在稀疏视图重建基准中的最先进性能。我们的模型流程如图3所示。在训练阶段,我们的方法使用一组图像及其对应的相机射线嵌入作为输入。我们根据时间步长T向噪声视图图像添加不同级别的噪声。此外,基于Transformer的去噪器预测3D高斯G。最后,我们从3D高斯中渲染出几个图像,并通过渲染损失来监督模型。在推理阶段,我们用纯噪声初始化噪声视图图像,并将其与清晰视图图像拼接。然后,我们将图像集及其相机射线嵌入拼接起来,作为去噪器的输入。此外,去噪器输出3D高斯,我们在噪声视图中渲染这些高斯。之后,我们向噪声视图图像中添加噪声,将其返回到时间步长T-1,并替换时间步长T的噪声视图图像。最后,它们将作为下一个扩散采样步骤的输入,直到我们在时间步长0获得最终的3D高斯。

6. 实验结果

在主实验中,我们默认选择4张清晰视角图像和1张噪声视角图像。

我们报告了在不同评估集上稀疏视角重建的定量结果,分别如表1和表2所示。对于每个评估指标,我们突出了所有方法中表现最好的前两个结果,颜色越深表示结果越好。二维新视角合成指标的定量评估表明,NovelGS在结构相似性指数(SSIM)和峰值信噪比(PSNR)方面显著优于基线模型。这一卓越性能表明,NovelGS生成的输出质量更高。值得注意的是,NovelGS的感知图像块相似度(LPIPS)略低于表现最好的基线模型。这一观察结果意味着,NovelGS生成的新视角在人类的感知中与真实情况存在轻微偏差。这是因为它会根据已知输入图像预测新视角,这归因于新视角扩散过程中固有的“想象”过程。我们的模型试图想象对象的未知部分,而这些部分更能反映对象的真实结构。同时,与InstantMesh相比,它在多个视角下保持一致,而不是忽略细节以使图像在人类看来更合理,如图4第四行所示。我们认为,在重建任务中,优先考虑对象的一致且详细的结构是至关重要的。

7. 总结

本文介绍了一种名为NovelGS的创新扩散模型,该模型专为使用稀疏视角图像的高斯溅射(GS)而设计。我们的方法采用基于Transformer的网络进行新视角去噪,从而生成三维高斯分布。通过将条件视角和噪声目标视角作为输入,网络为每个视角预测像素对齐的高斯分布。在训练阶段,对渲染的目标和额外的高斯视角进行监督。在推理阶段,目标视角从纯噪声中迭代渲染和去噪。我们的方法在解决多视角图像重建挑战方面表现出了最先进的性能。通过生成性建模未见区域,NovelGS有效地重建了具有一致且清晰纹理的三维对象。在公开数据集上的实验结果表明,NovelGS在定性和定量方面均显著优于现有的图像到三维框架。此外,我们还通过将NovelGS与现有的多视角扩散模型相结合,强调了其在生成任务(如文本到三维和图像到三维)中的潜力。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文