专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
青眼号外  ·  2025,美妆“首店潮”加速! ·  昨天  
盐财经  ·  雅诗兰黛,巨亏 ·  2 天前  
盐财经  ·  雅诗兰黛,巨亏 ·  2 天前  
51好读  ›  专栏  ›  我爱计算机视觉

IJCAI 2024 | 更快、更便捷的3D场景生成算法

我爱计算机视觉  · 公众号  ·  · 2024-10-01 21:59

正文




关注公众号,发现CV技术之美




论文 FastScene: Text-Driven Fast 3D Indoor Scene Generation via Panoramic Gaussian Splatting 已被国际人工智能顶级学术会议IJCAI-2024主会收录,由中山大学智能工程学院完成。论文第一作者为2023级硕士研究生马义坤,通讯作者为其导师金枝副教授。

  • 原文链接:https://arxiv.org/abs/2405.05768
  • Code:https://github.com/Mr-Ma-yikun/FastScene

三维模型在虚拟现实增强、游戏电影行业、智能家居等有着广泛应用。生成式模型的发展使得建立三维模型更加便捷,例如根据文本或图像生成三维物体。然而三维场景的生成仍具有较大挑战性。

该工作提出了一种新颖的三维场景快速生成方法,基于文本提示,利用全景图和空间运动约束,提出了渐进式全景修复策略,旨在得到高质量的多视角图像。此外,设计了全景图的高斯训练方法,能够更好的解决高斯泼溅无法处理非透视视角的问题。


Abstract

本文提出了一种快捷有效的3D室内场景生成算法,称为FastScene。对于用户,只需要输入一段描述室内的文本,便能快速且高质量的生成3D高斯场景。

本文的 贡献与创新点 如下:

  • 提出了一个新颖的文本到3D室内场景生成框架FastScene,能够较为快速且高质量的生成3D高斯场景,且不需要预定义相机参数和运动轨迹,是一种友好的场景生成范式。
  • 提出了一种渐进式的全景图新视角修复算法PNVI,能够逐渐得到不同视角的干净全景图。并且合成了一个大规模的球面掩码数据集。
  • 通过引入多视角投影策略,解决了3D高斯无法使用全景图重建的问题。

Method

Network Architecture

图1给出了本文所提出的FastScene框架,包括:根据文本生成全景图与粗视角合成、渐进式新视角全景图修复、以及使用全景图进行3D高斯重建。

文本生成全景图与粗视角合成。 与透视视角相比,全景图的一个关键几何特性是边界的连续性。此外,全景图囊括了整个场景表面的信息,相比透视图具有更加显式的几何约束。因此,我们选择全景图作为本文的操作对象。具体来说,首先输入一段文本,例如“一个带有沙发和桌子的舒适的客厅”,然后使用Diffusion360算法生成一张具有连续边界的全景图。然后,我们使用EGformer估计其深度,从而得到空间的立体信息。

为了得到不同位姿下的新视角,我们设计了粗视角合成策略(图2)。首先根据全景图坐标计算每个点的经纬角度:

然后,根据这两种角度,计算三维球面基坐标:

因此三维球面坐标可以表示为基坐标与深度值的相乘:

对于移动后的新坐标系,其基坐标可以用原坐标系表示为:

那么,新坐标系下的全景坐标可以表示为:

因此,接下来只需要判断哪些点位于有效坐标范围,并将无效坐标设为mask,从而得到带有孔洞的新视角全景图:

渐进式全景修复。 得到了带有Mask的全景图后,我们希望修复它获得干净视角。然而,

当我们尝试直接对大距离的全景图修复时,由于无效像素过多,因此修复质量并不理想。如表1所示,直接移动0.33m的孔洞占比为64.3%,这是不利于修复的。因此我们将大距离的移动划分为多个小微元的移动叠加,例如每次只移动0.02m。

此外,我们发现直接对全景图修复,随着移动步数的增加,容易造成扭曲和伪影。因此我们提出使用等距投影,将全景图投影到六张cubemap图像,然后进行修复。

全景3D高斯重建。 得到了多视角的干净的全景图后,我们希望我使用3D高斯重建场景。3D高斯需要先使用COLMAP,从输入视角重建稀疏点云。然而,现在有的COLMAP架构只能处理透视视角输入,无法处理全景图结构。因此,我们引入了一种多视角投影策略,根据用户需求,将全景图投影为多张透视视角,继而使用COLMAP进行稀疏点云重建。图4表明,经过我们的多视角投影策略,可以较好的重建出场景与位姿:


Experiments

Main Results

表2给出了FastScene和其它三维场景生成模型的对比,我们选择CLIP评分、NIQE以及BRISQUE作为评价指标。从表中可以发现,我们的方法不仅具有较好的指标评估性能,且生成速较快。

此外,为了更全面的展示我们的方法的性能,我进行了了定性的评估:

图5给出了不同场景生成方法的渲染视角的视觉效果对比,可以看到:我们的FastScene不仅生成的视角质量较高,且场景连续性也能够较好的保证。

更多的实验结果和实验细节,欢迎阅读我们的论文原文以及补充材料。

Ablation Studies

为了验证我们的渐进式全景视角合成策略的有效性,我们设计了两组消融实验:

直接对全景图修复







请到「今天看啥」查看全文