专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

IJCAI 2024 | 更快、更便捷的3D场景生成算法

我爱计算机视觉 · 公众号 · · 2024-10-01 21:59

正文

关注公众号，发现CV技术之美

论文 FastScene: Text-Driven Fast 3D Indoor Scene Generation via Panoramic Gaussian Splatting 已被国际人工智能顶级学术会议IJCAI-2024主会收录，由中山大学智能工程学院完成。论文第一作者为2023级硕士研究生马义坤，通讯作者为其导师金枝副教授。

原文链接：https://arxiv.org/abs/2405.05768
Code：https://github.com/Mr-Ma-yikun/FastScene

三维模型在虚拟现实增强、游戏电影行业、智能家居等有着广泛应用。生成式模型的发展使得建立三维模型更加便捷，例如根据文本或图像生成三维物体。然而三维场景的生成仍具有较大挑战性。

该工作提出了一种新颖的三维场景快速生成方法，基于文本提示，利用全景图和空间运动约束，提出了渐进式全景修复策略，旨在得到高质量的多视角图像。此外，设计了全景图的高斯训练方法，能够更好的解决高斯泼溅无法处理非透视视角的问题。

Abstract

本文提出了一种快捷有效的3D室内场景生成算法，称为FastScene。对于用户，只需要输入一段描述室内的文本，便能快速且高质量的生成3D高斯场景。

本文的 贡献与创新点 如下：

提出了一个新颖的文本到3D室内场景生成框架FastScene，能够较为快速且高质量的生成3D高斯场景，且不需要预定义相机参数和运动轨迹，是一种友好的场景生成范式。
提出了一种渐进式的全景图新视角修复算法PNVI，能够逐渐得到不同视角的干净全景图。并且合成了一个大规模的球面掩码数据集。
通过引入多视角投影策略，解决了3D高斯无法使用全景图重建的问题。

Method

Network Architecture

图1给出了本文所提出的FastScene框架，包括：根据文本生成全景图与粗视角合成、渐进式新视角全景图修复、以及使用全景图进行3D高斯重建。

文本生成全景图与粗视角合成。 与透视视角相比，全景图的一个关键几何特性是边界的连续性。此外，全景图囊括了整个场景表面的信息，相比透视图具有更加显式的几何约束。因此，我们选择全景图作为本文的操作对象。具体来说，首先输入一段文本，例如“一个带有沙发和桌子的舒适的客厅”，然后使用Diffusion360算法生成一张具有连续边界的全景图。然后，我们使用EGformer估计其深度，从而得到空间的立体信息。

为了得到不同位姿下的新视角，我们设计了粗视角合成策略（图2）。首先根据全景图坐标计算每个点的经纬角度：

然后，根据这两种角度，计算三维球面基坐标：

因此三维球面坐标可以表示为基坐标与深度值的相乘：

对于移动后的新坐标系，其基坐标可以用原坐标系表示为：

那么，新坐标系下的全景坐标可以表示为：

因此，接下来只需要判断哪些点位于有效坐标范围，并将无效坐标设为mask，从而得到带有孔洞的新视角全景图：

渐进式全景修复。 得到了带有Mask的全景图后，我们希望修复它获得干净视角。然而，

当我们尝试直接对大距离的全景图修复时，由于无效像素过多，因此修复质量并不理想。如表1所示，直接移动0.33m的孔洞占比为64.3%，这是不利于修复的。因此我们将大距离的移动划分为多个小微元的移动叠加，例如每次只移动0.02m。

此外，我们发现直接对全景图修复，随着移动步数的增加，容易造成扭曲和伪影。因此我们提出使用等距投影，将全景图投影到六张cubemap图像，然后进行修复。

全景3D高斯重建。 得到了多视角的干净的全景图后，我们希望我使用3D高斯重建场景。3D高斯需要先使用COLMAP，从输入视角重建稀疏点云。然而，现在有的COLMAP架构只能处理透视视角输入，无法处理全景图结构。因此，我们引入了一种多视角投影策略，根据用户需求，将全景图投影为多张透视视角，继而使用COLMAP进行稀疏点云重建。图4表明，经过我们的多视角投影策略，可以较好的重建出场景与位姿：

Experiments

Main Results

表2给出了FastScene和其它三维场景生成模型的对比，我们选择CLIP评分、NIQE以及BRISQUE作为评价指标。从表中可以发现，我们的方法不仅具有较好的指标评估性能，且生成速较快。

此外，为了更全面的展示我们的方法的性能，我进行了了定性的评估：

图5给出了不同场景生成方法的渲染视角的视觉效果对比，可以看到：我们的FastScene不仅生成的视角质量较高，且场景连续性也能够较好的保证。

更多的实验结果和实验细节，欢迎阅读我们的论文原文以及补充材料。

Ablation Studies

为了验证我们的渐进式全景视角合成策略的有效性，我们设计了两组消融实验：

直接对全景图修复