专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

15分钟从文本到3D场景 | 一个快速、高质量的生成3D场景的框架：FastScene

计算机视觉工坊 · 公众号 · · 2024-05-16 11:00

正文

点击下方卡片，关注 「计算机视觉工坊」 公众号
选择星标，干货第一时间送达

作者：Yikun Ma | 编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入 3D视觉知识星球 ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料： 近20门视频课程（星球成员免费学习） 、 最新顶会论文 、 计算机视觉书籍 、 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

大家好，计算机视觉工坊今天给大家分享一种名为FastScene的文本驱动的快速3D室内场景生成框架。如果您有相关工作需要分享，请联系cv3d008

0. 读者个人理解

这篇论文提出了一种名为FastScene的文本驱动的快速3D室内场景生成框架。该方法首先利用预训练的Diffusion360模型根据文本提示生成全景图，并估计其深度信息。接着，提出了一种名为PNVI的渐进式新视角合成策略，以生成高质量的新视角全景图。随后，利用多视角投影（MVP）将全景图转换成透视视角图，并利用3D高斯溅射（3DGS）进行场景重建。实验证明，FastScene在生成速度和质量方面优于其他方法，且只需文本提示即可在15分钟内生成完整的3D场景。该方法提供了一种用户友好的场景生成范式，具有广泛的应用前景。

1. 论文信息

标题： FastScene: Text-Driven Fast 3D Indoor Scene Generation via Panoramic Gaussian Splatting
作者：Yikun Ma等人
单位：中山大学
链接： https://arxiv.org/abs/2405.05768

2. 方法概述

FastScene框架主要包含以下几个阶段：

全景图生成和深度估计 ：使用Diffusion360模型根据文本提示生成全景图，然后利用EGformer模型估计全景图的深度。
粗略视点合成和新颖视点逐步修复 ：利用Coarse View Synthesis (CVS)生成带孔的新全景图，再通过Progressive Novel View Inpainting (PNVI)逐步修复孔洞，获得清晰的新全景图。
多视角投影和3D高斯溅射 ：利用Multi-View Projection (MVP)将全景图投影为多个透视视图，然后使用3D Gaussian Splatting (3DGS)从多视角视图重建3D场景。

FastScene框架的关键创新点包括使用全景图获取全局信息、通过CVS和PNVI生成高质量新视图、以及利用MVP将全景图转换为3DGS可处理的透视视图，实现了快速且一致的3D场景生成。

3.实验

实现细节 ：介绍了在PyTorch框架下实现方法，使用预训练的Diffusion360和EGformer进行全景生成和深度估计，在合成数据集上对AOT-GAN进行再训练用于修复。评估指标采用无监督的CLIP Score、NIQE和BRISQUE。在单个NVIDIA RTX A6000 GPU上，生成一个完整的场景大约需要15分钟。
全景修复数据集 ：介绍了合成的全景修复数据集，包含84k张视角RGB图像和1344k个修复mask。这些数据用于在合成数据集上对AOT-GAN进行再训练。
与其他方法的比较 ：通过与Text2Room、Set-the-Scene和SceneScape等方法的比较，展示了本文方法的生成速度和渲染质量优势。
扩展实验 ：在Matterport3D和Replica360等全景数据集上进行了扩展实验，验证了本文方法的泛化能力。并与基于NeRF的方法进行比较，展示了本文方法的渲染质量优势。
Ablation Study ：通过Ablation Study验证了本文修复模式的有效性。

4.总结

本文介绍了一种名为FastScene的快速文本驱动的室内3D场景生成框架。其主要创新点包括：

使用全景图作为输入，以获取全局一致的场景信息。
提出了Coarse View Synthesis (CVS)和Progressive Novel View Inpainting (PNVI)策略，用于生成高质量的新全景图。
引入Multi-View Projection (MVP)模块，将全景图转换为透视视图，以适应3D Gaussian Splatting (3DGS)的输入需求。
利用3DGS进行快速的场景重建。

实验结果显示，FastScene在生成速度和质量方面都优于其他方法，仅需15分钟即可生成高质量且一致的3D场景，为用户提供了友好的场景生成范式。

本文仅做学术分享，如有侵权，请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目 &作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉课程官网： www.3dcver.com