专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
新闻广角  ·  正式批复!厦门新机场名字定了! ·  18 小时前  
新闻广角  ·  刚果(金)一监狱囚犯纵火致多人死亡,约440 ... ·  19 小时前  
新闻广角  ·  海底捞回应“招聘985/211学历外送员” ·  21 小时前  
51好读  ›  专栏  ›  计算机视觉工坊

15分钟从文本到3D场景 | 一个快速、高质量的生成3D场景的框架:FastScene

计算机视觉工坊  · 公众号  ·  · 2024-05-16 11:00

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

作者:Yikun Ma | 编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

大家好,计算机视觉工坊今天给大家分享一种名为FastScene的文本驱动的快速3D室内场景生成框架。如果您有相关工作需要分享,请联系cv3d008

0. 读者个人理解

这篇论文提出了一种名为FastScene的文本驱动的快速3D室内场景生成框架。该方法首先利用预训练的Diffusion360模型根据文本提示生成全景图,并估计其深度信息。接着,提出了一种名为PNVI的渐进式新视角合成策略,以生成高质量的新视角全景图。随后,利用多视角投影(MVP)将全景图转换成透视视角图,并利用3D高斯溅射(3DGS)进行场景重建。实验证明,FastScene在生成速度和质量方面优于其他方法,且只需文本提示即可在15分钟内生成完整的3D场景。该方法提供了一种用户友好的场景生成范式,具有广泛的应用前景。

1. 论文信息

标题: FastScene: Text-Driven Fast 3D Indoor Scene Generation via Panoramic Gaussian Splatting
作者:Yikun Ma等人
单位:中山大学
链接: https://arxiv.org/abs/2405.05768

2. 方法概述

FastScene

FastScene框架主要包含以下几个阶段:

  1. 全景图生成和深度估计 :使用Diffusion360模型根据文本提示生成全景图,然后利用EGformer模型估计全景图的深度。
  2. 粗略视点合成和新颖视点逐步修复 :利用Coarse View Synthesis (CVS)生成带孔的新全景图,再通过Progressive Novel View Inpainting (PNVI)逐步修复孔洞,获得清晰的新全景图。
  3. 多视角投影和3D高斯溅射 :利用Multi-View Projection (MVP)将全景图投影为多个透视视图,然后使用3D Gaussian Splatting (3DGS)从多视角视图重建3D场景。

FastScene框架的关键创新点包括使用全景图获取全局信息、通过CVS和PNVI生成高质量新视图、以及利用MVP将全景图转换为3DGS可处理的透视视图,实现了快速且一致的3D场景生成。

3.实验

  1. 实现细节 :介绍了在PyTorch框架下实现方法,使用预训练的Diffusion360和EGformer进行全景生成和深度估计,在合成数据集上对AOT-GAN进行再训练用于修复。评估指标采用无监督的CLIP Score、NIQE和BRISQUE。在单个NVIDIA RTX A6000 GPU上,生成一个完整的场景大约需要15分钟。
  2. 全景修复数据集 :介绍了合成的全景修复数据集,包含84k张视角RGB图像和1344k个修复mask。这些数据用于在合成数据集上对AOT-GAN进行再训练。
  3. 与其他方法的比较 :通过与Text2Room、Set-the-Scene和SceneScape等方法的比较,展示了本文方法的生成速度和渲染质量优势。
  4. 扩展实验 :在Matterport3D和Replica360等全景数据集上进行了扩展实验,验证了本文方法的泛化能力。并与基于NeRF的方法进行比较,展示了本文方法的渲染质量优势。
  5. Ablation Study :通过Ablation Study验证了本文修复模式的有效性。

4.总结

本文介绍了一种名为FastScene的快速文本驱动的室内3D场景生成框架。其主要创新点包括:

  1. 使用全景图作为输入,以获取全局一致的场景信息。
  2. 提出了Coarse View Synthesis (CVS)和Progressive Novel View Inpainting (PNVI)策略,用于生成高质量的新全景图。
  3. 引入Multi-View Projection (MVP)模块,将全景图转换为透视视图,以适应3D Gaussian Splatting (3DGS)的输入需求。
  4. 利用3DGS进行快速的场景重建。

实验结果显示,FastScene在生成速度和质量方面都优于其他方法,仅需15分钟即可生成高质量且一致的3D场景,为用户提供了友好的场景生成范式。

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目 &作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉课程官网: www.3dcver.com






请到「今天看啥」查看全文