点击下方
卡片
,关注
「计算机视觉工坊」
公众号
选择
星标
,干货第一时间送达
作者:Yikun Ma | 编辑:计算机视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入
3D视觉知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门视频课程(星球成员免费学习)
、
最新顶会论文
、
计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
大家好,计算机视觉工坊今天给大家分享一种名为FastScene的文本驱动的快速3D室内场景生成框架。如果您有相关工作需要分享,请联系cv3d008
0. 读者个人理解
这篇论文提出了一种名为FastScene的文本驱动的快速3D室内场景生成框架。该方法首先利用预训练的Diffusion360模型根据文本提示生成全景图,并估计其深度信息。接着,提出了一种名为PNVI的渐进式新视角合成策略,以生成高质量的新视角全景图。随后,利用多视角投影(MVP)将全景图转换成透视视角图,并利用3D高斯溅射(3DGS)进行场景重建。实验证明,FastScene在生成速度和质量方面优于其他方法,且只需文本提示即可在15分钟内生成完整的3D场景。该方法提供了一种用户友好的场景生成范式,具有广泛的应用前景。
1. 论文信息
标题:
FastScene: Text-Driven Fast 3D Indoor Scene Generation via Panoramic Gaussian Splatting
作者:Yikun Ma等人
单位:中山大学
链接:
https://arxiv.org/abs/2405.05768
2. 方法概述
FastScene
FastScene框架主要包含以下几个阶段:
-
全景图生成和深度估计
:使用Diffusion360模型根据文本提示生成全景图,然后利用EGformer模型估计全景图的深度。
-
粗略视点合成和新颖视点逐步修复
:利用Coarse View Synthesis (CVS)生成带孔的新全景图,再通过Progressive Novel View Inpainting (PNVI)逐步修复孔洞,获得清晰的新全景图。
-
多视角投影和3D高斯溅射
:利用Multi-View Projection (MVP)将全景图投影为多个透视视图,然后使用3D Gaussian Splatting (3DGS)从多视角视图重建3D场景。
FastScene框架的关键创新点包括使用全景图获取全局信息、通过CVS和PNVI生成高质量新视图、以及利用MVP将全景图转换为3DGS可处理的透视视图,实现了快速且一致的3D场景生成。
3.实验
-
实现细节
:介绍了在PyTorch框架下实现方法,使用预训练的Diffusion360和EGformer进行全景生成和深度估计,在合成数据集上对AOT-GAN进行再训练用于修复。评估指标采用无监督的CLIP Score、NIQE和BRISQUE。在单个NVIDIA RTX A6000 GPU上,生成一个完整的场景大约需要15分钟。
-
全景修复数据集
:介绍了合成的全景修复数据集,包含84k张视角RGB图像和1344k个修复mask。这些数据用于在合成数据集上对AOT-GAN进行再训练。
-
与其他方法的比较
:通过与Text2Room、Set-the-Scene和SceneScape等方法的比较,展示了本文方法的生成速度和渲染质量优势。
-
扩展实验
:在Matterport3D和Replica360等全景数据集上进行了扩展实验,验证了本文方法的泛化能力。并与基于NeRF的方法进行比较,展示了本文方法的渲染质量优势。
-
Ablation Study
:通过Ablation Study验证了本文修复模式的有效性。
4.总结
本文介绍了一种名为FastScene的快速文本驱动的室内3D场景生成框架。其主要创新点包括:
-
-
提出了Coarse View Synthesis (CVS)和Progressive Novel View Inpainting (PNVI)策略,用于生成高质量的新全景图。
-
引入Multi-View Projection (MVP)模块,将全景图转换为透视视图,以适应3D Gaussian Splatting (3DGS)的输入需求。
-
实验结果显示,FastScene在生成速度和质量方面都优于其他方法,仅需15分钟即可生成高质量且一致的3D场景,为用户提供了友好的场景生成范式。
本文仅做学术分享,如有侵权,请联系删文。
计算机视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉学习知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉课程官网:
www.3dcver.com