专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

AAAI'25开源 | 复旦 & 字节新作BloomScene：轻量级结构化3D GS

3D视觉工坊 · 公众号 · · 2025-01-24 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation

作者：Xiaolu Hou, Mingcheng Li, Dingkang Yang, Jiawei Chen, Ziyun Qian, Xiao Zhao, Yue Jiang, Jinjie Wei, Qingyao Xu, Lihua Zhang

机构：Fudan University、Ministry of Education、Jilin Provincial Key Laboratory of Intelligence Science and Engineering、Artificial Intelligence and Unmanned Systems Engineering Research Center of Jilin Province、ByteDance Inc

原文链接：https://arxiv.org/abs/2501.10462

代码链接：https://github.com/SparklingH/BloomScene

1. 导读

随着虚拟现实应用的广泛应用，三维场景生成已经成为一个新的具有挑战性的研究前沿。3D场景具有高度复杂的结构，需要确保输出的密集、连贯，并包含所有必要的结构。许多当前的3D场景生成方法依赖于预先训练的文本到图像扩散模型和单目深度估计器。然而，生成的场景占用大量的存储空间，并且通常缺乏有效的正则化方法，导致几何失真。为此，我们提出了BloomScene，一种用于跨模态场景生成的轻量级结构化3D高斯滑块，它可以从文本或图像输入创建多样且高质量的3D场景。具体来说，提出了一种跨模态渐进场景生成框架，利用增量点云重建和三维高斯片断来生成连贯场景。此外，我们提出了一种基于层次的深度先验正则化机制，该机制利用对深度精度和平滑性的多层次约束来增强生成场景的真实性和连续性。最终，我们提出了一种结构化上下文引导压缩机制，该机制利用结构化哈希网格来建模无组织锚属性的上下文，这显著消除了结构冗余并降低了存储开销。跨多个场景的全面实验表明，与多个基准相比，我们的框架具有显著的潜力和优势。

2. 效果展示

我们进行直观的定性分析。在图2和图3中，我们展示了新视角下我们方法和基准方法的渲染RGB图像。我们的观察如下:(i)Sce-neScape、WonderJourney和Invisible-stitch生成的场景内容相对完整，但在框内区域可以观察到明显的断裂和几何失真。(ii)Text2Room使用多边形网格表示场景但其网格融合阈值滤波方案导致拉伸区域的检测不完整，导致场景中出现失真和过度平滑的区域。(iii)LucidDreamer目前是最具视觉效果的渐进式场景牛成方法，但在盒装区域存在人工制品和几何失真。iv)相比之下，我们的方法保留了必要的场景结构，显著减少了人工制品和几何失真，并提供了高质量和逼真的渲染结果。

3. 主要贡献

为解决上述问题，我们提出了BloomScene，一种轻量级的结构化3D高斯溅射方法，用于高质量跨模态3D场景生成。BloomScene具有以下三大核心贡献：（i）我们提出了一种跨模态渐进式场景生成框架，通过渐进式点云重建和3D高斯溅射来生成3D场景。（ii）此外，我们还提出了一种基于分层深度先验的正则化机制，通过实施多级深度精度约束和平滑度约束来增强场景的真实感和连续性。（iii）我们提出了一种结构化上下文引导压缩机制，该机制利用结构化哈希网格对无序锚点属性的上下文进行建模，从而充分压缩模型存储空间。综合实验表明，我们框架生成的场景在保真度和几何一致性方面显著优于基线方法，证明了其在复杂3D场景生成中的巨大潜力和优势。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

4. 方法

BloomScene的总体框架。BloomScene利用所提出的跨模态渐进式场景生成（PSG）框架，根据文本提示逐步生成3D场景。此外，将基于分层深度先验的正则化（DPR）机制应用于3D高斯溅射（3DGS），以增强生成场景的真实感和连续性。最终，采用结构化上下文引导压缩（SCC）来挖掘3D高斯溅射中的结构相关性，并减少存储开销。

5. 实验结果

6. 总结 & 未来工作

在本文中，我们提出了BloomScene，一种用于跨模态场景生成的轻量级结构化3D高斯溅射方法。具体而言，我们提出了一种跨模态渐进式场景生成框架，用于逐步生成连贯的场景。此外，我们还提出了一种基于分层深度先验的正则化机制，该机制利用深度精度和平滑度的多级约束来增强生成场景的真实感和连续性。最后，我们提出了一种结构化上下文引导压缩机制，该机制利用结构化哈希网格对无序锚点属性的上下文进行建模，从而显著减少存储开销。多个场景下的综合定性和定量实验表明，我们提出的框架相较于多个基线方法具有显著优势。我们的框架为未来的虚拟现实应用开辟了更多可能性。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、