专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

北大新作OccGS：具有语义和几何感知的零样本3D Occupancy重建

3DCV · 公众号 · · 2025-02-11 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：OccGS: Zero-shot 3D Occupancy Reconstruction with Semantic and Geometric-Aware Gaussian Splatting

作者：Xiaoyu Zhou, Jingqi Wang, Yongtao Wang, Yufei Wei, Nan Dong, Ming-Hsuan Yang

机构：Peking University、Chongqing Changan Automobile Co、University of California

原文链接：https://arxiv.org/abs/2502.04981

1. 导读

在没有手动注释的情况下，从原始传感器数据中获得语义3D占用仍然是一项重要而具有挑战性的任务。虽然先前的工作已经将此作为感知预测问题来处理，但是我们将其公式化为具有几何和语义的场景感知3D占用重建。在这项工作中，我们提出了OccGS，一种新的三维占位重建框架，利用语义和几何感知高斯Splatting在一个零镜头的方式。利用从视觉语言模型中提取的语义和由激光雷达点引导的几何图形，OccGS从原始多传感器数据中构建语义和几何感知高斯模型。我们还开发了一种从高斯到三维体素的累积分割方法，用于从高斯分布重建占位。OccGS在占用预测方面优于自监督方法，实现了与完全监督方法相当的性能，并在零镜头语义3D占用估计方面实现了最先进的性能。

2. 效果展示

OccGS从多模态传感器数据中重建场景的语义3D占位，使用语义和几何感知高斯分形与视觉语言模型(VLMS)相结合无需任何人工注释。0ccGS能够实现:1)无标签训练，2)开放词汇语义占位估计，3)零样本跨数据集场景感知学习。

SemanticKITTI上的零点验证定性结果[1]0ccGS在零射程交叉数据集实验中取得了有希望的结果，实现了复杂几何和遥远精细对象的高质量语义占用重建。

3. 主要贡献

我们建议将场景占位估计任务制定为基于几何和语义表示的重建，展示了强大的开放词汇和零样本泛化能力。

我们设计了一种增强的语义和几何感知高斯表示，整合了VLMs的语义指导和多模态几何先验，同时通过提出的累积高斯到3D体素平铺技术以低成本获得高质量的占位。OccGS在3D占位重建中实现了准确性、效率和灵活性的平衡，超越了或匹配了现有自我监督和完全监督方法的性能。

4. 方法

给定多视图图像|，相应的多帧激光雷达扫描 Lt，以及任意语义文本提示 C，OccGS 无需任何人工注释即可重建场景的完整语义 3D 占空比。图2说明了整体框架。从语义和几何感知高斯体的构建开始，我们将稀疏激光雷达点与 VLMS 相结合，以提供语义和几何先验约束。在此过程中，动态对象在实例级别上进行聚类，以更有效地捕获动态区域的运动状态。然后，我们设计了高斯导引占空比(Occ)重建，以高效地获得场景的三维占空比值。推荐课程：基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研] 。

5. 实验结果

6. 总结

在这篇论文中，我们提出了一种新颖的框架:(OccGS)，它可以在无需任何人工标记符号的情况下实现零样本开放词汇语义占用的重建。为了促进场景理解，我们利用视觉语言模型和多模态几何先验来构建一个语义和几何感知表示，Oc-cGS在准确性和效率之间取得了平衡。我们的框架在零镜头语义占用估计方面取得了最先进的性能，并且与监督和自监督方法相比表现良好。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码