专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

ICRA'25开源 | 北大新作SliceOcc：面向室内3D Occupancy预测

3DCV · 公众号 · · 2025-02-02 09:17

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：SliceOcc: Indoor 3D Semantic Occupancy Prediction with Vertical Slice Representation

作者：Jianing Li, Ming Lu, Hao Wang, Chenyang Gu, Wenzhao Zheng, Li Du, Shanghang Zhang

机构：Nanjing University、Peking University、University of California

原文链接：https://arxiv.org/abs/2501.16684

代码链接：https://github.com/NorthSummer/SliceOcc

1. 导读

三维语义占据预测是视觉感知中的一项关键任务，因为它需要同时理解场景几何和语义。它在理解3D场景中起着至关重要的作用，并在各种应用中具有巨大的潜力，如机器人视觉感知和自动驾驶。许多现有的作品利用基于平面的表示，如鸟瞰图(BEV)和三透视图(TPV)。这些表示旨在简化3D场景的复杂性，同时保留基本的对象信息，从而促进高效的场景表示。然而，在具有普遍遮挡的密集室内环境中，直接应用这些基于平面的方法通常会导致难以捕捉全局语义占用，最终降低模型性能。在本文中，我们提出了一种新的垂直切片表示法，它沿垂直轴划分场景，并将空间点特征投影到最近的一对平行平面上。为了利用这些切片特征，我们提出了SliceOcc，一种专门为室内3D语义占用预测定制的基于RGB相机的模型。SliceOcc利用成对的切片查询和交叉注意机制从输入图像中提取平面特征。这些局部平面特征然后被融合以形成全局场景表示，其被用于室内占用预测。在EmbodiedScan数据集上的实验结果表明，SliceOcc在81个室内类别上实现了15.45%的mIoU，在基于RGB相机的室内3D语义占用预测模型中创下了新的最高性能。

2. 效果展示

给定一组来自室内场景的多视图图像，SliceOcc垂直切片场景以生成切片特征对，然后进行插值以形成体素特征，用于3D语义占位预测。

EmbodiedScan多视图占用预测基准上的定性表现。

3. 主要贡献

一个为室内场景设计的三维我们介绍了SliceOcc，语义占用预测模型，该模型以多视图图像为输入。

我们提出了一种针对室内环境的垂直切片场景表示方法。通过利用注意力机制，我们促进了平面和图像之间以及相邻平面之间的有效信息交互，从而提高了模型在复杂室内环境中的性能。推荐课程：为何BEV和Occupancy撑起了自动驾驶的半边天?

我们在Embod-Scan数据集上进行了全面的实验，证明我们的方法在81个物体类别上实现了15.45%的mloU。这种性能在基于相机的模型中达到了最先进的水平，可与领先的基于深度的模型的结果相媲美。

4. 方法

sliceocc的总体架构如图2所示.我们使用图像骨干作为编码器，从多视图图像中提取图像特征F。随后，我们使用图像特征中的3D锚点进行网格采样，并添加可学习的深度嵌入，以初始化占用解码器的切片查询。在占用解码器中，我们引入两个注意力块:平面交叉注意力块(PCA)和切片空间交叉注意力块(SSCA)，它们堆叠在一起形成切片占用层。经过几个切片占用层后，切片查询得到细化，并与图像特征和相邻平面建立连接。

5. 实验结果

6. 总结

本文介绍了sliceOcc，这是一种创新的基于平面的模型，专门用于室内环境的3D语义占位预测。通过利用垂直切片表示和利用交叉注意力机制，slice0cc有效地捕捉了室内场景的复杂细节，特别是解决了密集遮挡带来的挑战。这种能力可能有益于机器人视觉系统，使其能够进行更准确的感知和理解。在EmbodiedScan数据集上进行的广泛实验验证了我们的方法的有效性，SliceOcc在81个对象类别中实现了15.45%的mloU。这些结果突显了该模型的能力，它优于现有的基于RGB相机的方法，并达到了领先的基于深度的方法的性能，表明它作为推进室内3D场景理解的有用工具具有潜力。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结