专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

AAAI'25开源 | Mamba仍是顶流！单目3D语义场景补全新SOTA！

3DCV · 公众号 · · 2025-01-16 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Skip Mamba Diffusion for Monocular 3D Semantic Scene Completion

作者：Li Liang, Naveed Akhtar, Jordan Vice, Xiangrui Kong, Ajmal Saeed Mian

机构：The University of Western Australia、The University of Melbourne

原文链接：https://arxiv.org/abs/2501.07260

代码链接：https://github.com/xrkong/skimba

1. 导读

3D 语义场景补全对于自主系统中的多个下游任务至关重要。它估计获取的场景数据中缺失的几何和语义信息。由于现实条件具有挑战性，此任务通常需要处理多模态数据的复杂模型才能实现可接受的性能。我们提出了一种独特的神经模型，利用状态空间和扩散生成建模的进步，通过单目图像输入实现卓越的 3D 语义场景完成性能。我们的技术在变分自动编码器的条件潜在空间中处理数据，其中使用创新的状态空间技术进行扩散建模。我们神经网络的一个关键组件是提出的 Skimba（Skip Mamba）降噪器，它擅长高效处理长序列数据。Skimba 扩散模型是我们 3D 场景完成网络不可或缺的一部分，它结合了三重 Mamba 结构、维度分解残差和沿三个方向的不同扩张。我们还采用了该网络的变体，用于我们方法的后续语义分割阶段。对标准 SemanticKITTI 和 SSCBench-KITTI360 数据集的广泛评估表明，我们的方法不仅大大优于其他单目技术，而且还能与立体方法媲美。

2. 效果展示

SemanticKITTI验证集的定性结果。从左侧开始的列表示SkimbaDif(我们的方法)、MonoScene、0ccFormer和VoxFormer-T(立体方法)的输入数据、地面真值和输出。

3. 方法

我们提出的网络结构示意图如图1所示。该方法的一个关键组件是Skip mamba（Skimba）去噪扩散网络。该网络是整体技术不可或缺的一部分，其架构同样被用于场景补全任务所需的3D语义分割中。整体方法采用了一个带有两个条件网络的变分自编码器（VAE）框架。这些网络为输入的体素数据和图像创建低维表示，从而在不影响性能的前提下降低了计算需求。这一理念受到了潜在扩散建模的启发。推荐课程：零基础入门ROS-SLAM小车仿真与实践[理论+仿真+实战] 。

据我们所知，我们的方法首次成功展示了潜在空间扩散在3D场景补全任务中的应用。我们的网络采用多尺度卷积块（MSCB）来从条件特征和噪声中提供足够的上下文信息。

Skimba去噪网络利用下采样、语义块（SB）、Skimba块、ConvRes块和上采样块来实现其目标。我们将在图2中提供相关插图的同时，分别讨论这些组件。

4. 实验结果

5. 总结

我们提出了一个带有 Skimba 去噪扩散子网络的 3D语义场景完成网络。我们的方法将变分自动编码器与两个条件网络相结合，为输入数据生成低维、感知等效的符号空间，从而在保持性能的同时有效减少计算需求。受 Amba 启发的 Skimba 网络通过使用各种跳跃三重膨胀来捕获数据中的直接和间接特征关系，该功能增强了网络表示复杂三维场景的空间和语义结构的能力。对SemanticKITTI和SSCBench-KITTI-360数据集的广泛评估表明，我们的方法优于现有的最先进方法，突显了其有效性和推进3D语义场景补全的潜力。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组