专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
能源电力说  ·  两大电网大模型接入Deepseek ·  昨天  
51好读  ›  专栏  ›  3DCV

ICRA'25开源 | 北大新作SliceOcc:面向室内3D Occupancy预测

3DCV  · 公众号  ·  · 2025-02-02 09:17

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:SliceOcc: Indoor 3D Semantic Occupancy Prediction with Vertical Slice Representation

作者:Jianing Li, Ming Lu, Hao Wang, Chenyang Gu, Wenzhao Zheng, Li Du, Shanghang Zhang

机构:Nanjing University、Peking University、University of California

原文链接:https://arxiv.org/abs/2501.16684

代码链接:https://github.com/NorthSummer/SliceOcc

1. 导读

三维语义占据预测是视觉感知中的一项关键任务,因为它需要同时理解场景几何和语义。它在理解3D场景中起着至关重要的作用,并在各种应用中具有巨大的潜力,如机器人视觉感知和自动驾驶。许多现有的作品利用基于平面的表示,如鸟瞰图(BEV)和三透视图(TPV)。这些表示旨在简化3D场景的复杂性,同时保留基本的对象信息,从而促进高效的场景表示。然而,在具有普遍遮挡的密集室内环境中,直接应用这些基于平面的方法通常会导致难以捕捉全局语义占用,最终降低模型性能。在本文中,我们提出了一种新的垂直切片表示法,它沿垂直轴划分场景,并将空间点特征投影到最近的一对平行平面上。为了利用这些切片特征,我们提出了SliceOcc,一种专门为室内3D语义占用预测定制的基于RGB相机的模型。SliceOcc利用成对的切片查询和交叉注意机制从输入图像中提取平面特征。这些局部平面特征然后被融合以形成全局场景表示,其被用于室内占用预测。在EmbodiedScan数据集上的实验结果表明,SliceOcc在81个室内类别上实现了15.45%的mIoU,在基于RGB相机的室内3D语义占用预测模型中创下了新的最高性能。

2. 效果展示

给定一组来自室内场景的多视图图像,SliceOcc垂直切片场景以生成切片特征对,然后进行插值以形成体素特征,用于3D语义占位预测。

EmbodiedScan多视图占用预测基准上的定性表现。

3. 主要贡献

一个为室内场景设计的三维我们介绍了SliceOcc,语义占用预测模型,该模型以多视图图像为输入。

我们提出了一种针对室内环境的垂直切片场景表示方法。通过利用注意力机制,我们促进了平面和图像之间以及相邻平面之间的有效信息交互,从而提高了模型在复杂室内环境中的性能。 推荐课程: 为何BEV和Occupancy撑起了自动驾驶的半边天?

我们在Embod-Scan数据集上进行了全面的实验,证明我们的方法在81个物体类别上实现了15.45%的mloU。这种性能在基于相机的模型中达到了最先进的水平,可与领先的基于深度的模型的结果相媲美。

4. 方法

sliceocc的总体架构如图2所示.我们使用图像骨干作为编码器,从多视图图像中提取图像特征F。随后,我们使用图像特征中的3D锚点进行网格采样,并添加可学习的深度嵌入,以初始化占用解码器的切片查询。在占用解码器中,我们引入两个注意力块:平面交叉注意力块(PCA)和切片空间交叉注意力块(SSCA),它们堆叠在一起形成切片占用层。经过几个切片占用层后,切片查询得到细化,并与图像特征和相邻平面建立连接。

5. 实验结果

6. 总结

本文介绍了sliceOcc,这是一种创新的基于平面的模型,专门用于室内环境的3D语义占位预测。通过利用垂直切片表示和利用交叉注意力机制,slice0cc有效地捕捉了室内场景的复杂细节,特别是解决了密集遮挡带来的挑战。这种能力可能有益于机器人视觉系统,使其能够进行更准确的感知和理解。在EmbodiedScan数据集上进行的广泛实验验证了我们的方法的有效性,SliceOcc在81个对象类别中实现了15.45%的mloU。这些结果突显了该模型的能力,它优于现有的基于RGB相机的方法,并达到了领先的基于深度的方法的性能,表明它作为推进室内3D场景理解的有用工具具有潜力。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结







请到「今天看啥」查看全文