0. 论文信息
标题:SliceOcc: Indoor 3D Semantic Occupancy Prediction with Vertical Slice Representation
作者:Jianing Li, Ming Lu, Hao Wang, Chenyang Gu, Wenzhao Zheng, Li Du, Shanghang Zhang
机构:Nanjing University、Peking University、University of California
原文链接:https://arxiv.org/abs/2501.16684
代码链接:https://github.com/NorthSummer/SliceOcc
1. 导读
三维语义占据预测是视觉感知中的一项关键任务,因为它需要同时理解场景几何和语义。它在理解3D场景中起着至关重要的作用,并在各种应用中具有巨大的潜力,如机器人视觉感知和自动驾驶。许多现有的作品利用基于平面的表示,如鸟瞰图(BEV)和三透视图(TPV)。这些表示旨在简化3D场景的复杂性,同时保留基本的对象信息,从而促进高效的场景表示。然而,在具有普遍遮挡的密集室内环境中,直接应用这些基于平面的方法通常会导致难以捕捉全局语义占用,最终降低模型性能。在本文中,我们提出了一种新的垂直切片表示法,它沿垂直轴划分场景,并将空间点特征投影到最近的一对平行平面上。为了利用这些切片特征,我们提出了SliceOcc,一种专门为室内3D语义占用预测定制的基于RGB相机的模型。SliceOcc利用成对的切片查询和交叉注意机制从输入图像中提取平面特征。这些局部平面特征然后被融合以形成全局场景表示,其被用于室内占用预测。在EmbodiedScan数据集上的实验结果表明,SliceOcc在81个室内类别上实现了15.45%的mIoU,在基于RGB相机的室内3D语义占用预测模型中创下了新的最高性能。
2. 效果展示
给定一组来自室内场景的多视图图像,SliceOcc垂直切片场景以生成切片特征对,然后进行插值以形成体素特征,用于3D语义占位预测。
EmbodiedScan多视图占用预测基准上的定性表现。
3. 主要贡献
一个为室内场景设计的三维我们介绍了SliceOcc,语义占用预测模型,该模型以多视图图像为输入。
我们提出了一种针对室内环境的垂直切片场景表示方法。通过利用注意力机制,我们促进了平面和图像之间以及相邻平面之间的有效信息交互,从而提高了模型在复杂室内环境中的性能。
推荐课程:
为何BEV和Occupancy撑起了自动驾驶的半边天?
我们在Embod-Scan数据集上进行了全面的实验,证明我们的方法在81个物体类别上实现了15.45%的mloU。这种性能在基于相机的模型中达到了最先进的水平,可与领先的基于深度的模型的结果相媲美。
4. 方法
sliceocc的总体架构如图2所示.我们使用图像骨干作为编码器,从多视图图像中提取图像特征F。随后,我们使用图像特征中的3D锚点进行网格采样,并添加可学习的深度嵌入,以初始化占用解码器的切片查询。在占用解码器中,我们引入两个注意力块:平面交叉注意力块(PCA)和切片空间交叉注意力块(SSCA),它们堆叠在一起形成切片占用层。经过几个切片占用层后,切片查询得到细化,并与图像特征和相邻平面建立连接。
5. 实验结果
6. 总结
本文介绍了sliceOcc,这是一种创新的基于平面的模型,专门用于室内环境的3D语义占位预测。通过利用垂直切片表示和利用交叉注意力机制,slice0cc有效地捕捉了室内场景的复杂细节,特别是解决了密集遮挡带来的挑战。这种能力可能有益于机器人视觉系统,使其能够进行更准确的感知和理解。在EmbodiedScan数据集上进行的广泛实验验证了我们的方法的有效性,SliceOcc在81个对象类别中实现了15.45%的mloU。这些结果突显了该模型的能力,它优于现有的基于RGB相机的方法,并达到了领先的基于深度的方法的性能,表明它作为推进室内3D场景理解的有用工具具有潜力。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、
3D视觉学习路线总结