点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
编辑:3DCV
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入
3D视觉知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门视频课程(星球成员免费学习)
、
最新顶会论文
、
3D视觉最新模组
、
3DGS系列(视频+文档)
、
计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
导读
本文提出了一种名为Voxel Mamba的新型3D物体检测模型,该模型基于Voxel SSM(体素状态空间模型)并采用无分组策略。与传统的基于序列化方法的3D物体检测模型相比,Voxel Mamba能够更有效地保留体素之间的空间邻近关系,从而提高检测精度。为了增强空间邻近性,模型引入了双尺度SSM模块和隐式窗口划分策略。实验结果表明,Voxel Mamba在Waymo Open Dataset和nuScenes数据集上取得了优于现有方法的性能,并且具有更高的计算效率。
主要贡献
-
提出Voxel Mamba,一种无需分组的三维目标检测骨干网络。
-
提出双尺度状态空间模块(DSB)和隐式窗口划分(IWP)以增强Voxel Mamba的空间邻近度。
-
在Waymo和nuScenes数据集上取得了优于现有方法的性能。
方法
Voxel Mamba 的整体架构如图2所示,主要包括以下部分:
-
体素化
:将点云数据转换为稀疏体素,并进行特征编码。
-
HIL
:利用希尔伯特曲线将体素序列化成一个序列,以保留空间邻近度。
-
双尺度状态空间模块
:包含一个残差连接、一个前向 SSM 分支和一个后向 SSM 分支,通过处理高分辨率和低分辨率的体素序列,扩大了有效感受野。
-
隐式窗口划分
:通过位置编码将体素的位置信息编码成嵌入,从而隐式地应用窗口划分,进一步增强空间邻近度。
-
BEV骨干网络
:将体素特征转换为鸟瞰图特征,并用于后续的三维目标检测任务。
HIL
HIL 利用希尔伯特曲线对体素进行排序,以保留空间邻近度。具体来说,将体素的坐标转换为希尔伯特曲线上的遍历位置,并根据遍历位置对体素进行排序。
双尺度状态空间模块
DSB 包含一个残差连接、一个前向 SSM 分支和一个后向 SSM 分支。前向分支处理原始体素序列,后向分支处理下采样的体素序列。通过这种方式,DSB 可以捕获更大范围的体素特征,并扩大有效感受野。
隐式窗口划分
IWP 通过位置编码将体素的位置信息编码成嵌入,从而隐式地应用窗口划分。具体来说,将体素在窗口内外的坐标信息编码成嵌入,并将其与体素特征进行拼接,从而增强空间邻近度。
Voxel Mamba骨干网络
Voxel Mamba骨干网络由多个DSB模块组成,并通过稀疏卷积和SpInverseConv进行下采样和上采样。在Waymo数据集上,使用Centerpoint-Pillar的BEV骨干网络和DSVT的检测头和损失函数;在nuScenes数据集上,只将DSVT的三维骨干网络替换为Voxel Mamba骨干网络。
实验结果
数据集和评估指标
实验使用了Waymo Open Dataset和nuScenes数据集,这两个数据集都包含了大规模的标注数据,并涵盖了自动驾驶场景中常见的物体类别。评估指标包括平均精度(mAP)和nuScenes检测分数(NDS)。
实现细节
Voxel Mamba使用OpenPCDet框架进行实现,并使用了SpConv和SpInverseConv进行下采样和上采样操作。实验结果表明,Voxel Mamba在Waymo和nuScenes数据集上均取得了优于现有方法的性能。
与最先进方法的比较
将Voxel Mamba与Waymo和nuScenes数据集上的其他最先进方法进行了比较。结果表明,Voxel Mamba在检测精度上超越了所有比较方法,并且在计算效率方面也具有显著优势。
消融研究
为了进一步验证Voxel Mamba各个组件的有效性,进行了消融研究。结果表明,希尔伯特曲线、DSB模块和IWP策略都对Voxel Mamba的性能提升做出了贡献。
Voxel Mamba的有效感受野
通过可视化的方式展示了Voxel Mamba、基于窗口划分的DSVT和基于分组的双向Mamba 的有效感受野。结果表明,Voxel Mamba具有更大的有效感受野,可以更好地捕捉局部区域的信息,并增强空间邻近度。
总结
本文提出了一种名为 Voxel Mamba 的新型三维目标检测骨干网络,该网络采用无需分组的策略,将整个场景的体素序列化成一个序列,并通过双尺度状态空间模块和隐式窗口划分技术,有效地保留了体素的空间邻近度。实验结果表明,Voxel Mamba 在 Waymo 和 nuScenes 数据集上取得了优于现有方法的性能,并且在计算效率方面也具有显著优势。Voxel Mamba 为三维目标检测任务提供了一种高效且有效的解决方案,具有广阔的应用前景。
本文仅做学术分享,如有侵权,请联系删文。
3DCV技术交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉技术星球
3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐