专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
51好读  ›  专栏  ›  3DCV

计算更少,精度更高:Voxel Mamba革新三维目标检测的无需分组模型

3DCV  · 公众号  ·  · 2024-06-22 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

编辑:3DCV

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 3D视觉最新模组 3DGS系列(视频+文档) 计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

导读

本文提出了一种名为Voxel Mamba的新型3D物体检测模型,该模型基于Voxel SSM(体素状态空间模型)并采用无分组策略。与传统的基于序列化方法的3D物体检测模型相比,Voxel Mamba能够更有效地保留体素之间的空间邻近关系,从而提高检测精度。为了增强空间邻近性,模型引入了双尺度SSM模块和隐式窗口划分策略。实验结果表明,Voxel Mamba在Waymo Open Dataset和nuScenes数据集上取得了优于现有方法的性能,并且具有更高的计算效率。

主要贡献

  • 提出Voxel Mamba,一种无需分组的三维目标检测骨干网络。
  • 提出双尺度状态空间模块(DSB)和隐式窗口划分(IWP)以增强Voxel Mamba的空间邻近度。
  • 在Waymo和nuScenes数据集上取得了优于现有方法的性能。

方法

Voxel Mamba 的整体架构如图2所示,主要包括以下部分:

  • 体素化 :将点云数据转换为稀疏体素,并进行特征编码。
  • HIL :利用希尔伯特曲线将体素序列化成一个序列,以保留空间邻近度。
  • 双尺度状态空间模块 :包含一个残差连接、一个前向 SSM 分支和一个后向 SSM 分支,通过处理高分辨率和低分辨率的体素序列,扩大了有效感受野。
  • 隐式窗口划分 :通过位置编码将体素的位置信息编码成嵌入,从而隐式地应用窗口划分,进一步增强空间邻近度。
  • BEV骨干网络 :将体素特征转换为鸟瞰图特征,并用于后续的三维目标检测任务。

HIL

HIL 利用希尔伯特曲线对体素进行排序,以保留空间邻近度。具体来说,将体素的坐标转换为希尔伯特曲线上的遍历位置,并根据遍历位置对体素进行排序。

双尺度状态空间模块

DSB 包含一个残差连接、一个前向 SSM 分支和一个后向 SSM 分支。前向分支处理原始体素序列,后向分支处理下采样的体素序列。通过这种方式,DSB 可以捕获更大范围的体素特征,并扩大有效感受野。

隐式窗口划分

IWP 通过位置编码将体素的位置信息编码成嵌入,从而隐式地应用窗口划分。具体来说,将体素在窗口内外的坐标信息编码成嵌入,并将其与体素特征进行拼接,从而增强空间邻近度。

Voxel Mamba骨干网络

Voxel Mamba骨干网络由多个DSB模块组成,并通过稀疏卷积和SpInverseConv进行下采样和上采样。在Waymo数据集上,使用Centerpoint-Pillar的BEV骨干网络和DSVT的检测头和损失函数;在nuScenes数据集上,只将DSVT的三维骨干网络替换为Voxel Mamba骨干网络。

实验结果

数据集和评估指标

实验使用了Waymo Open Dataset和nuScenes数据集,这两个数据集都包含了大规模的标注数据,并涵盖了自动驾驶场景中常见的物体类别。评估指标包括平均精度(mAP)和nuScenes检测分数(NDS)。

实现细节

Voxel Mamba使用OpenPCDet框架进行实现,并使用了SpConv和SpInverseConv进行下采样和上采样操作。实验结果表明,Voxel Mamba在Waymo和nuScenes数据集上均取得了优于现有方法的性能。

与最先进方法的比较

将Voxel Mamba与Waymo和nuScenes数据集上的其他最先进方法进行了比较。结果表明,Voxel Mamba在检测精度上超越了所有比较方法,并且在计算效率方面也具有显著优势。

消融研究

为了进一步验证Voxel Mamba各个组件的有效性,进行了消融研究。结果表明,希尔伯特曲线、DSB模块和IWP策略都对Voxel Mamba的性能提升做出了贡献。

Voxel Mamba的有效感受野

通过可视化的方式展示了Voxel Mamba、基于窗口划分的DSVT和基于分组的双向Mamba 的有效感受野。结果表明,Voxel Mamba具有更大的有效感受野,可以更好地捕捉局部区域的信息,并增强空间邻近度。

总结

本文提出了一种名为 Voxel Mamba 的新型三维目标检测骨干网络,该网络采用无需分组的策略,将整个场景的体素序列化成一个序列,并通过双尺度状态空间模块和隐式窗口划分技术,有效地保留了体素的空间邻近度。实验结果表明,Voxel Mamba 在 Waymo 和 nuScenes 数据集上取得了优于现有方法的性能,并且在计算效率方面也具有显著优势。Voxel Mamba 为三维目标检测任务提供了一种高效且有效的解决方案,具有广阔的应用前景。


本文仅做学术分享,如有侵权,请联系删文。

3DCV技术交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉: 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型: NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉: 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶: 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建: 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机: 四旋翼建模、无人机飞控等

除了这些,还有 求职 硬件选型 视觉产品落地 最新论文 3D视觉最新产品 3D视觉行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如3D点云+清华+小草莓) , 拉你入群。

▲长按扫码添加助理

3D视觉技术星球

3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐







请到「今天看啥」查看全文