0. 论文信息
标题:MetaOcc: Surround-View 4D Radar and Camera Fusion Framework for 3D Occupancy Prediction with Dual Training Strategies
作者:Long Yang, Lianqing Zheng, Wenjin Ai, Minghao Liu, Sen Li, Qunshu Lin, Shengyu Yan, Jie Bai, Zhixiong Ma, Xichan Zhu
机构:Tongji University、2077AI Foundation、NIO、Zhejiang University、Chang’an University、Hangzhou City University
原文链接:https://arxiv.org/abs/2501.15384
代码链接:https://github.com/LucasYang567/MetaOcc
1. 导读
3D占用率预测对于自动驾驶感知至关重要。4D雷达和照相机的融合提供了一种潜在的解决方案,即以最小的成本对服务天气进行可靠的占用预测。如何实现有效的多模态特征融合并降低标注成本仍然是一个重大挑战。在这项工作中,我们提出了MetaOcc,一种新的多模态占用预测框架,融合了全景相机和4D雷达的综合环境感知。我们首先设计了一个高度自注意模块,用于从稀疏的雷达点有效地提取三维特征。然后,提出了一种局部-全局融合机制来自适应地捕获模态贡献,同时处理时空失准。采用时间对齐和融合模块来进一步聚集历史特征。此外,我们开发了一个半监督的训练过程,利用开集分割器和几何约束进行伪标签生成,实现了具有有限注释的鲁棒感知。在OmniHD-Scenes数据集上的大量实验表明,MetaOcc取得了最先进的性能,大大超过了以前的方法。值得注意的是,作为第一个基于半监督4D雷达和相机融合的占用预测方法,MetaOcc保持了92.5%的全监督性能,而只使用了50%的地面真实注释,为多模态3D占用预测建立了新的基准。
2. 效果展示
MetaOcc的概述。(a)利用环视4D雪达和摄像头融合进行稳健3D场景理解的占用预测框架(b)利用Grounded-SAM进行半监督学习策略,生成伪标签,显著降低注释成本,同时保持竞争力。
3. 主要贡献
我们的贡献可归纳如下:
·我们提出了MetaOcc,这是第一个高效地融合环绕视图4D雷达和摄像头进行占位预测的工作。实验表明,我们的方法在OmniHD-Scenes数据集上达到了最先进的性能。
推荐课程:
为何BEV和Occupancy撑起了自动驾驶的半边天?
我们使用RHS解决稀疏雷达点云提取问题,设计了MFM,该MFM集成了LAF(自适应控制模式贡献)和GCF(误对准跨模态特征融合):
我们首先开发了一种可转移的半监督学习策略利用开放集分割器进行伪标签生成,显著降低了标注成本,同时保持了有竞争力的性能。
4. 方法
我们提出MetaOcc,一个融合4D雷达和摄像头的环绕视图占用预测框架,如图2所示。通过特征提取器独立提取多模态空间特征。随后,提取的3D特征由MetaOcc融合模块(MFM)处理,该模块采用局部全局融合机制实现高效的跨模态集成。最后,通过时间对齐和融合(TAF)模块将历史特征融入,然后送入占用头。为了降低注释成本,同时保持性能,我们进一步开发了一种半监督训练策略,该策略有效地结合了基础知识和生成的伪标签。
考虑到开放集分割器在语义理解方面的进步,我们提出了一种半监督框架,用于生成高质量的占位符标签。如图6所示,我们的方法以多视图图像和激光雷达序列作为输入,通过文本提示指导生成语义占位符表示。
5. 实验结果
6. 总结
在这项工作中,我们提出了 MetaOcc,这是一种新颖的多模态距离预测框架,它有效地将环视摄像头和 4D 雷达与出色的注意力机械融合在一起。我们首先开发 RHS 从稀疏的 4D 雪达点中提取 3D 特征。然后,采用 LVF 和 GCF 来捕获模态贡献并解决潜在的时空错位。之后,我们介绍了 TAF 以整合历史特征。大量实验表明,Meta0cc在OmniHD-Scenes数据集上实现了卓越的语义和几何精度性能。此外我们采用开放集分段器模型的半监督训练策略显著降低了注释依赖性,同时保持了稳健的性能。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接