点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:计算机视觉工坊
添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「
3D视觉从入门到精通
」知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 这篇文章干了啥?
对于自动驾驶系统而言,感知车辆周围的3D环境至关重要。激光雷达和摄像头因其互补特性而被广泛应用于自动驾驶融合感知中。一些以对象为中心的方法精心设计了多模态融合感知模块,以增强3D对象检测的性能。然而,这些方法难以适应多任务要求,且在泛化到其他任务时缺乏灵活性,这些缺点限制了其实际应用。传统的单任务感知范式正逐渐转向多任务学习(MTL),如稀疏3D检测任务和密集鸟瞰图(BEV)地图分割任务。基于密集的鸟瞰图表示,提供了一种可行的解决方案,该方案因其对多任务感知的自然支持而受到广泛关注。然而,当前的多任务学习范式受到多任务负迁移问题的影响。
BEVFusion提出,使用共享BEV编码器的联合训练会导致多任务学习性能下降,随后通过在训练过程中分离BEV编码器来缓解多任务学习的负迁移问题。MetaBEV采用了自然语言处理(NLP)中的路由多任务混合专家技术,并将BEV特征分离以提高多任务学习的性能,但其多任务学习精度仍远低于单任务。强大的UniTR统一了图像和激光雷达编码器的骨干网络,但更重要的是,这些最先进的工作仍然采用了独立的预测头设计,如用于3D检测的Transformer头和用于地图分割的CNN头。然后,通过简单地将3D检测和BEV分割任务头组合来实现多任务学习。这些多任务方法的设计导致了计算成本的不必要增加和性能的下降,同时任务之间的互补特征也未得到利用。在本文中,我们旨在通过设计一个多任务互补学习解码器来扩展当前的多模态融合框架,以构建一个统一的多任务感知框架。
本文介绍了MaskBEV,一个统一的室外多任务3D感知框架。与以往的任务特定感知头不同,我们的MaskBEV首次在单个解码器头中实现了3D对象检测和BEV地图分割的同时感知。为实现这一目标,我们采用了先进的Mask2Former范式,利用BEV地图分割任务和3D对象检测任务的互补性,构建了一个统一的多任务解码器头。掩码注意力机制将注意力集中在以潜在查询为中心的局部特征上。我们利用BEV空间中多任务掩码的并集来指导基于查询的特征学习。为了最大化掩码对潜在感兴趣区域的覆盖,同时排除整个BEV空间,我们引入了一种空间调制策略,该策略充分考虑了检测的几何关系和分割的语义原理。此外,我们还提出了一个强大的场景级特征聚合模块,用于聚合多粒度上下文特征,以更好地服务于BEV地图分割任务。具体来说,该模块由两个BEV特征聚合块组成。多窗口窗口注意力(MWWA)在不同的注意力头上调整窗口大小,以聚合多粒度上下文特征。ASPP以卷积的方式从BEV特征图中实现场景级全局特征提取。性能提升证明了该模块的有效性。
推荐学习:
面向自动驾驶领域的BEV与Occupancy网络的全景解析与实战
基于查询的解码范式自然适合当前的3D对象检测,掩码解码器结构实现了BEV地图的分割,而查询对前景区域的关注则允许对查询进行更好的更新。
下面一起来阅读一下这项工作~
1. 论文信息
标题:MaskBEV: Towards A Unified Framework for BEV Detection and Map Segmentation
作者:Xiao Zhao, Xukun Zhang, Dingkang Yang, Mingyang Sun, Mingcheng Li, Shunli Wang, Lihua Zhang
机构:复旦大学
原文链接:https://arxiv.org/abs/2408.09122
2. 摘要
准确且鲁棒的多模态多任务感知对于现代自动驾驶系统至关重要。然而,目前的多模态感知研究遵循为特定感知任务设计的独立范式,导致任务间缺乏互补学习,并且由于联合训练导致多任务学习(MTL)的性能下降。在本文中,我们提出了MaskBEV,这是一种基于掩码注意力的多任务学习范式,它将3D目标检测与鸟瞰图(BEV)地图分割统一起来。MaskBEV引入了一个与任务无关的Transformer解码器来处理这些多样化的任务,使得多任务学习可以在统一的解码器中完成,而无需为特定任务头进行额外设计。为了充分利用BEV空间中的BEV地图分割和3D目标检测任务之间的互补信息,我们提出了空间调制和场景级上下文聚合策略。这些策略考虑了BEV分割和3D检测之间的固有依赖性,从而自然地提升了多任务学习的性能。在nuScenes数据集上进行的大量实验表明,与先前最先进的多任务学习方法相比,MaskBEV在3D目标检测方面实现了1.3个NDS的提升,在BEV地图分割方面实现了2.7个mIoU的提升,同时还展示了略微领先的推理速度。
3. 效果展示
4. 主要贡献
综上所述,我们的主要贡献如下:
• 我们首次提出了MaskBEV,这是一个统一的感知框架,用于3D对象检测和BEV地图分割任务。所提出的基于掩码注意力的多任务解码器可以实现高性能的联合训练。
• 我们提出了一种空间调制策略,以帮助获得多任务可靠掩码,以及一个新的场景级特征聚合模块,以捕获多粒度甚至场景级的BEV上下文特征。
• 我们的MaskBEV在nuScenes数据集上的多任务学习(3D对象检测和BEV地图分割)方面达到了最先进的性能。同时,还提供了多种多模态特征编码器网络和传感器鲁棒性分析,以对MaskBEV进行全面评估。
5. 基本原理是啥?
在本文中,我们引入了一种新的统一多任务学习解码器,以解决联合训练中3D目标检测和鸟瞰图(BEV)地图分割的性能下降问题。图2展示了MaskBEV的架构。给定多模态输入,我们使用多模态特征编码器将其编码为标记(tokens),然后通过BEV编码器将它们融合到BEV空间中。最后,使用一个基于先进Mask2Former的解码器来执行各种3D感知任务。我们的主要创新点集中在解码器模块上。该解码器将多任务感知结果转换为掩码注意力中的二进制掩码,从而使查询能够专注于整个BEV地图的局部区域。解码器将分割预测解码为基于Transformer的掩码分类,并将检测预测解码为基本分类和回归。场景级特征聚合融合了多尺度特征,以促进BEV地图分割任务。
6. 实验结果