专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
鸡西新闻网  ·  【夜读】谢谢你爱我! ·  8 小时前  
广东公共DV现场  ·  有游客失联!知名景区通报 ·  9 小时前  
广东公共DV现场  ·  视频曝光!男子在广州街头“翘头”飙车,时隔两 ... ·  9 小时前  
广东台今日关注  ·  深圳放大招:可免费住15天 ·  13 小时前  
51好读  ›  专栏  ›  3DCV

AAAI'25开源 | mAP暴涨22.8%!中科大新作PromptDet:又快又好的3D目标检测!

3DCV  · 公众号  ·  · 2024-12-28 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:PromptDet: A Lightweight 3D Object Detection Framework with LiDAR Prompts

作者:Kun Guo, Qiang Ling

机构:University of Science and Technology of China

原文链接:https://arxiv.org/abs/2412.12460

代码链接:https://github.com/lihuashengmax/PromptDet

1. 导读

多摄像机三维目标检测旨在利用多台摄像机对三维空间中的目标进行检测和定位,由于其成本效益的权衡,已经引起了越来越多的关注。然而,这些方法经常与由相机在测距中的自然弱点所引起的缺乏精确深度估计相斗争。最近,用于3D对象检测的多模态融合和知识提取方法被提出来解决这个问题,这些方法在训练阶段是耗时的并且对存储成本不友好。鉴于此,我们提出了PromptDet,这是一个轻量级但有效的3D对象检测框架,其灵感来自于2D基金会模型中即时学习的成功。我们提出的框架PromptDet包括两个组成部分:一个通用的基于相机的检测模块,如BEVDet和BEVDepth等模型,以及一个激光雷达辅助的提示器。激光雷达辅助提示器利用激光雷达点作为补充信号,并增加了一组最小的附加可训练参数。值得注意的是,由于我们的提示式设计,我们的框架是灵活的,这不仅可以用作轻量级多模态融合方法,还可以用作推理阶段的3D对象检测的仅相机方法。在nuScenes上的大量实验验证了该方法的有效性。作为一种多模态检测器,PromptDet与仅使用摄像机的基线相比,以不到2%的额外参数将mAP和NDS最多提高了22.8%和21.1%。在没有激光雷达点的情况下,PromptDet仍然实现了最多2.4% mAP和4.0% NDS的改进,而对相机检测推断时间几乎没有影响。

2. 引言

三维物体检测是自动驾驶领域的基石,近年来取得了显著进展。目前大多数基于相机的三维物体检测器旨在通过分析颜色、纹理等视觉线索来推断物体的空间布局。基于相机的检测器部署成本低,且在不同硬件设备上的可扩展性强,因此在学术界和工业界都备受青睐。诸如BEVDet和BEVFormer等杰出方法擅长将基于图像透视的特征转换为鸟瞰图,为以相机为中心的三维检测任务展现了巨大潜力。然而,与激光雷达点云不同,图像的固有局限在于缺乏精确的深度数据和三维感知能力,这对进一步提升仅相机的三维物体检测方法的性能构成了挑战。

为解决仅相机的三维物体检测方法的局限性,已提出几种多模态方法,以利用多模态数据(如激光雷达点和多视图图像)。激光雷达点提供的几何信息对于弥补基于图像数据的不足至关重要。这些多模态方法相较于单模态方法取得了更好的结果,证明了融合策略的有效性。然而,这些方法通常涉及复杂的网络架构,增加了模型参数数量和计算需求,从而在训练和推理阶段都产生了巨大成本。此外,在没有激光雷达数据的情况下,这些多模态检测器的性能会大幅下降,甚至可能落后于仅相机的检测器。一些方法致力于解决这一问题,但通常会引入冗余的模型架构或利用掩码模态数据增强,从而增加了训练时间或造成数据浪费。这凸显了需要更高效、更稳健的方法,即使在某些数据模态不可用的情况下也能保持高性能。

另一方面,几种方法通过应用知识蒸馏(KD)来增强仅相机的三维物体检测器。这些方法通常采用一个复杂且预训练好的多模态检测器作为“教师”模型。该模型包含了丰富的关于驾驶场景的几何和语义信息,然后利用这些信息来指导和加速仅相机的“学生”模型的学习过程。虽然这些基于KD的方法在基于相机的检测器性能上取得了显著提升,但整体训练过程仍然费力且耗时,且需要预训练好的多模态检测器。这强调了需要一种更高效的训练方案,能够有效地向仅相机的三维物体检测器传授必要知识,同时避免传统KD策略带来的过多开销。

最近,由于其在自然语言处理(NLP)和计算机视觉(CV)领域的有效性和可迁移性,提示学习受到了越来越多的关注。直观地看,提示学习的范式非常适合三维物体检测,它可以展现出多个优势,包括内存成本更低、适应多模态输入、保留基础模型的潜力等。鉴于此,我们提出了PromptDet,这是一种新颖的轻量级三维物体检测框架。与以往工作不同,PromptDet定义了一条轻量级流程,将多模态检测视为将激光雷达模态注入基于相机的检测模型中。PromptDet展现出了一些多模态方法和基于KD的方法无法实现的优势:(i)激光雷达点云的使用灵活。当激光雷达点可用时,PromptDet是一种轻量级的多模态检测器,与仅相机的基线模型相比,额外参数少于2%,但性能最多可提高22.8%的mAP(平均精度均值)和21.1%的NDS(归一化距离分数)。否则,PromptDet会退化为原始的基于相机的检测器,但仍能保持令人满意的性能。(ii)PromptDet可以通过单阶段训练方式进一步提升仅相机检测器的性能。我们在线将多模态信息注入基于相机的检测器中。通过跨模态知识注入,基于相机的检测器学习了更好的特征表示,性能最多提高了2.4%的mAP和4.0%的NDS。具体来说,PromptDet由仅相机的检测器和我们提出的即插即用的激光雷达辅助提示器组成,后者执行自适应层次聚合(AHA)和跨模态知识注入(CMKI)以获得完整模型。AHA首先在不同尺度上融合点云和图像的特征,以获得层次化的多模态表示。然后,AHA通过几个卷积层以自适应方式整合这些不同粒度的特征。在此设计的基础上,CMKI确保仅相机的特征从AHA输出中学习互补信息。为了保证仅相机和多模态特征的质量,两者都由具有相同网络架构的真实标签进行监督,我们称之为混合监督策略。在训练期间,与仅相机的基线模型相比,总共只有约1%的额外参数。

3. 效果展示

我们的PromptDet与之前检测框架的比较。a)多模态检测需要更复杂的神经网络架构,模型训练耗时且占用大量内存。(b)尽管知识蒸馏为仅相机检测带来了性能提升,但首先需要训练一个教师模型,整个过程既费时又费力。(c)我们的方法使用激光雷达模态作为灵活的提示,只需添加少量参数即可。PromptDet可以执行多模态检测和仅相机检测,其性能优于基线。

4. 主要贡献

我们总结本文工作的贡献如下:

• 我们提出了一种轻量级的三维物体检测框架,称为PromptDet。可以灵活地将点云的几何信息注入基于相机的检测器中。 推荐课程: 面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

• 我们提出了自适应层次聚合和跨模态知识注入模块,可以有效地将多模态信息传递给基于相机的检测器。

• 我们在多模态和仅相机设置下广泛验证了所提出的PromptDet,证明了该设计的有效性。

5. 方法

我们分别介绍了仅激光雷达和仅相机的三维物体检测器的主流检测范式,并简要介绍了Unidistill中使用的知识蒸馏。我们解释了PromptDet的架构,其包括一个仅相机的检测器和激光雷达辅助的提示器。最后,我们说明了本方法的优越性质

6. 实验结果

我们首先使用 BEVDepth 作为基础模型,将我们的方法PromptDet 与最先进的模型在nuScenes 验证集上进行比较。结果如表1所示。使用 ResNet-101作为图像主干,我们的方法PromptDet-C(仅使用图像)在 mAP 和 NDS 方面分别比基线提高了2.1%和3.4%。当有点云可用时,轻量级多模态检测器PromptDet-LC 优于 PointPillars 版本。在无需使用耗时的激光雷达主干的情况下BEVFusion的mAP和NDS分别提高了2.7%和3.7%。接下来,我们比较了在引入激光雷达辅助prompter前后的检测性能,以评估我们方法的一般化能力。

在nuScenes验证集上进行的实验总结在表2中。我们发现,当有点云可用时,性能显著提高,对于所有三个基线模型,mAP和NDS都得到了显著提高。最大的性能优势(即22.8%的mAP和21.1%的NDS)是通过在BEVDet中添加激光雷达辅助提示器实现的,与基础模型相比,只需少量额外的参数。即使只使用图像进行推理,PromptDet也能增强这些基于相机的模型。对于基础模型BEVDet,最大的改进是2.4%的mAP和4.0%的NDS。对于时间融合模型BEVDet4D,我们仍然看到1.8%的mAP和3.1%的NDS的增益。

7. 总结 & 未来工作

在这篇论文中,我们提出了一种轻量级的3D物体检测框架,名为PromptDet,它由一个相机检测器和激光雷达辅助的Prompter组成。PromptDet通过AHA进行激光雷达和相机的融合,如果同时有图像和激光雷达点,它是一个轻量级的多模态检测器。由于CMKl,PromptDet仍然优于仅以图像为输入的基线。AHA和CMKI构成了即插即用的激光雷达辅助Prompter,整个框架的训练非常简单只需少量的额外模型参数。在具有挑战性的 nuScenes基准上进行的广泛实验验证了我们的方法的有效性。我们相信 PromptDet 的范式与各种基于相机的检测器兼容,并且可以扩展到更多的多相机感知任务,例如占用预测、BEV 细分等。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文


推荐文章
鸡西新闻网  ·  【夜读】谢谢你爱我!
8 小时前
广东公共DV现场  ·  有游客失联!知名景区通报
9 小时前
广东台今日关注  ·  深圳放大招:可免费住15天
13 小时前
互联网er的早读课  ·  六个步骤细说电商banner图设计之色彩的奥秘
8 年前
玩转手机摄影  ·  有故事的照片,才更吸引人!
7 年前
济宁潮事儿  ·  请济宁家长过目,你还那么宠孩子吗?
7 年前