0. 这篇文章干了啥?
多视图3D目标检测是计算机视觉中最基本的任务之一,对于许多实际应用(如自动驾驶)至关重要,近年来在这一领域的研究更加深入并取得了巨大成功。
现有的多视图3D目标检测方法主要可以分为两类:基于密集鸟瞰图(BEV)的方法和基于稀疏查询的方法。前者从图像中提取密集的BEV特征,然后与对象查询进行交互以完成检测;而后者则直接利用稀疏对象查询与图像特征进行交互,跳过了密集的BEV特征提取。由于基于稀疏查询的方法主要获取3D对象的特征,而非整个大规模场景的特征,因此它们能更好地利用稀疏性,极大地降低了计算和内存资源的需求。然而,这种设计对图像特征的质量提出了更高的要求,因为基于稀疏查询的方法无法在BEV空间中对特征进行细化。因此,使用具有更好能力的图像主干网络会更有利。
近年来,由于Vision Transformers(ViTs)具有高性能、可扩展性和与多模态基础模型集成的灵活性,它们在视觉任务中占据了主导地位。为了3D检测的性能和灵活性,许多基于稀疏查询的多视图3D检测器都采用了先进的预训练ViTs进行训练。ViTs的使用已成为越来越普遍的趋势。如今,配备强大ViTs的基于稀疏查询的多视图3D检测器已取得了最先进的性能,并几乎主导了排行榜。
然而,尽管基于稀疏查询的方法通过主要集中在3D解码器中的前景对象来提高效率,但通过实验我们发现,推理速度的主要瓶颈并非3D解码器,而是ViT主干网络。其中一个原因是现有的基于稀疏查询的方法未对ViTs进行调整,将前景3D对象和背景事物同等对待。尽管这样做简化了操作,但我们认为这种对ViT主干网络的简单使用并不符合其设计原则:对于3D目标检测来说,前景候选对象比背景更重要,我们无需对背景事物进行详细建模。这种疏忽带来了不必要的负担,促使我们“修剪”ViT主干网络以实现更好的效率。
一个简单的方法是通过对多视图3D检测器的ViT主干网络进行令牌压缩来加速。通过假设只有少量的显著前景令牌,并且只有这些令牌需要细粒度的计算,令牌压缩方法可以在前景和背景令牌之间重新分配计算资源。这可以抑制不必要的计算,并显著降低计算负担。然而,现有的令牌压缩方法最初是为2D视觉任务设计的,并在没有3D感知特征或先验的情况下进行令牌压缩。缺乏3D感知能力在面对具有复杂3D运动变换的对象时会导致次优的令牌压缩,从而严重影响其应用于多视图3D检测器时的性能。
为了在使用ViTs的同时保持高性能来加速多视图3D检测器,本文提出了一种简单而有效的方法,称为TokenCompression 3D(ToC3D)。关键见解是:来自历史预测的对象查询,其中包含3D运动信息,可以作为高质量的前景先验。通过利用这些对象查询,我们可以实现3D感知的令牌压缩和面向前景的计算资源分配。这一见解使我们能够进一步将基于稀疏查询的方法的哲学从3D解码器扩展到整个流程,从而实现更高效的多视图3D目标检测。
具体来说,ToC3D主要包括两个设计:运动查询引导的令牌选择策略(MQTS)和动态路由器。MQTS以图像令牌和历史对象查询为输入,对对象查询的运动信息进行建模,并通过注意力机制计算每个图像令牌的重要性分数。在投影的真实对象的监督下,它学会了将图像令牌分为显著部分和冗余部分。然后,我们将它们传递给动态路由器进行高效的特征提取,其核心是为显著的前景候选对象分配更多的计算资源,并去除不必要的消耗以加速处理。通过将这两个模块与ViT集成,ToC3D进一步提高了基于稀疏查询的多视图3D检测器的效率,并保持了其令人印象深刻的性能。
我们在nuScenes数据集上评估了我们的方法。广泛的实验证明了我们的方法的有效性,如图1(b)所示。具体来说,与StreamPETR基线相比,我们的方法几乎可以在保持性能的同时实现高达30%的推理加速,并进一步将基线加速到与其他基于ResNet的多视图3D检测器[31]相同的水平,同时保持性能优势。在扩展ViT和输入图像分辨率后,准确性和效率之间的权衡改进是一致的。此外,我们的方法也可以应用于其他基线。
下面一起来阅读一下这项工作~
1. 论文信息
标题:https://github.com/DYZhang09/ToC3D
作者:Dingyuan Zhang, Dingkang Liang, Zichang Tan, Xiaoqing Ye, Cheng Zhang, Jingdong Wang, Xiang Bai
机构:华中科技大学、百度
原文链接:https://arxiv.org/abs/2409.00633
代码链接:https://github.com/DYZhang09/ToC3D
2. 摘要
推理速度慢是将多视图3D检测器部署到自动驾驶等高实时要求任务的最关键问题之一。尽管许多基于稀疏查询的方法已经试图提高3D检测器的效率,但是它们忽略了考虑主干,尤其是当使用视觉变压器(ViT)来获得更好的性能时。为了解决这个问题,我们探索了基于token compression的多视点三维检测的有效ViT主干,并提出了一种简单而有效的TokenCompression3D (ToC3D)方法。通过利用历史对象查询作为高质量的前景先验,对其中的3D运动信息进行建模,并通过注意机制将它们与图像标记进行交互,ToC3D可以有效地确定图像标记的信息密度的大小并分割显著的前景标记。通过引入动态路由器设计,ToC3D可以在压缩信息损失的同时将更多计算资源加权到重要的前景令牌,从而实现更高效的基于ViT的多视图3D检测器。在大规模nuScenes数据集上的实验结果表明,我们的方法几乎可以保持最近SOTA的性能,推理加速比高达30%,并且在提高ViT和输入分辨率后,这些改进是一致的。
3. 效果展示
4. 主要贡献
综上所述,我们的方法的主要贡献有两方面:1)我们指出,对ViTs的简单使用带来了不必要的计算负担,并严重阻碍了基于稀疏查询的多视图3D检测器的推理速度。2)我们提出了一种简单而高效的方法ToC3D来解决这个问题,该方法利用具有运动信息的历史对象查询来实现3D运动感知的令牌压缩,并最终获得更快的ViTs。
5. 基本原理是啥?
基于稀疏查询的方法主要通过将稀疏的以对象为中心的查询建模为前景代理,而不是整个3D场景,来提高3D检测器的效率。然而,我们认为,对于现有的基于稀疏查询的方法,在主干网络中同等对待前景和背景的情况下,仍有很大的效率提升空间。当使用ViT[4,14]实现非凡性能时,主干网络成为推理速度的瓶颈。
推荐课程:
Open3D:点云处理入门与实战系列教程
。
为了解决上述问题,我们提出利用令牌压缩来扩展基于稀疏查询方法的设计理念,将其应用于ViT主干网络,命名为TokenCompression3D(ToC3D)。如图2(a)所示,ToC3D主要包括两个设计:运动查询引导的令牌选择策略(MQTS)和动态路由器。每个块中的令牌压缩过程如下:1) 首先,MQTS将图像令牌和历史对象查询作为输入,并通过图像令牌和历史查询之间的注意力计算每个图像令牌的重要性得分,从而将图像令牌分为显著令牌和冗余令牌。2) 然后,使用动态路由器从不同组的令牌中高效地提取特征。显著令牌被传递到常规路径,该路径由多个注意力块组成。冗余令牌则通过带有恒等层的自由路径来节省计算成本。为了在注意力块中保持显著令牌和冗余令牌之间的交互,我们将冗余令牌合并为一个桥接令牌,并将其附加在显著令牌之前,然后送入常规路径。3) 最后,在获得显著令牌和冗余令牌的特征后,我们重新排列这些令牌以符合典型3D对象检测器的兼容性。
通过堆叠启用令牌压缩的块,计算资源被动态且更密集地分配给前景候选框,从而消除了不必要的消耗并显著加速了推理过程。最终,我们有效地修剪了ViT主干网络,并开发了一个更高效的基于稀疏查询的多视图3D检测器,配备了3D稀疏解码器。
6. 实验结果
7. 总结 & 未来工作
在本文中,我们指出,简单地使用ViT会带来不必要的计算负担,并严重阻碍现有基于稀疏查询的多视图3D检测器的速度。为了获得更高效的稀疏多视图3D检测器,我们提出了一种简单而有效的方法,称为ToC3D。ToC3D配备了MQTS和动态路由器,利用历史对象查询作为高质量的前景先验,在其中建模3D运动信息,并对重要的前景令牌分配更多计算资源,同时压缩信息损失。通过这样做,我们将基于稀疏查询方法的设计理念从3D解码器扩展到整个流程。在大规模nuScenes数据集上的实验表明,我们的方法可以在轻微性能损失的情况下提升推理速度,并且使用历史对象查询可以带来更好的结果。我们希望本文能够激发对高效多视图3D检测器的研究,并作为一个强大的基线。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球