在自动驾驶场景中,将来自多种传感模态(例如摄像头和激光雷达)的数据进行集成是一种普遍的做法。最近在高效的点云Transformer中的进步强调了在稀疏格式中集成信息的有效性。在融合方面,由于图像块在像素空间中是密集的,具有模糊的深度,因此需要额外的设计考虑来实现有效融合。
在这篇论文中,作者对基于Transformer的稀疏摄像头激光雷达融合的设计选择进行了深入探讨。这一调查涵盖了图像到3D映射和激光雷达到2D映射策略,注意力邻域分组,单模态标记器,以及Transformer的微观结构。
通过整合作者通过调查发现的最有效的原则,作者引入了FlatFusion,这是一个精心设计的稀疏摄像头激光雷达融合框架。
值得注意的是,FlatFusion显著超过了最新的稀疏Transformer基方法,包括UniTR,CMT和SparseFusion,在PyTorch上实现了73.7 NDS在nuScenes验证集上的性能,同时保持了10.1 FPS的运行速度。
1 Introduction
自动驾驶的追求促使发展出复杂的3D目标检测系统,能够准确感知和解释环境[21;22;32]。这其中最重要的就是实现多模态感知输入[42]的集成,特别是摄像头和激光雷达数据的融合[22;23;20]。这些传感器之间的协同作用非常吸引人,因为摄像头提供了丰富的语义信息,而激光雷达则提供了精确的几何细节[22]。
尽管潜力巨大,但将摄像头和激光雷达数据进行融合面临着困难的挑战,主要是因为它们具有不同的特性。摄像头捕捉的是密集而深度模糊的2D图像,而激光雷达生成的3D点云虽然准确,但稀疏且语义信息较少[75]。这种差异需要创新的方法来整合它们的互补优势。
在稀疏Transformer领域的最近研究进展为作者提供了一条新的途径,以便以适应激光雷达数据稀疏性的方式,高效地整合数据,从而比SparsityConv[7]展示更好的效果和可扩展性。然而,摄像头的密集性质需要谨慎考虑,以便与稀疏的激光雷达表示无缝融合。一些开创性的工作提出了稀疏融合的通用框架,但并未探索每个组件的具体设计。为了填补这一空白,作者深入分析了通过稀疏Transformer进行相机和激光雷达数据有效融合的设计原则和架构选择。通过这种调查,作者揭示了具有促进稀疏相机和激光雷达融合效果的设计原则,包括轻量级图像backbone和激光雷达backbone,基于体的3D到2D融合,2D到3D融合的部分投影,3D到2D的第一次级,Fold Window Partition Algorithm,以及带3D PE的Prenorm Transformer结构。在这些见解的基础上,作者引入了
FlatFusion
,这是一种为稀疏相机和激光雷达融合精心设计的方法。与现有的最先进方法相比(例如UniTR[57], CMT[65]和SparseFusion[64]),FlatFusion在准确性和效率方面都有显著提升。值得注意的是,FlatFusion在nuScenes验证集上达到了73.7 NDS,同时保持PyTorch 10.1 FPS的处理速度。
作者对本工作的贡献可以总结如下:
-
分析
:作者对稀疏相机-激光雷达融合框架的关键组成部分进行了深入研究,并通过全面的实验和可视化确定了其局限性。
-
改进
:作者提出了针对已识别问题的特定、性能优化解决方案,从而提高了性能和效率。
-
性能
:作者提出的
FlatFusion
方法在准确性和速度方面都显著优于现有的稀疏融合方法,提供了该领域的 new standard.
2 Related Work
相关工作的开始。
LiDAR-based 3D Perception
图1:
nuScenes验证集性能对比
由于 its 能力,LiDAR 上升为确保自动驾驶系统可靠性的关键传感器。近年来,以 LiDAR 为中心的方法可以广义地分为两类型,根据编码形式,即卷积基础和 Transformer 基础。更具体地说,早期方法 [48; 75; 27] 直接处理点云数据,或者将其转换为固定大小的 Voxel 或柱,然后使用 3D CNN 进行特征提取。此外,一些方法使用了稀疏卷积技术进一步提高计算效率。另一方面,Transformer 在点云领域变得越来越流行。PCT [12] 首次在全局的点云上计算自注意力,但是它的计算复杂度随着点数呈平方增长,使其难以适应大规模点云。SST [11],DSVT [56] 和 FlatFormer [43] 将 BEV 空间划分为非重叠且大小相等的窗口。这些窗口然后受到像 SwinTransformer [41] 那样的位移的影响,以计算和交换窗口自我注意力。随后,PTv3 [62] 在多个任务中扩展了 ConCat 的邻组分组。
Visual-based 3D Perception
最近,基于相机的3D感知由于相机的低成本效用而获得了显著的兴趣[60; 44]。LSS [47]推动了将图像特征转换到3D空间的过程,通过预测深度图从图像中。随后,BEVDet [16]和BEVDepth [35]进一步发展了这一概念,增强了仅使用相机的BEV感知性能。PETR [40]通过将3D空间位置嵌入合并到图像特征中实现编码和解码,并利用 Transformer 直接。不同于这些2D到3D的转换,BEVFormer [36]使用了变形注意力[76]将BEV特征映射到图像中,并计算与图像特征的交叉注意力。最近,几种方法试图将这两种视图转换相结合,以实现更强大的BEV表示。此外,在仅使用相机的BEV感知中广泛采用了多种时间融合策略。然而,深度存在的歧义和遮挡等问题仍然是纯相机解决方案的挑战。
Multi-modal 3D Perception
結合激光掃描的準確位置信息和攝像頭的豐富語義信息無疑可以大大提高對準確的3D感知和可靠的自主駕駛系統的重要性[30; 25]。最初的多模態方法[18; 54; 55]主要是基於點的,即使用圖像的語義信息來增強點雲,以獲得更豐富的特性。基於BEV的融合方法[42; 38]首先編碼来自每個模態的BEV特性,然後將其連接。為了防止高度信息的損失,UVTR[33]採用體素級建模並利用Transformer解碼器在統一的空間中採樣特性。Transfusion[1]也基於Transformer,其解碼器在其他方法中得到了廣泛的使用。 DeepInteraction[67]提出是一種雙模態交互策略,通過交替實現跨注意力。對於最近的稀疏融合方法:CMT[65], SparseFusion[64],和ObjectFusion[3]。但是,它們過於依賴於單個分支的特徵質量,因此需要大型 Backbone (例如VoVNet,Swin-Tiny),導致效率降低。 UniTR[57]統籌地採用窗口關注來在不同表示空間中融合信息,但其投影過程非常不精確,因此性能退化。 GAFusion[31]利用激光掃描的指導來补偿攝像頭特性的深度分布。IS-Fusion[69] Jointly捕獲 Instance-和 Scene-級的上下文信息。
3 方法
General Framework & Experiments Setting
如图2所示,稀疏Transformer基于的摄像头-激光雷达融合框架包括每个模态的_backbone_,用于将输入进行分词,以及用于融合信息(2D图像平面和3D空间)的两种表示空间,这需要不同的_投影策略_,以及稀疏窗口自注意力块,这需要不同的_邻居分区策略_以及定制的_Transformer结构_.
在随后的章节中,所有实验都是在nuScenes上进行的,并且在验证集上报告了结果。作者在4090上测试了延迟,批处理量为1,并报告了与比较组件相关的延迟。请参阅第4节以获取详细信息。作者保证所有实验严格控制,只允许一个变量。在每列的最后选择和最佳结果是
标记的
。
Backbones
原始传感器数据,即图像和点云,在输入Transformer之前需要转换为token。考虑到融合模块的存在,
不一定需要使用过于复杂的backbone来实现性能与效率之间的最佳平衡
。对于图像backbone,如图1上部所示,作者比较了:(I)4个Transformer层(如同UniTR [57]),(II)ResNet18(一种广泛使用的轻量级编码器),和(III)VoVNet[28](由基于实例的 Query 方法(如CMT[65]和SparseFusion[64])要求的)。所有图像backbone都是在ImageNet上预训练的,而4个Transformer层是在nuImage [57]中进一步预训练的。对于LiDAR backbones,如图1下部所示,作者比较了:(I)VoxelNet75,(II)4个稀疏点云Transformer层[56,43],和(III)None(通过4个额外的融合层进行补偿)。
作者得出:
图3:
不同3D到2D融合策略的比较。Pillar LiDAR特征丢失了z轴信息,因此只能映射到有限的像素空间区域,而voxel的对应性能较差,导致性能退化。
-
图5中[57]中的浅层ViT因轻重网络要求的匹配与ViTs固有的沉重性质之间的不匹配而表现不佳。与ResNet18相比,VoVNet引入了显著的延迟,因此作者选择ResNet18,达到了良好的折衷。
-
稀疏点云Transformer优于稀疏卷积网络VoxelNet。省略LiDAR backbones会导致巨大的性能下降,强调了tokenization的重要性。
融合 & 投影
对2D图像特征和3D LiDAR特征的有效融合是作者框架的核心,然而像素空间与 Voxel 空间之间的不连续性导致这一问题。因此,常见做法是**将LiDAR特征投影到图像空间(3D到2D)或将图像特征投影到3D空间(2D到3D),并随后进行局部邻居融合,因为全局注意力在计算上是不允许的,且缺乏与局部相关的归纳偏见。在以下部分,作者研究这两种投影策略。
图4:
2D到3D投影策略。从上到下:图像,最近邻,部分投影。在深度更大的像素上的可视化强度较低。最近邻投影与部分投影相比在深度方面的准确性较差。在部分投影中丢失的像素大部分是背景,因此丢失的信息有限。
3D到2D
:将LiDAR特征投影到像素空间概念上很简单,但现有方法如UniTR [57]存在限制。由于它们在柱空间操作LiDAR特征,缺乏垂直(z轴)维度。因此,如图3a所示,图像特征的LiDAR邻居被限制在地面平面上,导致重要上下文信息的损失。为解决此问题,作者提出使用基于 Voxel 的LiDAR特征进行3D到2D融合,如图3b所示。Voxel 表示确保了LiDAR特征全面与图像对齐,提供了更全面的场景表示。为进行公平的比较,在 Voxel 表示引入额外的计算成本时,作者还对柱 Baseline 进行了四处加层实验,结果汇总在表2中。作者的研究结果表明,基于 Voxel 的LiDAR特征进行3D到2D融合相较于基于柱基的表示,在计算需求适度增加的同时,可获得显著的性能改进。值得注意的是,增强柱基表示的额外层并未获得性能提升,强化了作者基于 Voxel 的方法的效用。
2D到3D
:将图像特征投影到LiDAR空间受到像素中固有的深度歧义影响。因此,需要设计良好的投影策略。作者研究了三种方法:
(I)
最近邻
:根据像素空间的最小 Voxel 进行投影[71, 57]。虽然避免了任何可学习模块,但由于2D空间中附近的 Voxel 可能对应非常不同的深度,引入严重误差,如图4(中间)所示。