在鸟类视角(BEV)的自主驾驶半监督3D目标检测(SSOD)中,应用伪标签技术已被发现具有优势,特别是在标注数据有限的情况下。文献中,指数移动平均(EMA)被用于学生网络调整教师网络权重。
然而,这种方法会导致教师网络发生灾难性遗忘。本研究通过引入反射型教师(Reflective Teacher)的概念解决了这一问题:学生网络通过同时利用有标签数据和伪标签数据进行训练,并通过正则化逐步将知识传递给教师网络,从而确保保留之前的知识。
此外,作者提出了几何感知BEV融合(GA-BEV Fusion),以实现多模态BEV特征的有效对齐,从而减少不同模态(如相机和激光雷达)之间的差异。这有助于可靠地将嵌入在激光雷达点中的精确几何信息与空间先验相结合,以便从相机图像中提取语义信息。
在nuScenes和Waymo数据集上的实验表明:
1)在全监督和半监督设置中均优于现有最佳方法;
2)反射型教师仅需nuScenes数据集的25%和Waymo数据集的22%有标签数据即可达到与使用完整有标签数据的其他全监督方法相当的效果。
1. Introduction
视觉感知对于自动驾驶和机器人应用至关重要,因为场景理解直接影响到路径规划和控制等任务[1, 2]。鸟瞰图(BEV)表示法能够清晰地展示场景目标,使其非常适合利用激光雷达和相机等传感器的自动驾驶任务[3, 4]。激光雷达提供了精准但稀疏的三维点云数据,而相机则提供了密集的特征信息但缺乏深度信息。多模态融合通过整合各种传感器的优势来提高在实际应用中的准确性和鲁棒性[5-7]。BEV将多种传感器互补的信息整合到统一的三维空间中,但现有方法[3, 8]经常导致特征对齐问题[9, 10],性能也不尽人意。通常,BEV架构采用多视角图像编码器和视图转换模块[11],将视角图像特征转换为BEV特征。此外,自动驾驶方法依赖大规模 Token 数据集[12, 13],获取这些数据成本高昂。半监督学习[14]可以在此有效地用于使用少量 Token 数据进行训练,并生成与教师网络相似质量的伪标签。在这种训练设置中,积极学习的教师-学生方案[15, 16]可以增强监督,但也存在灾难性遗忘的风险[17, 18],因为采用指数移动平均更新的教师网络部分地抹去了先前学到的知识,从而导致伪标签生成不准确[19]。
为了解决这些问题,作者总结作者的贡献如下:
-
介绍了一种基于BEV的半监督方法Reflective Teacher,该方法用于多模态三维目标检测,是首个在学生网络权重更新过程中从学生网络到教师网络传输期间解决灾难性遗忘问题的方法。此外,该方法还将不确定性度量整合进了学生网络的训练中,确保教师生成可靠的伪标签。
-
为了无缝集成多传感器信息,利用如BEVFormer V2 [11]和VoxelNet [20]等标准模态特定特征提取器,作者提出了一种新的融合方法——GA-BEVFusion,旨在解决传感器特定特征对齐的挑战,从而提高模型的可靠性和鲁棒性。
-
作者的方法在完全监督和半监督设置中分别仅使用了25%和22%的标注数据,在nuScenes [12] 和Waymo数据集[13] 上实现了最先进的结果,相比完全监督的方法。
2. Related Work
2.1. Multimodal 3D object detection:
由于 LiDAR 特征和摄像头特征提供了互补信息,当前多传感器融合的趋势表明,合并这两种模态可以提高 3D 检测任务的整体性能。一些最近的方法 [4] 使用边缘 Aware 的深度信息来缓解“深度跳跃”问题,而另一些方法 [21] 则将 2D 检测器提升到 3D,并利用 2D 目标作为 3D 检测的 Query 。与这些方法不同,CVFNet [22] 逐步融合 LiDAR 和范围视图特征以减少特征不一致性。
此外,特征级融合方法中,使用 Transformer [23, 24] Query LiDAR 特征的边框 Proposal 并将其拼接到特征空间中,然后将其重新组合回特征空间。近年来,如 BEVFusion [3, 25] 方法通过注意力机制将图像和点云转换为统一的 bird's-eye-view (BEV) 空间。框架中纳入时间信息的做法,由 LIFT [26] 首次提出,旨在捕捉相邻帧中的运动线索 [27]。无需进行跨模态投影,[28] 在 Voxel 、BEV 和图像特征 Level 实现了多模态在目标层面的融合,而 [8] 则在局部实例和全局场景 Level 实现了这一点。
2.2. Semi-supervised object detection:
基于半监督学习的目标检测方法通过一致性正则化和伪标签等方法利用不断扩大的无标签数据池。以一致性为基础的方法,如SESS [29],通过对无标签数据应用多样化的增强操作来确保教师模型和学生模型预测结果之间的一致性。此外,该方法还采用了Tarvainen等人提出的指数移动平均(EMA)更新教师模型参数。基于伪标签的方法采用教师-学生架构,首先在有标签数据上训练教师模型,然后确保学生模型与伪标签一致,主要强调伪标签的质量。王等人
[31] 建议基于IoU学习动态筛选低置信度的伪标签,而Yin等人[32]提出了一种基于聚类的框投票模块来处理多个重叠的边界框。为了避免由于伪标签固有的噪声而导致质量较低的预测,Wang等人[33]量化了区域不确定性并将软标签融入训练中。此外,Nozarian等人[34]基于IoU值使用类别感知的目标,并 Query 教师模型以获取学生生成 Proposal 的可靠性评分。
现有的框架在迭代伪标签生成过程中遇到了诸如灾难性遗忘的可能性等问题,这会导致 previous knowledge 的丢失,并且教师模型生成的伪标签可能不够准确,从而负面影响学生网络的训练。相比之下,作者提出的设计通过使用正则化项来维持关键参数并保留之前获得的知识,同时结合不确定性度量,以指导教师网络提高伪标签生成的可靠性。
3. Proposed lApproach
3.1.Overall : architecture
图1中的架构将多视图相机图像和LiDAR数据整合到一个统一的BEV空间中。相机编码器基于InternImage [35],而LiDAR编码器基于VoxelNet [20]。受BEVFormer v2 [11]的启发,作者引入透视监督以帮助二维主干理解三维场景。来自多视图相机图像的功能经过透视三维头处理,并利用FCOS3D [36]架构生成透视视图中的 Proposal 。空间编码器使用带有变形注意力的交叉注意力[37],将多相机图像转换至BEV平面。另一方面,通过沿高度维度展平,LiDAR特征被投影至BEV空间。尽管处于相同的空间中,LiDAR和相机的BEV特征仍然在一定程度上存在空间错位。为此,GA-BEVFusion模块利用对齐损失
来补偿几何上的错位,从而得到稳健的BEV特征。
BEV头解码器借鉴了Deformable DETR的设计,在BEVFormer v2 [11]中使用,包含了一个带有变形注意力模块的交叉注意层,该模块使用三个输入:BEV特征图、 Query 特征和参考点。与BEVFormer v2使用投影后的边界框中心作为参考点不同,作者使用来自BEV RPN Proposal 的边界框中心,以实现更准确的检测。BEV头中的目标 Query 通常依赖于随机初始化的嵌入,这些嵌入会随着时间逐渐学习来定位目标物体。为了加快学习速度并提高准确性,作者通过后处理从视角头筛选区域 Proposal ,并将它们用作解码器的目标 Query 。视角损失
补充了BEV损失
。这两个检测Head与其各自的损失以及对齐损失一起进行联合训练,如式(1)所示,系数
和
用于平衡两者。
3.2.GA-BEVFusion
作者的模型利用空间和时间线索为当前时间戳
生成BEV特征。一种双线性映射策略使用变换矩阵
将先前的BEV特征
与当前的BEV特征
对齐。对齐后的特征沿通道维度与当前的BEV特征进行拼接。随后,可变形卷积生成增强的BEV特征
,从而提高对场景动态的理解。此外,LiDAR BEV
通过Sigmoid函数进行更新,并与自身进行元素-wise相乘。
GA-BEVFusion模块采用变形卷积层来增强BEV特征对几何变换的鲁棒性。这通过在感受野中动态选择非均匀位置并结合2D偏移量来实现。通过使用方差
进行缩放和均值
进行平移,对齐摄像头BEV特征的空间几何和位置信息与LiDAR BEV特征。因此,每个摄像头BEV特征
都被修改为具有与LiDAR相同均值和方差
。经归一化处理后,
的输出特征表示如下:
最后,
通过一系列可变形卷积生成融合BEV特征
。通过将
、
和
送入预训练的VGG网络,并计算对齐损失函数
来进行监督,如公式(3)所示。
其中,每个 ( f_i ) 表示 VGG-19 [38] 中的一个中间层,而 ( f ) 则表示最后一层。在作者的实现中,作者考虑了 VGG-19 网络中 relu1-1、relu2-1、relu3_1 和 relu4-1 这几层的特征,以计算两个分布之间的对齐偏差。
3.3. Reflective Teacher Learning
提出的设计架构在教师-学生框架下运作,如图2所示,使用多视角相机图像和LiDAR数据。其目标是通过反射性学习防止灾难性遗忘,确保先前获得的信息得以保留。在半监督学习中,模型利用了有标签和无标签的数据集,分别为
和
。其中,
包括类别标签
和边界框坐标
。可靠的初始化对于生成可靠的伪标签至关重要。初始阶段,教师模型使用监督数据集进行训练,如公式(1)所示,此时学生的参数与其教师相同。教师模型从无标签集中生成伪标签。然而,伪标签生成的准确性取决于学生模型的多样性。因此,在训练过程中,强增广
和弱增广
图像被用作学生的输入,而教师则受益于弱增广图像。
学生网络的损失函数
由监督损失
和无监督损失
组成,其中
定义为:
其中,
和
分别来自 RPN 和 ROI Head 的损失,具体参见式(5)。这里,
表示标注样本的总数,
和
分别是类别标签和边界框坐标。
无监督损失
如 (6) 式所示,其中
是未标注样本的总数,
和
分别是教师模型生成的伪标签
的类别标签和边界框坐标,而
和
与 (5) 式中的定义相同。