输入聚合是当前最先进的激光雷达3D目标检测器所采用的简单技术,用于提高检测性能。然而,增加聚合的数量已知的收益递减,甚至会导致性能下降,这是由于物体对聚合帧的数量有不同的反应。
为了解决这个问题,作者提出了一种高效的自适应方法,作者称之为可变聚合检测(VADet)。
而不是使用固定帧数聚合整个场景,VADet 对每个物体进行聚合,帧数由物体的观察属性,如速度和点密度确定。因此,VADet 减少了固定聚合的固有权衡,且不针对特定架构。
为了证明其效益,作者将 VADet 应用于三个流行的单阶段检测器,并在 Waymo 数据集上实现了最先进的性能。
1 Introduction
LiDAR(光雷达)基于的方法在自动驾驶领域实现了最先进的3D目标检测性能。尽管目标检测器可以从单个LiDAR点云中产生准确的检测结果[3, 18],但它们已经证明可以从多个连续帧的聚合输入中受益。一种广泛采用的方法来合并多帧连续点云,作者称之为固定聚合,其中在自车运动校正后,将固定数量的帧 ConCat ,通常包括时间戳作为附加特征。这是一种简单而有效的方法,可以增加输入的空间和时间信息,而不修改架构[1]。
然而,人们观察到,在更多帧被使用时,固定聚合的有效性会降低,最终导致检测性能下降[2, 19]。以前的研究将这种降级归因于物体的运动。尽管在聚合后,静止物体的点云固有地对齐[7],产生更密集、更完整的几何(图1b),但动态物体的点云会因运动而错位和扭曲(图1c)。杨等人注意到这种错位使得多帧聚合无帮助,甚至对于快速移动的物体会降低性能。陈等人[2]认为这种效应由于不同动态物体具有不同的扭曲点云模式,因此又增加了一个额外的挑战。这引入了一个性能权衡,如图1a所示:检测不同速度的物体时,使用不同的帧数是最佳的。
为应对这一挑战,当前最先进的多帧检测器已经利用基于注意力的特征级聚合来更有效地利用过去帧的信息 [2, 14, 19]。然而,作者的实验表明,在采用特定的架构设计之前,通过修改输入可以获得相当大的性能提升,而这些修改会增加额外的复杂性和计算成本。
在这项工作中,作者因此提出了一种名为VADet(可变聚合检测)的简单且有效的方法,作为固定聚合的替代方案。VADet根据目标的属性设置聚合 Level 。由于VADet在输入 Level 运行,可以集成到现有架构中,在不进行重大修改或增加计算开销的情况下提高检测性能。此外,VADet的低延迟支持其在实时应用中的使用。
VADet的核心是一个将每个检测到的目标映射到聚合帧数的函数η。为了构建η,作者提出了一种称为随机聚合训练(RAT)的方法(见第3.1节),以有效地研究固定聚合对检测性能的影响,覆盖了广泛的配置范围。
作者使用RAT分析三种代表性的目标检测架构,发现除了图1所示的速度之外,目标点密度还表明了另一个重要的权衡(参见图4)。然后,作者根据训练数据构建了一个函数η,将目标的估计速度和点密度映射到聚合的帧数,这个过程详细地描述在3.2节中。
得益于基于
的每个目标聚合,VADet 可以在同一场景中实现不同速度和密度的物体良好性能。作者的结果(第5节)表明,对于给定的架构,VADet 始终超过固定聚合的性能,并且可以超越许多更复杂的 SOTA 方法。
2 Related Work
特征基础的对齐在3D目标检测中得到了探索。罗等人在早期工作中使用简单的 ConCat 来组合多个点云的特征,这取决于用于融合的特征层,在效率和准确性之间存在权衡。由于自运动,特征图的盲目 ConCat 不可避免地在特征 Level 引入了错位。相反,黄等人使用LSTM编码时间信息作为隐式特征,并通过使用自运动变换特征图来解决对齐问题。
最近,注意力机制在特征融合中广受欢迎,并取得了令人鼓舞的结果。尹等 [20] 提出了一种带有空间-时间注意力机制的 GRU 模块,用于更好地进行特征对齐。3D-MAN [19] 和 MPPNet [2] 都采用注意力机制将来自单一或少数帧区域 Proposal 网络生成的特征组合在一起,以产生更精确的检测结果。为了更好地利用丰富的多尺度特征,TransPillars [14] 提出了一种基于注意力的特征融合方法,在 Voxel Level 上进行,以保留实例和上下文信息。
尽管基于特征的多帧方法可以有效地利用更长的时序输入,但它们通常需要修改架构,并且由于特征转换和融合操作而产生额外的计算成本。另一方面,输入级聚合不需要修改架构,并且最近的工作已经广泛采用。Caesar等人[1]证明,在输入级直接将多个连续的 ego-motion-corrected 点云拼接起来,不仅可以提高检测性能,还可以利用速度回归头预测每个检测到的物体的速度。
作者将这种策略称为固定聚合,与作者的变量聚合相反。具体来说,在固定聚合中,每个时间戳的点云都会经过自注意修正,然后与当前帧的点云连接。更正式地,令
表示在时间戳
的
个点坐标,相应的自注意姿态
表示从自注意激光雷达坐标系到通用全局坐标系的变换。然后,在时间戳
的聚合
帧点云定义为:
表示 ConCat 操作。
变换考虑了自车在时间戳
和
之间的运动。除了点特征(空间坐标、强度和伸长)之外,还使用了一个独立的通道来编码相对时间戳。
3 Method
VADet 通过自适应地聚合不同类型目标的不同帧数来实现对固定聚合的性能权衡。为此,作者首先引入随机聚合训练(RAT),以使单个检测器能够处理各种输入帧计数范围。然后,作者描述了作者的可变聚合策略。
Random Aggregation Training
研究输入帧数对不同类型物体(如静止与动态)的影响,是作者方法的关键组成部分。现有研究往往通过评估分别训练的多个检测器,在不同的固定帧数下进行聚合,来展示聚合的性能权衡 [18, 7, 19]。这既耗计算资源,因此通常只针对少数配置进行评估。此外,作者发现,使用多个分别训练的模型来评估不同输入配置之间微小的性能差异,往往会导致高方差。
为了有效地探索帧数对检测性能的影响,作者提出了随机聚合训练(RAT),其中单个检测器使用具有随机变化的聚合帧数(每个场景)的输入进行训练。为了弥补输入的增加多样性,作者相应地增加了训练周期。作者发现,尽管模型的容量保持不变,但RAT使模型能够在不同固定配置的检测器上达到相当于或略好的性能。这得到了表1的验证。
RAT因此具有几个优点。在研究输入聚合效果方面,它显著降低了计算成本,因为不再需要为每个输入配置训练一个单独的检测器。这使作者能够比现有工作覆盖更广泛的帧数范围,并更精确地确定不同类型物体的权衡。此外,由于评估使用单个模型和不同的输入配置进行,作者发现RAT降低了训练的方差,为作者提供了更一致的结果。
在这项工作中,作者也使用RAT作为预训练策略。使用RAT训练的检测器可以作为作者提出的变量聚合策略的理想起点,这要归功于其处理多种输入配置的能力。
Variable Aggregation
为了应对不同类型物体之间的性能权衡,作者提出了一种针对每个物体的变量聚合方法,该方法根据物体的属性(如速度和点密度)动态地聚合每个检测到的物体。
在 VADet 中,作者首先对每个检测到的物体进行速度估计。这有两个目的:首先,它允许作者使用恒定速度运动模型,根据已检测到的物体的近似位置,在当前帧中分别聚合每个区域,使用不同的聚合策略;其次,它表示物体的运动状态,是确定聚合过程中使用的帧数的重要因素。为了估计物体的速度,作者遵循之前的方法 [1],并将表示速度矢量
和
分量的通道添加到回归任务中。
正式地,在时间戳τ时,作者考虑在当前帧的坐标系中,先前检测到的边界框
,其位置为
,尺寸为
,航向角为
,估计速度为
,以及来自
时刻点云内部边界框中的
个点。为了实现更好的性能,作者的策略是找到一个函数
,对于每个在当前时间戳τ的物体,它给出聚合每帧的最佳帧数。
3.2.1 Learning Function
为了确定每个目标检测的最佳聚合帧数,作者考虑了两个重要因素:速度和点密度(每个单位面积上的点数)。聚合改变了不同速度物体点云的外观,如图1(b)和图1(c)所示,因此聚合的最优帧数会随物体速度的变化而变化。此外,随着聚合帧数的增加,点密度成比例增加,影响每个物体代表的点的数量,从而影响检测性能。
在实际应用中,由于给定物体的这两个因素都无法准确确定,作者使用目标检测器的速度预测来估计其速度
,并使用预测的边界框尺寸来近似其点密度
:
由于不同类型的物体在不同数据集和架构中的权衡可能不同,作者在训练集的各个输入配置上对目标检测器的性能进行评估,以获得
的值。这要归功于RAT,它允许使用单个模型进行评估。具体来说,作者将
表示为一个分段函数,使用查找表实现。查找表是通过将训练集划分为具有不同速度和密度的子类别,并确定导致每个子类别平均精确度最高的帧数来构建的。
尽管已有研究观察到聚合对具有不同速度的目标的影响[2, 7, 19],但聚合与具有不同点密度的目标之间的相互作用方式尚不明确。在VADet中,作者将点密度确立为需要考虑和评估的额外因素。
3.2.2 Input construction
对于每个目标,作者首先根据常速度模型在当前时间戳
确定目标的近似位置
。这可以表示为
当
为激光雷达点云的帧率时,
为了包含目标的所有点,包括可能导致边界框之外的过去点,作者根据目标的速度和聚合过程中使用的帧数来扩大聚合区域的范围。对于一个目标,最终的聚合区域,记作
,可以通过以下方式给出。
(5)
(6)