专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

华中科技提出 RIDE | 通过旋转不变分析增强LiDAR点云的三维目标检测 !

智驾实验室  · 公众号  ·  · 2024-09-17 09:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

"旋转鲁棒性"这一特性在点云分析领域引起了广泛关注,但在3D目标检测中仍是一个关键挑战。当遭受任意旋转时,现有的大多数检测器由于旋转鲁棒性差而无法产生预期输出。

在这篇论文中,作者提出了一种先导性的探索方法:RIDE,用于3D LiDAR点基目标检测器,该检测器的关键是利用激光雷达场景设计不旋转不变的特征,然后有效地将其集成到现有的3D检测器中。

具体而言,作者设计了一种双特征提取器,它通过敏感于旋转但保留几何形状地提取(i)物体感知特征,(ii)不旋转不变的特征,这会在一定程度上失去几何信息,但对旋转具有鲁棒性。这两种类型的特征相互补充,解码出对任意旋转具有鲁棒性的3D建议。

特别是,作者的RIDE兼容并易于集成到现有的单阶段和两阶段3D检测器中,并可以提升检测性能和旋转鲁棒性。

在标准基准测试上的广泛实验显示,通过与作者RIDE集成,平均平均精度(mAP)和旋转鲁棒性可以显著提升,KITTI上的mAP提升+5.6%,旋转鲁棒性提升53%;nuScenes上的mAP提升+5.1%,旋转鲁棒性提升28%。代码将在不久的将来提供。

Introduction

自动驾驶,无需人工干预即可实现路线规划,不再是遥远的未来设想。作为汽车感知系统的必备组成部分,3D目标检测旨在预测自主车辆附近的关键物体的位置、大小和类别,如汽车、行人和骑自行车的人。3D目标检测方法随着深度学习技术的进步而迅速发展。近年来,为了应对基于 Voxel (voxel)的3D目标检测器不可避免的量化损失,基于激光雷达点云(LiDAR point clouds)的3D目标检测方法被提出。然而,它们都没有考虑输入旋转时检测结果的稳定性。

很自然的是,同一物体对激光雷达的方向可能会变化,导致扫描点坐标发生变化,尽管物体本身没有改变。现有的基于点的方法将原始3D坐标作为网络输入以提取潜在特征,从而使检测器对旋转敏感。为了提高现有3D目标检测器的旋转鲁棒性,EON [26]和TED [27]基于预定义的一组旋转角度实现了旋转等价性,但当测试任意旋转角度时,性能会降低。

受点云[24, 25]上任意旋转时保持一致性能的旋转不变性分析启发,作者在激光雷达点基础上的3D检测中进行了旋转不变性的研究,旨在增强现有检测器的旋转鲁棒性。

需要注意的是,将现有旋转不变技术直接应用于3D目标检测并非轻而易举,原因如下:

第一,现有旋转不变方法都是针对单一3D形状开发的,而不是基于激光雷达的稀疏场景。

第二,为解决旋转敏感性,现有方法选择完全替换点坐标以作为网络输入的旋转不变特征。这种简单而粗糙的方式会导致大量信息丢失,使网络无法有效检测大型场景中的物体。

在作者的工作中,作者提出了 RIDE ,是探索 R 位不变性用于从点云中检测3D DE ector的首次尝试。具体来说,作者设计了一个简单但相当有效的模块,称为旋转不变性块(RIB),用于从输入LiDAR点云中提取纯旋转不变特征(RIFs),这些特征可以灵活地集成到各种现有的基于点的检测器解码器中。另一方面,为了避免过多信息损失,当作者装备作者的RIB到现有检测器时,作者仍然保留原始旋转敏感特征提取器,以获得目标感知特征(OAFs)。因此,作者的方法可以在同一层中提取RIFs和OAFs,称为双集抽象(Bi-SA)层。接下来,作者堆叠多个Bi-SA层来形成一个新型的双特征提取器,然后跟随着一个检测Head来进行3D Proposal 的回归。

直观地,相对于现有的3D检测器,作者得到的特点不仅含有丰富的几何信息,而且还对旋转具有鲁棒性。同时,与探索3D目标检测的旋转不变性的EON [22]和TED [23]等旋转稳健检测器相比,作者的方法可以应对任何旋转情况,这表明了更好的对任意和未见旋转角度的鲁棒性。特别是,作者的RIDE可以轻松地集成到现有最先进的检测器中,而没有限制。

为了评估检测性能和旋转鲁棒性,作者在两个流行的基准数据集 KITTI [17] 和 nuScenes [1] 上进行了实验,分别在两种情况下进行输入: (1) 按默认角度(即, )进行随机旋转,(2)任意角度(即, )。这样,可以通过这两种情况之间的差异来计算旋转鲁棒性。在 KITTI 数据集上的广泛实验表明,配备作者 RIDE 的检测器在测试时分别与 Baseline 相比,在默认旋转 ( ) 和任意旋转 ( ) 情况下,均实现了 +1.3% +5.6% 的平均精度(mAP)提升,并将旋转鲁棒性提高了 **53%**。在 nuScenes 上,作者还分别实现了 +4.2% +5.1% 的 mAP 提升,并将旋转鲁棒性提高了 **28%**。

图1 展示了在 KITTI 上的一个示例对比结果。显然,将作者的 RIDE 附加到现有的两个 Baseline (红线和蓝线区域),感知精度和旋转鲁棒性在没有明显降低速度的情况下都得到了显著提高。实验部分提供了更详细的结果。

Related Works

基于点的3D目标检测方法。为了避免将点云转换为 Voxel 引起的重整量损失,PointRCNN[20]的开创性工作提出了直接在3D激光点云上处理的方法,用于生成3D Proposal 。作为二阶段框架,PointRCNN首先使用PointNet++-based编码器提取第一阶段目标 Proposal ,然后使用语义特征和局部信息在第二阶段进行优化。为了减轻第二阶段优化的时间消耗,VoteNet[21]提出了一种单阶段检测(SSD)框架,使用深度霍夫投票预测目标的质心点。受到这个投票机制的启发,3DSSD[22]设计了一个具有特征距离下采样策略的单阶段检测器,同时保持了独特的特征并实现了良好的性能。张等人提出了IA-SSD[1]具有实例感知下采样策略,进一步提高了效率。SASA[1]引入了一个基于语义距离的插件最远点采样策略,以高效选择前景点。

尽管上述方法取得了令人鼓舞的性能,但其中没有一个考虑输入旋转对预测稳定性的影响。也就是说,当输入场景点旋转时,使用上述方法的目标检测器得到的3D定向边界框(OBB)可能不可靠,由于物体的方向发生了变化。为了提高3D目标检测的旋转 robustness,EON[22]和TED[23]针对自动驾驶场景提出了旋转等价的方法。具体而言,EON可以通过旋转等价悬挂设计集成到现有检测器中,同时聚合不变的特征以实现目标级等价。TED是一个高效的 Voxel 检测器,通过稀疏卷积背部提取变换等价 Voxel 特征,然后将这些特征进行对齐和聚合以实现 Proposal 预测和优化。然而,它们在假设一个预定义的旋转角度列表的基础上实现了旋转等价性,而该思想无法涵盖所有的旋转情况,因此在未见的旋转角度下导致预测不稳。此外,它们在等价性能超过默认旋转角度边界(∈[-π/4, π/4])的验证方面存在缺失。相比之下,作者将旋转等价性引入到3D目标检测中,以辅助坚固的特征提取,从而使由编码器提取的特征对任意旋转更为鲁棒。因此,检测到的3D边界框更准确、更稳定。

点云分析的旋转不变方法。从理论上讲,从3D物体中提取的特征应与旋转无关。然而,大部分现有工作使用3D点坐标作为输入。因此,当物体旋转时,点坐标 inevitably 会发生变化,因此特征的一致性不能得到保证。要克服这个限制,一些方法[13, 14, 15, 16]设计了一种基于相对距离和角度的旋转不变几何特征来替代点坐标作为网络输入。尽管 principal component analysis (PCA)可以将坐标转换为旋转不变的典型坐姿,但与手工设计的几何特征相比,虽然PCA操作可以保留更多的潜在信息,但经典坐标的歧义需要通过额外的约束策略来缓解。此外,考虑到LiDAR点云的大量数据,使用PCA将是非常昂贵的。因此,在作者的工作中,作者选择通过考虑严谨的旋转不变性质和可负担的计算成本,将手工设计的旋转不变几何特征引入到特征嵌入过程中。

Method

Overview

给定一维点云 ,其中的每个点都是一个3D目标。具体来说,每个目标由一个语义类别和一个从鸟瞰视角定义的3D定向边界框(OBB)表示,边界框的中心点为 ,大小为 ,并且以 表示其朝向。

一般来说,如图2所示,现有流行的基于点的检测器主要由两个主要模块组成:

(1)由一个目标感知特征提取器组成的特征编码器,将点云 嵌入目标感知的特征 ,用于编码目标信息,以及一个空间聚合层,进一步生成局部区域上下文特征

(2)检测Head,为每个前景目标识别和生成3D Proposal 。显然,这种设计不是旋转不变的,因为所有特征都从3D坐标中提取,而3D坐标是旋转敏感的。

在本工作中,作者旨在设计一个插件和即用模块,可以集成到各种3D目标检测网络中,以提高它们的旋转鲁棒性。为此,作者提出在3D检测器中显式地利用目标旋转不变性,通过在任意旋转下考虑完全特征一致性。如图2所示,作者RIDE的关键思想是设计一个双特征提取器,基于现有的目标感知特征提取器,通过进一步引入旋转不变特征提取器(RIB)进行旋转不变特征 的生成,从输入点场景中有效地将旋转不变特征 集成到现有的空间聚合和检测Head中,以预测所需的旋转不变OBB。

值得注意的是,与现有的通过几个离散预定义旋转角度实现旋转鲁棒性的基于3D的EON[22]和TED[23]检测器相比,通过作者的RIDE将旋转不变性集成到3D检测器中,可以确保在任意旋转和未见过的旋转角度下做出可靠的预测。为了实现这样一个灵活且轻量级的模块,而不受旋转角度的限制,作者的设计存在两个关键挑战:

(1)如何设计和处理大规模场景点中的旋转不变特征。

(2)如何有效地将提取的旋转不变特征注入到现有3D检测器中。接下来,作者将分别介绍解决上述两个挑战的方法。

Rotation-Invariant Feature Design

给定一个特征提取方法 , 和点 及其 3D 坐标 。旋转不变性可以表述为:

其中 是一个 正交旋转矩阵。在此情况下,从点云 中提取的特征可以实现对任意 旋转具有旋转不变性。

与将坐标转换到旋转不变的规范位置相比较,基于相对距离和角度提取的相对几何特征在计算上更加稳定和高效。由于现有的基于点的检测器利用 Query 球内的局部区域,早期的工作[17]构造了一个三角结构,包括 Query 球中的参考点 ,球心点 和几何质心点 ;见图3(a)。然后 的旋转不变特征 (RIF) 为:

其中 之间的距离。角 分别以 为顶点。然而,这种简单的 RIF 设计忽略了 的局部邻居的挖掘,从而在获取几何信息方面与输入坐标相比失去了很多信息。

为了有效地挖掘局部点对关系,作者进一步考虑 与相邻邻居之间的几何结构。如图3(b) 所示,给定 和 Query 球中的一个相邻邻居 ,作者进一步引入来衡量 之间的几何关系:

然而,将 以这种方式引入,将使描述 的局部邻域存在歧义。也就是说,仅依赖方程(3)中的五个元素不能唯一确定 关于 的位置。只要 位于以 为圆心, 为半径的圆上,RIF始终相同。

为了消除这种歧义,如图3(c)所示,作者进一步扩展方程(3),考虑三角形 - - 带来的相对距离和角度,即 的距离 的距离 ,以及 。作者可以简单地验证,使用图3(c)中的八个元素可以唯一确定 的位置;见补充材料中的证明。

不同于可以绕任何轴旋转的单一物体,3D场景在扫描过程中只能围绕重力轴(即 轴)旋转。换句话说,LiDAR基点的 坐标在旋转过程中不会改变。有了这一先验, 旋转可以蜕变为围绕







请到「今天看啥」查看全文