自动驾驶车辆需要对其周围环境进行准确感知,以确保安全和高效驾驶。基于激光雷达的目标检测是一种广泛用于环境感知的方法,但其性能会受到恶劣天气条件(如雨和雾)的影响。
在这项工作中,作者研究了通过激光雷达传感器生成的连续数据样本来增强激光雷达目标检测模型的鲁棒性,从而采用各种策略。作者的方法利用时间信息来改进激光雷达目标检测模型,而无需进行额外的过滤或预处理步骤。作者将比较10种不同的神经网络架构,这些架构处理包括点云序列在内的点云序列,并引入了一种新颖的增强策略,在训练期间将序列中帧之间的间隔引入时间偏移。
通过实验,作者在恶劣天气条件下的激光点云上评估了所有策略的有效性。作者的研究提供了使用顺序数据来减轻恶劣天气对激光雷达目标检测可靠性影响的有效方法,这些数据使用如nuScenes、Dense和加拿大恶劣驾驶条件数据集等公共数据集进行评估。作者的发现表明,与 Baseline 模型(柱状目标检测)和没有增强相比,作者的新方法通过在序列中进行随机帧跳过的间隔时间偏移增强了目标检测的准确性。
I Introduction
在恶劣天气条件下进行自动驾驶需要健壮的目标检测。在特定数据集上训练的目标检测模型表现出对数据集特定特征的偏见,例如训练数据中代表的天气条件。因此,这些模型在相似的天气条件下表现良好,但在遇到训练数据中未出现显著不同的天气条件时,性能会明显下降。跨导传输学习属于域自适应方法,其中特定于作者的目标检测任务在目标和源域之间保持一致,而由于不同的天气条件,数据的边缘分布发生了明显的偏移[1]。最近提高这种域自适应到恶劣天气条件的方法包括例如数据预处理和来自多个传感器的检测融合。然而,提高每个检测器的性能本身将增加整体感知系统的健壮性。
另一种增强激光雷达基础目标检测在恶劣天气条件下的健壮性的方法是使用时间序列数据作为输入,因为激光传感器捕获的是点云序列。数据增强是一种常见的通过稍微修改现有数据来增加训练模型健壮性的方法。本工作提出了一种新颖的增强策略,通过在激光点云序列中添加随机时间偏移,即修改数据序列中帧与帧之间的时间距离。作者的贡献包括一种基于柱状目标检测的新颖架构,该架构允许使用序列的时间信息,对在模型架构中使用数据序列的不同方式进行全面研究,并在三个真实世界恶劣天气数据集上对训练模型进行定量和比较。
II Background
最先进的神经网络如TANet在模拟的噪声点云上表现出健壮的目标检测,表明了它们在实际恶劣天气条件下的潜在表现。最近的数据集包括Dense和加拿大恶劣驾驶条件,这些数据集被发布以用于训练这些神经网络。过滤方法如动态统计异常移除(DSOR)可以在预处理阶段、训练和推理阶段应用于降雨或去雾稀疏点云,但需要在模型的数据 Pipeline 中增加额外的计算步骤。
激光传感器是一种活动、远程 sensing 设备,它发射激光脉冲并测量反射光束的飞行时间来计算距离。它们能够生成一个稀疏的环境表示,具有准确的深度信息。然而,当出现恶劣天气(如雾、雾、雨或雪)时,激光传感器发出的激光束必须穿过一个扭曲粒子的体积。
在恶劣天气条件下,散射粒子的存在可能会导致激光束的衍射或吸收,从而导致减弱或消失的反射,导致感兴趣物体的检测丢失,如汽车。此外,这些粒子可能会引起激光束的反向散射,引入不希望的反射和噪声在点云数据中。无论是丢失的检测还是不希望的反射,都严重影响了激光传感器的性能。因此,无法确保目标检测、场景理解和安全导航。
不利天气可以分为静态和动态两种类型。静态不利天气包括雾、霾或雾霾,通常在相对较长的时间内以稳定的形式存在。另一方面,动态不利天气,如雨或雪,发生的方式更加不可预测和变化。在雨雪天气中,传感器发出的激光束与大气中密集存在的羟- meteor(水滴)相互作用。
如图1所示,当出现恶劣天气时,环境点云表示会变得嘈杂,具有高反射率的粒子会导致许多不希望的反射。这可能导致可见范围受限、由于噪声降解导致的目标检测器降级,以及被反射粒子阻挡的物体。在恶劣天气条件下提高激光雷达基础目标检测的健壮性,以减轻所述传感器降级,是实现这种场景下自动驾驶的关键任务。
III Datasets and Related Work
本文讨论了本研究中使用的数据集以及用于提高激光雷达基础目标检测健壮性的相关方法。
Datasets
为了使目标检测算法在恶劣天气条件下有效工作,必须在训练数据中包含这些条件,以训练检测器处理嘈杂数据。
Iii-A1 Dense
Dense数据集记录了德国、丹麦、瑞典和芬兰10,000公里的驾驶,包含13,770个样本,每个样本都有3D和2D信息,以及超过100,000个标注目标。该数据集包含各种天气条件,如雨、雾、雪和晴朗天气。本工作使用该数据集的一个子集,包含12,930帧,忽略不形成有效数据序列的帧。原数据集的验证集是原始集的每十分之一样本。
为了确保只有有效数据序列包含在数据集中,数据集被减少。因此,训练集包含11,639个样本,测试集包含281个样本。数据集标注了距离汽车80米的盒子,但由于标注过程使用前视摄像头图像正确放置边界框,因此只有车前的标签可用。
Iii-A2 Canadian Adverse Driving Conditions
加拿大恶劣驾驶条件数据集[5]是一个多模态数据集,包括在2019年12月于滑铁卢捕获的激光雷达和摄像头数据,提供了雪天驾驶条件下的数据。它包含7000个带有各种降雪条件的标记样本。删除没有目标的样本后,训练集剩下6249个样本,验证集剩下649个样本。
Iii-A3 nuScenes
nuScenes数据集是一个包括六个摄像头、五个雷达和一个激光传感器的多模态数据集。它提供了在波士顿和新加坡白天和夜间以及雨天捕获的40,000个激光雷达样本以及3D目标信息。该数据集的训练集包含28,130个样本,验证集包含6,019个样本,确保只使用有效数据序列。
Camera-based Object Detection
基于图像的检测预测3D边界框并从2D RGB图像数据中分类物体。Fast R-CNN使用选择性搜索来生成区域 Proposal ,而Faster R-CNN则省略了选择性搜索并应用了一个区域 Proposal 网络(RPN)以提高效率。
Stereo R-CNN在每张图像中生成3D物体 Proposal 并使图像 Proposal 对齐以改进预测结果。SMOKE预测在2D图像平面上的3D边界框的中心坐标并回归以获取边界框参数。其他方法估计深度图像并使用它们来生成可用于任何激光基础目标检测网络的激光伪点云。
Lidar-based Object Detection
传统的基于激光雷达的目标检测模型操作在原始点云(如PointNet和PointNet++,或有序点云如VoxelNet或PointPillar)上。许多方法将点云投影到不同的平面上,以在抽象过程中保留更多信息。
本文使用的 Baseline 最先进目标检测模型是PBOD(PointBoundingBoxDetector)。PBOD通过使用类似于多视图融合(MVF)中的附加视图投影(如Multi-View Fusion (MVF) ,避免了每个 Anchor 点预测,而是预测每个 Pillar 。PBOD还使用圆柱视图投影,导致比MVF中使用的球面投影更少的扭曲投影。
Sequential Data Processing
各种方法使用连续点云来增强目标检测,例如重用前一帧的边界框中心预测,将点云特征拼接,或使用点体消息网络在帧内 Pillar 之间传递信息,通过使用空间-时间注意力 Transformer 模块(ConvGRU)将点云时间步之间的信息编码。MPPnet使用代理点来集成一系列点云中的多帧特征。
卷积长短时记忆(convLSTM)在一些方法中用于将前几帧激光帧的信息与当前帧的信息进行融合。作者在PointPillars架构中引入了一个convLSTM层,将一个序列中的样本数量减少到3,同时仍然超过了使用10个样本的前一方法。YOLO4D通过使用帧堆叠或一个conLSTM层扩展了YOLO3D,并表明两种方法都提高了训练模型的性能和鲁棒性。
另一种处理顺序数据的流水线研究是Transformer,这是一种起源于自然语言处理领域的神经网络,可以有效地聚合图像或点云中每个点与其他点之间的关系的信息,因此也具有目标检测的潜力。Transformer被用于例如有效地融合摄像头和激光数据,或直接在摄像头图像上执行目标检测或大型激光点云。
IV Methodology
这项工作的目的是回答以下研究问题:
-
当面临在恶劣天气条件下收集的噪声数据时,激光基础目标检测器Pillar-Based Object Detection [2]的表现如何?
-
-
连续激光雷达数据的增强可以以哪些方式改进目标检测模型?
-
作者的方法使用时间信息与其他最先进的方法相比如何?
为回答这些问题,作者使用各种方法扩展目标检测模型,以利用连续激光雷达点云。还使用其他最先进的点云中健壮的目标检测技术,并将其与 Baseline PBOD模型进行比较。实验方法概述如图2所示。为了评估和比较模型,作者使用在IoU阈值为0.5和0.75时的平均平均精度,以及每个序列所需的推理时间。
本研究在点云序列上进行了四次实验,利用时间信息。训练和评估是在配备40 GB VRAM的NVIDIA A100 GPU上进行的。为了应对硬件限制,可以使用滤波因子(FF)来减少模型中的可调整参数数量。该因子最初设置为1,并将批处理大小设置为可能的最大值。
第一个实验是输入 ConCat (Input Concatenation,IC),第二个实验是输入 ConCat 加时间编码(Input Concatenation with Temporal Encoding,IC+),如图3所示。IC将来自不同时间步的多个点云的点连接起来形成一个共同的点云以增加密度,例如对于两个点云P1和P2,它们由点p组成: