专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

应对极端天气:利用时间偏移序列增强激光雷达目标检测!

智驾实验室  · 公众号  ·  · 2024-07-07 08:00

正文

请到「今天看啥」查看全文


ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

自动驾驶车辆需要对其周围环境进行准确感知,以确保安全和高效驾驶。基于激光雷达的目标检测是一种广泛用于环境感知的方法,但其性能会受到恶劣天气条件(如雨和雾)的影响。

在这项工作中,作者研究了通过激光雷达传感器生成的连续数据样本来增强激光雷达目标检测模型的鲁棒性,从而采用各种策略。作者的方法利用时间信息来改进激光雷达目标检测模型,而无需进行额外的过滤或预处理步骤。作者将比较10种不同的神经网络架构,这些架构处理包括点云序列在内的点云序列,并引入了一种新颖的增强策略,在训练期间将序列中帧之间的间隔引入时间偏移。

通过实验,作者在恶劣天气条件下的激光点云上评估了所有策略的有效性。作者的研究提供了使用顺序数据来减轻恶劣天气对激光雷达目标检测可靠性影响的有效方法,这些数据使用如nuScenes、Dense和加拿大恶劣驾驶条件数据集等公共数据集进行评估。作者的发现表明,与 Baseline 模型(柱状目标检测)和没有增强相比,作者的新方法通过在序列中进行随机帧跳过的间隔时间偏移增强了目标检测的准确性。

I Introduction

在恶劣天气条件下进行自动驾驶需要健壮的目标检测。在特定数据集上训练的目标检测模型表现出对数据集特定特征的偏见,例如训练数据中代表的天气条件。因此,这些模型在相似的天气条件下表现良好,但在遇到训练数据中未出现显著不同的天气条件时,性能会明显下降。跨导传输学习属于域自适应方法,其中特定于作者的目标检测任务在目标和源域之间保持一致,而由于不同的天气条件,数据的边缘分布发生了明显的偏移[1]。最近提高这种域自适应到恶劣天气条件的方法包括例如数据预处理和来自多个传感器的检测融合。然而,提高每个检测器的性能本身将增加整体感知系统的健壮性。

另一种增强激光雷达基础目标检测在恶劣天气条件下的健壮性的方法是使用时间序列数据作为输入,因为激光传感器捕获的是点云序列。数据增强是一种常见的通过稍微修改现有数据来增加训练模型健壮性的方法。本工作提出了一种新颖的增强策略,通过在激光点云序列中添加随机时间偏移,即修改数据序列中帧与帧之间的时间距离。作者的贡献包括一种基于柱状目标检测的新颖架构,该架构允许使用序列的时间信息,对在模型架构中使用数据序列的不同方式进行全面研究,并在三个真实世界恶劣天气数据集上对训练模型进行定量和比较。

II Background

最先进的神经网络如TANet在模拟的噪声点云上表现出健壮的目标检测,表明了它们在实际恶劣天气条件下的潜在表现。最近的数据集包括Dense和加拿大恶劣驾驶条件,这些数据集被发布以用于训练这些神经网络。过滤方法如动态统计异常移除(DSOR)可以在预处理阶段、训练和推理阶段应用于降雨或去雾稀疏点云,但需要在模型的数据 Pipeline 中增加额外的计算步骤。

激光传感器是一种活动、远程 sensing 设备,它发射激光脉冲并测量反射光束的飞行时间来计算距离。它们能够生成一个稀疏的环境表示,具有准确的深度信息。然而,当出现恶劣天气(如雾、雾、雨或雪)时,激光传感器发出的激光束必须穿过一个扭曲粒子的体积。

在恶劣天气条件下,散射粒子的存在可能会导致激光束的衍射或吸收,从而导致减弱或消失的反射,导致感兴趣物体的检测丢失,如汽车。此外,这些粒子可能会引起激光束的反向散射,引入不希望的反射和噪声在点云数据中。无论是丢失的检测还是不希望的反射,都严重影响了激光传感器的性能。因此,无法确保目标检测、场景理解和安全导航。

不利天气可以分为静态和动态两种类型。静态不利天气包括雾、霾或雾霾,通常在相对较长的时间内以稳定的形式存在。另一方面,动态不利天气,如雨或雪,发生的方式更加不可预测和变化。在雨雪天气中,传感器发出的激光束与大气中密集存在的羟- meteor(水滴)相互作用。

如图1所示,当出现恶劣天气时,环境点云表示会变得嘈杂,具有高反射率的粒子会导致许多不希望的反射。这可能导致可见范围受限、由于噪声降解导致的目标检测器降级,以及被反射粒子阻挡的物体。在恶劣天气条件下提高激光雷达基础目标检测的健壮性,以减轻所述传感器降级,是实现这种场景下自动驾驶的关键任务。

III Datasets and Related Work

本文讨论了本研究中使用的数据集以及用于提高激光雷达基础目标检测健壮性的相关方法。

Datasets

为了使目标检测算法在恶劣天气条件下有效工作,必须在训练数据中包含这些条件,以训练检测器处理嘈杂数据。

Iii-A1 Dense

Dense数据集记录了德国、丹麦、瑞典和芬兰10,000公里的驾驶,包含13,770个样本,每个样本都有3D和2D信息,以及超过100,000个标注目标。该数据集包含各种天气条件,如雨、雾、雪和晴朗天气。本工作使用该数据集的一个子集,包含12,930帧,忽略不形成有效数据序列的帧。原数据集的验证集是原始集的每十分之一样本。

为了确保只有有效数据序列包含在数据集中,数据集被减少。因此,训练集包含11,639个样本,测试集包含281个样本。数据集标注了距离汽车80米的盒子,但由于标注过程使用前视摄像头图像正确放置边界框,因此只有车前的标签可用。

Iii-A2 Canadian Adverse Driving Conditions

加拿大恶劣驾驶条件数据集[5]是一个多模态数据集,包括在2019年12月于滑铁卢捕获的激光雷达和摄像头数据,提供了雪天驾驶条件下的数据。它包含7000个带有各种降雪条件的标记样本。删除没有目标的样本后,训练集剩下6249个样本,验证集剩下649个样本。

Iii-A3 nuScenes

nuScenes数据集是一个包括六个摄像头、五个雷达和一个激光传感器的多模态数据集。它提供了在波士顿和新加坡白天和夜间以及雨天捕获的40,000个激光雷达样本以及3D目标信息。该数据集的训练集包含28,130个样本,验证集包含6,019个样本,确保只使用有效数据序列。

Camera-based Object Detection

基于图像的检测预测3D边界框并从2D RGB图像数据中分类物体。Fast R-CNN使用选择性搜索来生成区域 Proposal ,而Faster R-CNN则省略了选择性搜索并应用了一个区域 Proposal 网络(RPN)以提高效率。

Stereo R-CNN在每张图像中生成3D物体 Proposal 并使图像 Proposal 对齐以改进预测结果。SMOKE预测在2D图像平面上的3D边界框的中心坐标并回归以获取边界框参数。其他方法估计深度图像并使用它们来生成可用于任何激光基础目标检测网络的激光伪点云。

Lidar-based Object Detection

传统的基于激光雷达的目标检测模型操作在原始点云(如PointNet和PointNet++,或有序点云如VoxelNet或PointPillar)上。许多方法将点云投影到不同的平面上,以在抽象过程中保留更多信息。

本文使用的 Baseline 最先进目标检测模型是PBOD(PointBoundingBoxDetector)。PBOD通过使用类似于多视图融合(MVF)中的附加视图投影(如Multi-View Fusion (MVF) ,避免了每个 Anchor 点预测,而是预测每个 Pillar 。PBOD还使用圆柱视图投影,导致比MVF中使用的球面投影更少的扭曲投影。

Sequential Data Processing

各种方法使用连续点云来增强目标检测,例如重用前一帧的边界框中心预测,将点云特征拼接,或使用点体消息网络在帧内 Pillar 之间传递信息,通过使用空间-时间注意力 Transformer 模块(ConvGRU)将点云时间步之间的信息编码。MPPnet使用代理点来集成一系列点云中的多帧特征。

卷积长短时记忆(convLSTM)在一些方法中用于将前几帧激光帧的信息与当前帧的信息进行融合。作者在PointPillars架构中引入了一个convLSTM层,将一个序列中的样本数量减少到3,同时仍然超过了使用10个样本的前一方法。YOLO4D通过使用帧堆叠或一个conLSTM层扩展了YOLO3D,并表明两种方法都提高了训练模型的性能和鲁棒性。

另一种处理顺序数据的流水线研究是Transformer,这是一种起源于自然语言处理领域的神经网络,可以有效地聚合图像或点云中每个点与其他点之间的关系的信息,因此也具有目标检测的潜力。Transformer被用于例如有效地融合摄像头和激光数据,或直接在摄像头图像上执行目标检测或大型激光点云。

IV Methodology

这项工作的目的是回答以下研究问题:

  • 当面临在恶劣天气条件下收集的噪声数据时,激光基础目标检测器Pillar-Based Object Detection [2]的表现如何?

  • 是否可以使用连续激光雷达数据来提高目标检测模型?

  • 连续激光雷达数据的增强可以以哪些方式改进目标检测模型?

  • 作者的方法使用时间信息与其他最先进的方法相比如何?

为回答这些问题,作者使用各种方法扩展目标检测模型,以利用连续激光雷达点云。还使用其他最先进的点云中健壮的目标检测技术,并将其与 Baseline PBOD模型进行比较。实验方法概述如图2所示。为了评估和比较模型,作者使用在IoU阈值为0.5和0.75时的平均平均精度,以及每个序列所需的推理时间。

本研究在点云序列上进行了四次实验,利用时间信息。训练和评估是在配备40 GB VRAM的NVIDIA A100 GPU上进行的。为了应对硬件限制,可以使用滤波因子(FF)来减少模型中的可调整参数数量。该因子最初设置为1,并将批处理大小设置为可能的最大值。

第一个实验是输入 ConCat (Input Concatenation,IC),第二个实验是输入 ConCat 加时间编码(Input Concatenation with Temporal Encoding,IC+),如图3所示。IC将来自不同时间步的多个点云的点连接起来形成一个共同的点云以增加密度,例如对于两个点云P1和P2,它们由点p组成:

(2) (3)

此外,IC+为每个点添加另一个属性,表示点云在序列中的时间位置:

第三个实验是特征 ConCat (Feature Concatenation,FC),如图4所示。FC通过为输入序列中的每个帧创建一个独立的特征提取分支,将特征在 Pillar 投影回鸟瞰图之前进行 ConCat 。在另一个实验FC+中,在特征 ConCat 之后添加了一个多层感知机以增加模型复杂性。

第四个实验是长短时记忆(Long Short-Term Memory,LSTM),如图5所示。LSTM分别提取序列中每个点云的特征,为每个点云构建伪图像,这些伪图像作为输入进入计算特征图的卷积LSTM模块,进一步处理在PBOD网络中。融合信息被输入到默认PBOD模型的 Pillar backbone中,生成更具判别性的特征。此外,单个卷积LSTM扩展为卷积LSTM网络,以增加学习能力。

此外,这项研究调查了在序列中引入连续帧之间的时间间隔,具体为跳过帧,如图6所示。这意味着在训练期间,序列中样本之间的时间间隔是随机的。图6的上部分引入了序列中两个帧之间的时间间隔,而另一个与前一个帧相连。下部分显示了连续激光帧在序列中的处理,以保持点云流的原始时间关系,即使在Shuffle时也保持时间结构。

V Results and Discussion

表1显示了作者的实验评估结果。很明显,仅使用两个样本的输入 ConCat (Input Concatenation,IC)和输入 ConCat 加时间编码(Input Concatenation with Temporal Encoding,IC+)会恶化结果。此外,没有时间偏移的特征 ConCat (Feature Concatenation,FC)和特征 ConCat 加时间偏移(Feature Concatenation with Temporal Offset,FC+)在所有数据集上都无法产生正确预测。

然而,在 中引入时间偏移在 上显著改善了结果,其中 在Dense数据集上获得了最佳的评估结果,在IoU为0.5和0.75时,平均平均精度分别为0.590和0.141。与默认PBOD模型相比,这提高了约4.1%的IoU值在0.5处和约25.9%的IoU值在0.75处。然而,这也导致了推理时间的增加,每输入序列约为0.16秒。

对于CADC数据集,在PBOD的基础上添加了一个卷积LSTM模块在 Pillar 骨架之前,模型在IoU为0.5时表现最好,mAP为0.680(+6.1%),在IoU为0.75时,mAP为0.340(+8.6%)。使用卷积LSTM网络在IoU为0.75时提高了约11.2%的检测结果。这使得比单个卷积LSTM单元更复杂的模型在正确预测方面更有信心。然而,推理时间进一步增加到0.202秒,比每个迭代时的0.164秒增加了约28.1%。

最后,在nuScenes数据集上,将PBOD模型修改为带有卷积LSTM模块和随机时间偏移的模型表现最好,在IoU为0.5时,mAP增加了22.2%,但在IoU为0.75时,mAP降低了18.7%。在IoU为0.75时,具有随机时间偏移的FC实验表现最好,mAP增加了8.1%。与默认的Pillar-based Object Detection模型相比,所有其他模型在所有数据集上的检测性能都较差。

观察到的使用随机跳帧提高性能的可能原因是模型能够采用一种通用的方法来利用时间信息,而不是学习特定于数据集的底层时间模式。如果没有随机时间偏移,模型倾向于学习数据集中存在的不一致的底层模式,这导致了目标检测性能的降低。

此外,涉及输入 ConCat 的实验可能受到由于框架中缺乏时间信息而导致连续点云之间缺少坐标转换的影响。这种早期的 ConCat ,如特征 ConCat 中明显缺少信息的抽象,可能导致模型在重叠的点云数据中更容易受到错位的影响。

此外,该数据集包含具有较大时间距离的样本,导致混乱的重叠点云,因为每个时间步的点云描述不同的驾驶场景。这些因素可能有助于解释模型性能观察到的效果。

VI Conclusion and Outlook

总之,所进行的实验表明,在连续帧之间引入随机时间偏移可以增强所有三个最先进的数据集上的检测性能。这种方法使模型在面对噪声数据时更加健壮,并在恶劣天气条件下提高了检测结果。所观察到的性能改进是显著的,即使在nuScenes数据集中,该数据集主要包含晴朗天气数据,表明模型的增强泛化能力。尽管输入 ConCat 并未产生更好的性能,但特征 ConCat 改进了检测结果。

此外,将卷积LSTM模块添加到网络中,与原始PBOD模型相比,显著增加了所有数据集上的检测性能,而添加更多层网络并未改善性能。未来的研究应研究在序列中应该使用多少帧,并探索使用Transformer架构,通过利用帧的时空信息并提高推理时间,以提高检测性能。

参考

[1].Enhancing Lidar-based Object Detection in Adverse Weather using Offset Sequences in Time.



扫描下方二维码,添加 AI驾驶员

获取更多的 大模型 多模态 等信息








请到「今天看啥」查看全文