现有的激光雷达语义分割方法在恶劣天气条件下往往会出现性能下降。先前的研究通过在训练过程中模拟恶劣天气或采用通用数据增强来解决这一问题。然而,这些方法缺乏对恶劣天气如何负面影响激光雷达语义分割性能的详细分析和理解。
受到这一问题的启发,作者识别了恶劣天气的关键因素,并进行了一个简单的实验来准确找出性能下降的主要原因:
(1)由于雾或空气中的水滴引起的折射造成的几何扰动;
(2)由于能量吸收和遮挡造成的点云数据丢失。基于这些发现,作者提出了新的策略性数据增强技术。
首先,作者引入了一种选择性抖动(Selective Jittering, SJ),它在深度(或角度)的随机范围内抖动点,以模拟几何扰动。
此外,作者开发了一种可学习的点云丢失(Learnable Point Drop, LPD)技术,使用深度Q学习网络学习在恶劣天气条件下容易消失的点云模式。
在没有精确天气模拟的情况下,这些技术通过将激光雷达语义分割模型暴露在作者以数据为中心分析所确定的易受攻击条件下,从而增强了模型的鲁棒性。
实验结果证实了所提出的数据增强方法在提高对恶劣天气条件的鲁棒性方面的适用性。
作者的方法在SemanticKITTI到SemanticSTF基准上取得了显著的39.5 mIoU得分,超过了先前最先进技术的5.4%p,相较于先前方法实现的改进,作者的方法将 Baseline 提高了三倍。
1 Introduction
激光雷达语义分割是3D场景理解的基本任务。在自动驾驶等安全关键应用中,健壮可靠的分割至关重要。然而,现有的激光雷达分割模型,通常缺乏鲁棒性,在恶劣天气(如雪、雾、雨或湿滑表面)下性能显著下降。
为了解决这个问题,近期的研究引入了包括恶劣天气在内的污染基准,并提出了针对污染的抗激光雷达分割的有效技术。这些鲁棒方法主要分为两种:任务无关方法和基于模拟的方法。任务无关方法采用通用的机器学习方法来增强鲁棒性,而没有明确解决由恶劣天气引起的激光雷达污染的特征。基于模拟的方法通过物理方程人工合成特定天气的数据进行训练。然而,这些努力集中在检测任务上,每种方法同时只考虑一种类型的天气。
尽管基于模拟的方法可以更好地利用目标恶劣天气下激光雷达扫描的内在属性,但模拟所有可能的严重程度的每种天气类型通常是不可行且不准确的。相反,作者采用以数据为中心的视角来分析受污染的激光雷达数据。例如,“雨”、“雪”和“雾”造成的扭曲通常创建类似的模式,如在[10]中模拟的那样。同时,所有这些恶劣天气都通过衰减或水滴遮挡造成点下降。尽管基于模拟的方法需要对每种天气条件的激光雷达进行显式建模,但作者的以数据为中心的方法有可能用少数统一模式解决复杂的扭曲。通过现有研究以及作者的综合分析,作者发现不同的恶劣天气条件在激光雷达数据中创建类似的扭曲模式。
从这一洞察出发,作者将这些扭曲分为两类:(1)几何扰动和(2)点下降。通过进行一个玩具实验,作者证明这两种扭曲类型与分割性能下降高度相关。
基于玩具实验,作者引入了两种新颖的策略性数据增强方法,专门针对由恶劣天气引起的激光雷达扭曲。通过在训练过程中整合这些增强,作者旨在提高模型对每种扭曲类型的鲁棒性。对于几何扰动,作者引入了选择性抖动(SJ),它应用加性高斯噪声(AGN)来选择性地局部区域内改变XYZ坐标和强度。对于处理点下降模式,作者开发了可学习点下降(LPD),它采用深度Q网络(DQN)策略性地移除点。作者的增强策略受到现有研究[10, 17, 28]的启发,这些研究表明几何扰动通常涉及对原始点进行小的随机改变。这一洞察导致作者选择抖动作为解决几何扰动的合适技术。同时,针对点下降或遮挡的增强策略受到现有研究[7, 8, 10]的启发,这些研究表明激光雷达光束的强度和深度起着重要作用。因此,作者的想法是使用DQN检测损害激光雷达语义分割模型的点下降,使DQN能够有效地跟踪并适应这些点下降模式。
最后,作者在使用干净源数据集训练激光雷达分割模型时应用了所提出的增强。实验结果表明,作者的方法在真实恶劣天气数据集SemanticSTF上取得了最新的最佳性能。值得注意的是,作者在 Baseline 模型上实现了令人印象深刻的8.1 mIoU增益。这是一项值得注意的改进,几乎是之前工作[33]实现2.5 mIoU改进的三倍。此外,作者的方法与激光雷达分割模型的其它训练技术(例如,改进模型结构和训练方法)兼容,因此具有潜在的协同效益。这种兼容性以及作者显著的mIoU增益,突显了作者的数据增强的有效性。
总结来说,本文提出了几项关键贡献。
通过以数据为中心的分析,作者识别了由恶劣天气引起的激光雷达数据中的两种普遍扭曲类型,这些扭曲会导致性能下降。
作者针对每种识别的扭曲类型引入了两种新颖的数据增强方法。
作者的方法在SemanticKITTI到SemanticSTF基准上设定了新的最佳性能记录。值得注意的是,在没有依赖激光雷达点输入中恶劣天气的精确模拟的情况下,作者的改进达到了8.1%p mIoU。这代表了与之前方法相比[33],改进 Baseline 的三倍。
2 Related Works
LiDAR Semantic Segmentation
现有的3D LiDAR点云语义分割方法可以根据数据表示分为三种类型:基于点的方法、基于投影的方法和基于 Voxel 的方法。
基于点的方法[23, 29, 37]直接利用3D点作为输入。KPConv [29]首先对局部点进行聚类,聚合这些局部特征,然后将它们输入到核点卷积中。Point Transformer [37]利用 Transformer 架构计算每个局部区域内的 Query 点,通过k最近邻(kNN)获取。Point-Mixer [4]试图将MLP-Mixer [30]适应于点云应用。它们取得了高性能,但由于利用了大规模原始LiDAR数据,计算成本较高。
基于投影的方法将LiDAR点投影到2D图像中,并使用在2D图像中成功的架构进行语义分割。RangeViT [1]直接采用在2D图像上预训练的ViT模型,证明了在2D图像中预训练的功率可以作为范围图像中的先验知识有效。RangeFormer [11]提出“RangeAug”以最大化通过投影到2D创建的范围图像的效用,生成多个范围图像数据以克服范围图像模型性能低的问题。基于投影的方法实现了快速的推理速度,但由于投影后信息丢失,性能不是最优的。
基于 Voxel 的方法[15, 38, 5]通过将3D空间划分为 Voxel 网格并在同一 Voxel 内聚合点来实现有效计算。MinkUnet [5]用立方体网格 Voxel 化LiDAR点,并应用稀疏卷积。Cylinder3D [38]提出圆柱形分区,反映了LiDAR点的密度取决于距离的特性。SphereFormer [15]利用径向窗口和 Transformer 架构来聚合长距离信息并提高性能。基于 Voxel 的方法在合理的推理时间和令人满意的分割性能之间取得了平衡。
LiDAR Data Augmentation
受到2D图像增强的启发,传统的激光雷达分割方法采用经典的缩放、旋转、翻转和平移来增强激光雷达数据。近年来,一些脱离上下文的增强技术[32, 21, 13]提出了混合不同的激光雷达扫描。Mix3D[21]结合了随机选择的两个扫描。考虑到激光雷达传感器的扫描机制,PolarMix[32]沿着方位轴切割激光雷达扫描,然后交换点云扇区和应用实例 Level 的旋转粘贴。为了反映激光雷达点云的空间先验,LaserMix[13]根据激光束划分激光雷达扫描,并将来自不同激光雷达扫描的分区混合。最近的研究[25]引入了一个快速的激光雷达域增强模块来解决传感器偏差问题。据作者所知,作者的方法是第一种专门针对在恶劣天气条件下数据损坏的增强方法。
LiDAR Under Adverse Weather Conditions
在安全关键应用中,恶劣条件下的鲁棒性至关重要。不利天气在实际户外自动驾驶中的性能有着显著的下降。因此,在2D分割、3D检测和3D分割[33, 12]等领域,有几种尝试开发对天气具有鲁棒性的模型。基于模拟的方法[9, 7]通过物理建模人工合成了单一天气条件的数据,并将其用于训练。作者与这些方法的不同之处在于,作者不显式地建模特定的天气条件。最近提出的与任务无关的方法同时考虑了多种天气条件。然而,它们使用通用机器学习技术(如教师-学生框架和特征原型)来实现鲁棒性,而不是专门解决由不利天气引起的激光雷达数据损坏问题。作者与这些方法的不同之处在于,作者提出了专门针对不利天气条件的增强方法,这是基于对激光雷达数据性能下降的分析。
3 Finding Distortions to Augment
在本节中,作者旨在讨论不同的恶劣天气条件对激光雷达数据造成的扭曲模式。尽管现实中的恶劣天气条件各不相同,但研究表明,它们对激光雷达数据的影响通常会导致类似的影响。例如,由于数据中的衰减,"雨"、"雪"和"雾"造成的扭曲往往会产生类似的点缺失模式,如[10]所示。因此,本节将通过现有研究专注于识别恶劣天气造成的常见扭曲模式。
总体而言,现有研究将恶劣天气的影响描述为四种不同类型的扭曲:
(1)由于能量吸收导致的点丢失;(2)由雨滴、雪和雾造成的遮挡;(3)几何形变;(4)由于能量吸收导致的强度扭曲。
Distortion Factors from Adverse Weather
(D1) 点减少。
几项研究探讨了不利天气条件如何导致激光雷达数据中的点减少。Kilic
et al
. [10],Fersch
et al
. [6] 和 Shin
et al
. [27] 描述了由于水滴、雾和冻结或湿润地面导致的激光衰减和激光缺失引起的点减少。这些研究共同表明,不利天气条件通常会导致激光雷达数据中的点减少。
(D2) 遮挡。
几项研究解决了由不利天气条件引起的遮挡问题。Hahner
et al
. [7],Kilic
et al
. [10],Kong
et al
. [12] 和 Yan
et al
. [34] 考虑了激光与雪碰撞时收集到的信号距离比预期碰撞物体短得多的情况。在审阅这些研究后,作者得出结论,不利天气一致导致遮挡。
(D3) 几何扰动。
一些研究关注由不利天气条件引起的几何扰动。Kilic
et al
. [10],Li
et al
. [17] 和 Smith
et al
. [28] 通过在坐标中加入随机噪声,展示了在雾、雪和雨等不利天气中的几何扰动。通过这些研究,作者得出不利天气普遍导致几何扰动的结论。
(D4) 强度失真。
许多研究关注由不利天气条件引起的强度失真。Bijelic
et al
. [3],Shin
et al
. [27],Fersch
et al
. [6],Kong
et al
. [12] 和 Yan
et al
. [34] 共同表明,雾、湿润和雨等不利天气条件会导致激光雷达束强度降低,影响合成数据的生成。通过这些研究,作者得出不利天气通常会导致强度失真的结论。
Toy Experiment
基于第3节提到的先前研究结果,由不利天气条件引起的激光雷达点云失真类型汇聚为一组常见失真。因此,从数据中心的视角来看,作者需要考虑的问题可以总结如下:**(D1) 点丢失
,
(D2) 遮挡
,
(D3) 几何扰动
,和
(D4) 强度失真**。在这里,作者的目标是识别哪些失真类型对性能产生负面影响。为了实现这一点,作者通过SemanticKITTI _验证集_生成了四种玩具合成数据的失真类型。
(D1)
点丢失:考虑到在严重不利天气下,每个激光雷达点随机独立消失的场景。作者随机移除个别点来合成这些数据。作者将丢失比率设置为0.5和0.9。
(D2)
遮挡点:该方法假设遮挡主要发生在物体前方,主要是由于雾、雪和雨引起的失真。作者通过随机选择点并将它们的深度更改为原始深度的十分之一来合成这些数据。选择比率也被确定为0.5和0.9。
(D3)
几何扰动:这一方面假设由于不利天气条件导致点坐标的失真。作者通过向所有点的坐标添加高斯噪声来合成数据。高斯噪声水平设置为0.05和0.25。
(D4)
强度失真:这种失真类型假设由于雾、雨滴和雪粒子导致的强度衰减。作者通过从所有点的强度中减去高斯噪声来合成这些数据。高斯噪声水平设置为0.05和0.25。
作者为玩具实验选择了MinkowskiNet [5]。这一选择基于现有研究[12, 34],表明MinkowskiNet是一个标准和健壮的模型。
在表1中,可以看出随着D1、D2和D3失真的增加,性能下降到 Baseline 的一半以下。相反,尽管D4有显著的失真,性能仍保持不变。这种性能下降可能源于局部几何结构的变化,而模型计算就在其中发生。因此,D4没有显著影响性能。
重要的是,D2的性能显著下降被认为与D1类似的点丢失有关。这是因为遮挡改变了点的局部几何结构,其效果与点丢失类似。在图1中可以证明这一点,其中D2的错误预测显示出与D1类似的模式。
总之,作者的观察表明,几何扰动和点丢失是不利天气中最有影响力的失真。可以复制这些现象的数据增强可能会提高模型对这些条件的鲁棒性,而无需明确的天气模拟。
因此,针对不利天气的鲁棒激光雷达语义分割模型包括两个关键步骤:
(1)训练特定的不利点丢失对性能有害
,和
(2)训练对点坐标进行微调
。
4 Methods
在本节中,作者针对第3.2节中识别出的两个挑战提出了解决方案。作者的目标是通过对各种不利天气条件下表现出的常见失真进行数据增强,来提高模型的鲁棒性。这种方法旨在无需明确模拟每种不利天气情景的情况下实现鲁棒性。
如前所述,不利天气导致的失真包括点下降、遮挡、几何扰动和强度失真。
其中,被确定对性能影响最大的主要失真有:(1)由点坐标微小变化引起的几何扰动;(2)由光束缺失或遮挡引起的点下降。
为了应对这些挑战,作者提出了两种技术:选择性抖动和学习型点下降。
Learnable Point Drop
可学习点丢失(LPD)是为了解决第二种主要失真,即点丢失而设计的。LPD旨在人为地创建由于遮挡(如浓雾)引起的点丢失。LPD采用深度Q学习网络(DQN)[20]来识别导致模型产生不利影响的丢失比率和丢失区域。DQN的奖励设计用于识别那些会增加激光雷达语义分割模型训练损失和不确定性的点丢失。通过LPD,激光雷达语义分割模型可以接触到由恶劣天气条件引起的点丢失场景。因此,它学会即使在清洁数据环境中缺少对分割至关重要的情况下也能做出准确预测。由于LPD仅作为数据增强的概念而存在,并且作为一个单独的模块,它无需对现有模型的训练方案进行任何修改,只需限制梯度范数以确保DQN学习的稳定性。
图2:所提出的选择性抖动说明。(a)来自干净数据的原始点。(b)深度选择抖动(DSJ)向随机深度范围添加高斯噪声。(c)角度选择抖动(ASJ)向随机角度范围添加高斯噪声。(d)范围抖动在范围方向添加高斯噪声,并与经过DSJ或ASJ处理的点一起使用。
LPD模块通过将来自SJ增强数据的增强损失
和从逻辑值派生的熵
相加来定义其当前状态。损失
是使用正在使用的模型所采用的原损失函数计算的。熵的计算方法如下:
在这个过程中,
表示每个点,
是对逻辑值应用softmax。
表示点的数量。LPD预测要删除的点的索引,输入是添加到输入点张量的
和