专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

3DLabelProp: 用于自动驾驶的激光雷达语义分割的几何驱动域泛化 !

智驾实验室 · 公众号 · · 2025-03-03 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

领域泛化旨在探索深度学习模型在训练集和推理集之间存在显著领域差异时仍能保持性能的方法。这对于需要鲁棒性或训练成本较高的模型尤为重要。

在自动驾驶中的激光雷达感知受到这两方面的挑战，从而催生了多种方法的出现。

本研究通过提出一种基于几何的方法来解决这一挑战，该方法利用了激光雷达传感器的序列结构，与文献中常见的基于学习的方法不同。

所提出的方法被称为3DLabelProp，应用于激光雷达语义分割（LSS）任务。通过在七个数据集上的广泛实验，证明该方法是目前最先进的方法，优于朴素方法和其他领域泛化方法。

引言

领域泛化在激光雷达语义分割领域受到了广泛关注，因为深度学习方法在单个数据集上已取得了令人满意的性能。随着可用数据集数量的增加，对能够执行跨数据集分割的模型的需求也在不断增长。

现有方法[1]-[4]主要基于学习，在训练阶段采用策略以提高领域泛化性能。然而，由于评估跨领域语义分割的挑战，每种方法都引入了自己的标签集，使得跨方法比较变得困难。因此，新研究从这些方法中获取洞见变得具有挑战性。

在作者之前的研究[5]《自动驾驶中3D语义分割的领域泛化》中，作者做出了两项关键贡献：作者引入了第一个针对激光雷达语义分割领域泛化的基准，并提出了一种解决该问题的方法。作者提出的新方法3DLabelProp基于这样的理念，即通过基于几何的策略而非学习策略来增强领域泛化，从而得到更直观的技术。

在本研究中，作者基于先前的研究[5]，通过规范实验设置，阐述假设和决策，进一步深化了作者的研究。为此，作者引入了伪密集点云，这是3DLabelProp的基础要素，并对其优势与局限性进行了分析（见图1）。这使得作者能够提供对3DLabelProp的更详细解释和评估，以及新的消融研究。此外，作者还扩展了领域泛化基准，纳入了更多数据集，将目标激光雷达数据集从五个增加到七个，从而得出更全面的结论。

本工作的贡献如下：

介绍相关概念和术语，以促进对户外激光雷达感知领域中领域泛化的理解和评估，研究伪密集点云，突出其在激光雷达语义分割（LSS）领域泛化中的优势与局限，对当前LSS领域中最先进的神经网络模型和领域泛化方法进行基准测试，为3DLabelProp方法提供新的见解，实现伪密集点云的高效处理。

第二章：相关研究工作

激光雷达语义分割（LiDAR Semantic Segmentation，简称LsS）

由于点云数据本身缺乏内在顺序，传统的基于图像的视觉技术不能直接应用于激光雷达数据。

深度学习的第一种方法依赖于排列不变的操作来处理点云，无需预处理。基于MLP的方法[6]-[8]在点 Level 应用共享的MLP。其他方法则重新定义了顺序不变的卷积[9]、[10]。这些方法通常涉及大量的邻域计算，使得它们耗时较长，更适合离线点云语义分割。其中，KPConv[10]作为表现最出色的技术之一而脱颖而出。

另一种方法通过重构点云以获得有序表示。一些方法将激光雷达点云投影到二维，例如基于距离的方法[11]-[13]和鸟瞰视图方法[14]，这些方法通常非常快速。其他方法将点云表示在三维规则网格中，并应用三维卷积，尤其是使用稀疏卷积如SRU-Net[15]，这可以减少基于 Voxel 方法对内存的消耗。

稀疏卷积已扩展到Cylinder3D[16]中的圆柱 Voxel 和混合表示，例如SPVCNN[17]中的点- Voxel 方法。尽管比二维方法慢，但基于 Voxel 的方法在合理速度下提供了更高的精度，因此成为了激光雷达语义分割的首选选择。

伪密集点在自动驾驶（蓝车）中的激光雷达语义分割领域泛化

基于序列的语义分割

之前提到的方法是单独处理激光雷达扫描。然而，对于自动驾驶来说，数据更像是一个点云流，类似于视频。不是将每个扫描视为独立的数据，这种输入可以被视为一系列点云。利用这种表示方法的方法被称为基于序列或4D方法。

在这些方法中，ASAP-Net[18]通过在连续帧之间使用时间注意力机制来分离空间和时间交互。SpSequenceNet[19]将先前点云的特征图与当前特征图结合。在[20]中，采用循环神经网络（RNN）来保留过去的信息。

虽然早期方法在特征 Level 整合了时间信息，但其他方法则将其纳入几何 Level 。MeteorNet [21] 和 PSTNet [22] 重新定义了卷积操作，以便在计算中考虑过去的数据点。Helix4D [23] 将点云序列表示为超圆 Pillar ，并在此新定义的空间内处理点。文献[24]和[25]利用同步定位与映射（SLAM）技术将每个点云对齐到同一参考框架中，将所有点视为统一的三维空间的一部分，并将时间性作为输入特征表示。

与上述后者类似，3DLabelProp [5] 将注册序列处理为一个单一的3D点云，并应用现有密集点云文献中的方法来进行分割。

激光雷达领域泛化

领域泛化在机器学习中得到了广泛研究，并被应用于包括自然语言处理和二维计算机视觉在内的多个深度学习领域。由于这些领域超出了本工作的范围，作者建议读者参考[26]、[27]以获取全面的综述。在此，作者将采用他们提出的分类法来区分不同的领域泛化方法。

翻译：方法可以根据两个关键因素进行区分：可用于训练的数据以及用于提升泛化性能的策略。

在数据可用性方面，方法被分为单源或多源。至于泛化策略，主要方法包括元学习[28]、多任务学习[29]、数据增强[30]、神经网络架构设计[31]和领域对齐[32]。所有这些策略在二维任务的应用中已经得到了广泛的研究。

在自动驾驶场景下进行激光雷达（LiDAR）场景理解的研究中，仅有少数工作关注了领域泛化。特别是在语义分割领域，显著的方法包括Complete&Label[4]、3D-VField[3]、[33]、DGLSS[1]、LIDOG[2]和COLA[34]。COLA[34]是一种多源方法，通过重新 Token 和连接各种数据集来创建更大的数据集。他们强调，训练集中这种更大的多样性提高了泛化性能。MDT3D[35]也同时利用多个数据集，但它是专门为目标检测设计的。此外，[36]探讨了在退化条件下方法的有效性，但由于该研究范围有限，仅限于从SemanticKITTI[37]构建的合成数据集，因此作者将不深入探讨这一特定工作的细节。

在这些方法中，与作者最为接近的三种方法是Complete&Label [4]、DGLSS [1]和LiDOG [2]。作者将对这些方法进行更详细的介绍，并将它们与3DLabelProp进行比较。

C&L[4]专注于通过学习一个补全模块来实现领域对齐，允许在规范领域内处理扫描，特别是完成的领域。

DGLss [1]结合了领域对齐和数据增强策略。它在训练过程中引入了激光雷达线丢弃，并通过原始扫描强制执行领域对齐。此外，它还实现了IBN-Net [31]和MLDG [38]用于3D语义分割，突出了它们的低效性，并强调了需要专门为3D设计的算法。

LiDOG [2]是一种多任务方法，试图利用不同传感器获取的低分辨率鸟瞰图中扫描之间的相似性，以帮助推广基于 Voxel 的语义分割模型。

三、3D领域的域泛化

领域泛化是指模型不仅在训练过程中遇到的领域上表现良好，而且在推理过程中对未见过的新的领域也能良好表现。在三维领域，领域泛化相对较少受到关注，尤其是在与三维领域自适应相比时。这两个领域的关键区别在于，领域自适应假设可以访问目标分布的示例以微调模型。

在二维图像领域，领域差异可能源于色彩、光照条件、季节变化、视角差异，或场景中存在不同类型的物体等因素。这些变化统称为领域偏移。

在激光雷达数据语义分割的情况下，领域偏移与相机2D图像的领域偏移有所不同。激光雷达本质上对光照和颜色变化不敏感。激光雷达领域偏移通常可以分为三大类：

外观变化、场景变化、传感器变化。

environmental changes: 这包括场景元素视觉特征的所有变化。植被、车辆和建筑对这些变化最为敏感，因为它们的外观可能会因季节变化、地理差异以及一天中的时间不同而有所变化。

在图2中，通过德国和美国卡车的例子说明了外观变化。尽管两者都服务于相同的目的——在其车尾携带大物件，但它们的视觉外观存在显著差异。

场景转换：它包括与场景构图变化相关的两种类型的变化。首先，它涉及在不同环境中预期出现的物体类型的变化。例如，交通信号灯在城市地区很常见，但在高速公路上却很少见。其次，它反映了道路使用者行为的变化，这可能会影响场景中各种元素的位置和数量。

第二点在图3中得到了体现，图中行人被突出显示。在校园场景中，行人几乎随机地分布在整个区域内，而在郊区场景中，他们大多被限制在人行道上。

传感器偏移：尽管由于焦距和曝光时间等因素，传感器偏移在相机中也会发生，但对于激光雷达传感器来说，这种现象更为明显。

传感器偏移涵盖了所有与传感器相关的领域变化来源，包括传感器技术（旋转式与固态）、垂直和角度分辨率以及视场等内在特性，以及传感器在采集设备上的放置等外在因素。

传感器漂移问题因数据集提供者对最佳传感器配置和模型的共识缺失而被进一步放大。因此，可以在每对数据集之间观察到传感器漂移现象。

作者在图4中展示了传感器偏移现象。该图展示了使用不同传感器从PandaSet数据集[4]中同步获取的同一场景的两个采集结果。尽管场景和外观没有发生偏移，但生成的扫描结果明显不同。

图4. 传感器偏移示意图：这两个扫描同时从PandaSet数据集[41]中获取。左侧是固态激光雷达的扫描图像，右侧是64束旋转激光雷达的扫描图像。

B. 数据集

表1列出了本研究中用于激光雷达语义分割领域泛化数据集的信息。P64指的是由PANDAR64LIDAR传感器（64束旋转）在PANDASET中捕获的扫描数据，而PFF则指的是来自PANDARGT激光雷达传感器（前向固态）的扫描数据。

虽然来自模拟器如GTA V[44]或CARLA[45]、[46]的合成数据集具有诸多优势，尤其在标注方面，因为它们不易受到标签偏移[47]的影响，但合成到现实领域的差距仍然未得到解决[48]，这超出了本研究范围。在此，作者专注于现实世界的数据集，具体包括：SemanticKITTI[37]、nuScenes[39]、Waymo[42]、SemanticPOSS[40]、PandaSet[41]和ParisLuco3D[43]。

作者将这些数据集进一步分为两组：训练数据集（SemanticKITTI、nuScenes）和评估数据集（SemanticPOSS、PandaSet、Waymo、ParisLuco3D）。选择训练数据集是因为它们在文献中的规模和重要性，因为SemanticKITTI和nuScenes通常被用于基准分割方法的测试。此外，作者还使用了SemanticKITTI-32，这是SemanticKITTI的一个子采样版本。这个数据集对于评估对传感器位移的敏感性至关重要，特别是获取分辨率的变化，而不会引入外观或场景位移。先前的研究领域泛化主要集中在更小的一组数据集上，导致对领域位移的探索更为有限。

PandaSet [41] 是一个独特的数据集，因为它使用了两种不同技术的同步激光雷达传感器进行收集：一种是旋转式激光雷达，另一种是固态激光雷达。在本工作的其余部分，这些采集将被分别处理，并分别称为 Panda64（P64）和 PandaFF（PFF）。

在表1中，作者提供了各种数据集的元数据摘要。该表突出了采集地点和场景类型的多样性，这对于研究领域泛化至关重要。

：汽车、自行车、摩托车、卡车、植被、人行道、道路、人、骑自行车的人、骑摩托车的人、车身、其他车辆、标志、杆、建筑、其他地面

·snsp：人、自行车、汽车、地面、植被、人造物体

·LNsnPs：两轮车、行人、可驾驶地面、人行道、其他地面、人造物体、植被、四轮车

·LNsnw：汽车、卡车、公交车、其他车辆、摩托车、自行车、行人、交通锥、人造物体、植被、可驾驶道路、人行道、其他地面

跨数据集评估具有挑战性，因为每个数据集都有独特的标签集。此外，正如[43]所指出的，为了确保公平的评估，必须考虑标签偏移。考虑到这一点，作者创建了九个独立的标签集，专门用于评估。

标签集

为了评估领域泛化性能，作者将使用每类交集-并集（IoU）和平均交集-并集（mIoU）。由于mIoU依赖于所使用的标签集，作者将明确说明标签集和评估方法。

例如，当评估从在SemanticKITTI上训练并在PandaSet上进行测试的模型进行的领域泛化时，作者将使用标签集来计算mIoU，并在某些表中将结果表示为，其中P64表示PandaSet。

IV.3D标签属性

A. 动机

正如相关工作部分所述，近期关于LiDAR领域泛化方法主要集中在解决对3D传感器数据变化的敏感性问题上。遵循相同的方法，作者的目标是确定一个规范域，其中传感器偏移最小或几乎不存在。C&L（Complete & Labels[4]）采用一个学习到的场景补全模型来定义这个规范域。虽然这个概念很有趣，但在领域泛化的背景下，它仅仅是将对鲁棒性的要求从语义分割转移到场景补全。作者认为这种方法不足以持续地识别出规范域。

在这项工作中，作者提出利用自动驾驶数据集的顺序性来构建伪密集点云。这些伪密集点云通过执行激光雷达里程计并组合多个连续的激光雷达扫描生成，从而得到局部密集的点云，预计这些点云受传感器位移的影响较小。这种方法假设3D配准过程对传感器位移具有鲁棒性；否则，作者将遇到与C&L相似的局限性。激光雷达SLAM在自动驾驶应用中已显示出对传感器变化的鲁棒性[49]，有助于缓解这一问题。

在图1中，作者展示了伪密集点云。在这个伪密集域中，道路和建筑物几乎无法区分，而在单扫描域中，由于传感器拓扑结构的显著变化，它们表现出明显的差异。

尽管作者预期在伪密集域中进行操作将有助于减轻传感器漂移并从而提升领域泛化性能，但这种方法也存在其不足之处。伪密集方法产生的数据量远大于单一激光雷达扫描，导致处理时间更长。为了解决这个问题，加速策略对于提高处理效率至关重要。

作者的领域泛化方法3DLabelProp，在整合多个几何模块，尤其是标签传播和聚类模块的同时，利用伪密集点云来加速处理，同时保留所有密集信息。

伪密集点云

为了研究伪密集点云，作者的分析集中在两种语义分割方法上：SRUNet [15] 和 KPConv [10]。这些方法分别是LiDAR扫描和密集点云语义分割的标准方法。SRU-Net还被用作其他领域泛化方法的 Backbone 网络，包括DGLSS [1] 和LiDOG [2]。

为了验证作者的初步假设，即伪密集点云将增强领域泛化性能，作者对两种模型分别进行了训练，训练数据要么是单个激光雷达扫描，要么是伪密集点云。伪密集点云是通过将前20次扫描与当前激光雷达扫描结合使用CT-ICP[49]（一种鲁棒的激光雷达SLAM技术）生成的。

在表2中展示了训练模型的领域泛化性能的定量比较。由于数据格式限制，使用伪密集数据的KPConv无法在Waymo上进行测试。此外，使用伪密集数据的SRU-Net在Panda64上无法进行推理，因为它持续超出可用的计算资源（Nvidia RTX 3090），这突显了伪密集点云的另一个挑战：内存消耗高。

首先，作者发现大多数情况下领域泛化性能有显著提升。值得注意的是，在SemanticKITTI-32上评估时，与在SemanticKITTI上的表现相比，基于伪密集点云训练的模型没有性能下降，这支持了作者的假设，即伪密集领域几乎不受传感器偏移的影响。此外，伪密集方法能够从PandaFF（PFF）中提取有意义的信息，而单扫描方法则无法做到这一点。然而，使用伪密集点云对源到源性能有负面影响，因为伪密集方法始终比单扫描方法表现得更差。

表二展示了KPCONV [10]和SRU-NET [15]在处理单个激光雷达扫描数据与伪密集点云之间的速度比较，对比了NUSCENES和SEMANTICKITTI数据集。10Hz和20Hz是针对SEMANTICKITTI和NUSCENES数据集实现实时方法的预期目标。

在前一小节中，作者提到由于点数增加，伪密集方法预计会较慢。在表二（表e II）中，作者根据输入类型比较了在nuScenes和SemanticKITTI上的处理速度。结果显示，处理速度从单次扫描的较好或尚可，到伪密集输入的不充分或较差不等。

尽管激光雷达方法通常对传感器漂移具有鲁棒性，但考察伪密集方法对SLAM失败的反应仍然很有意义。在表4中，作者使用人工噪声的SLAM位置来模拟较差的轨迹估计，评估了使用伪密集输入的SRUNet。加入的噪声远高于典型水平，以模拟失败的SLAM。作者发现，与单次扫描结果相比，性能持续下降，对低分辨率传感器（nuScenes和ParisLuco3D）的影响更为明显。在本研究的剩余部分，在任何测试数据集中均未观察到失败的SLAM轨迹。

总结来说，伪密集方法在领域泛化性能上取得了令人满意的效果，但在源到源的性能和处理速度上表现不佳。3DLabelProp旨在解决这些局限性。

C.3DLabelProp算法

3DLabelProp借鉴了2D视频语义分割技术，该技术区分两种类型的帧：简单帧，可以使用光流轻松分割；以及复杂帧，需要由语义分割模型进行处理。

同样，对于伪密集点云，作者区分两种类型的点：简单点，可以通过几何方法进行分割；复杂点，需要通过学习模型进行加工。几何方法比学习模型快得多，因此作者旨在最小化学习模型需要处理的区域。

直观上，简单的点对应于静态物体。因为这些物体在全球参考系中跨帧保持静止，作者可以利用过去的数据来识别这些物体的新样本。静态物体已被先前采样的假设称为4D邻近假设，该假设认为新采样的点具有来自同一物体的4D邻近点。对于这些点，作者可以从之前的帧应用基于最近邻的传播到当前帧。

复杂点对应动态目标，这些目标在全球参考框架内移动，以及新采集的目标。这些点在伪密集点云中缺乏有意义的邻近点，因此需要通过学习模型进行处理。不将4D邻近假设应用于移动目标至关重要，因为它们在全球参考框架中先前帧的邻近点可能属于不同的目标，这是由于拖尾现象引起的，如图5所示。

3DLabelProp方法（如图6所示）依赖于将新获取的激光雷达扫描与之前扫描的伪密集点云进行配准，这一伪密集点云被称为参考点云。本工作中并未涉及这一初始配准步骤：作者一致采用激光雷达SLAM方法CT-ICP[49]。参考点云由使用CT-ICP配准的先前次扫描组成。是该方法的超参数，默认设置为，作者在消融研究中展示了其对方法精度和速度的影响。

3DLabelProp方法随后被分为五个步骤：

1）标签传播：将先前分割的静态目标的标签传播到这些目标的新样本中。 2）聚类化：在点云中识别复杂区域，并将它们划分为个簇。 3）簇致密化：利用参考点云中的4D邻域对簇进行致密化。 4）簇分割：使用学习模型对致密化后的簇进行分割。 5）预测融合：融合来自几何模型和学习模型的预测结果。

在之前的算法中并未明确提及的一个方面是内存占用减少。尽管这一步骤在算法上并不具有显著意义，但它对于解决处理伪密集点云时已识别出的问题至关重要。参考点云使用5厘米网格进行下采样，每个 Voxel 保留一个点，超出采集范围（在此设置为75米）的点被丢弃。这一过程与激光雷达里程计同时进行。

作者将在下文中详细解释这五个步骤。

首先，作者需要将标签集划分为两个子集：一个用于动态目标，另一个用于静态目标。这两个子集不交叉，且。静态目标定义为不可移动的物品，如地面和建筑物。动态目标包括移动的和可能移动的物品，如行人和车辆。根据定义，静态目标在全局参考系中从一个扫描到下一个扫描保持静止。因此，通过定义一个足够小的邻域，作者可以假设两个相邻点正在采样同一个目标。

完成传播过程需要两个步骤：为每个点提取邻域，并根据该邻域分配标签和分数。邻域通过半径搜索提取，并通过将参考云 Voxel 化（在所有实验中，作者使用了的 Voxel ）来加速。 Voxel 化允许在时间内预先提取邻域。标签随后通过投票过程确定，每个投票的权重由分割分数和到目标点的距离决定。如果投票的权重过低，则将其丢弃，因为邻域被认为不可靠。如果投票的标签对应动态标签，则不分配标签，因为假设传播动态目标是不可行的。图7展示了传播模块。

正式地，作者引入，即由之前的激光雷达扫描组成的参考点云，为每个点的标签，以及，每个点的分割得分，表示为一个独热编码向量乘以相关标签的置信度得分。同样，作者定义、和为新获取的激光雷达扫描的对应值。最初，标签被设置为 -1，置信度得分为 0。然后作者可以将传播表示如下：

传播步骤的结果如图8所示。

在本文中，等于