专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

在 Jetson 嵌入式平台上对各种3D神经网络进行了基准测试，语义分割 | 在自动驾驶中实时LiDAR语义分割，我们准备好了?

智驾实验室 · 公众号 · · 2024-10-24 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

在自主移动和机器人系统的感知框架中，由激光雷达（LiDAR）生成的3D点云语义分析通常对于许多应用至关重要，例如目标检测和识别，以及场景重建。

通过直接将3D空间数据与专门的深度神经网络集成，可以实现场景语义分割。

尽管这种类型的数据可以提供关于周围环境的丰富几何信息，但它也面临许多挑战：其非结构化和稀疏性，其不可预测的大小，以及其对计算资源的高要求。

这些特性阻碍了实时的语义分析，尤其是在资源受限的硬件架构上，这些架构构成了许多机器人应用的主要计算组成部分。

因此，在本文中，作者研究了各种3D语义分割方法，并分析了它们在资源受限的嵌入式NVIDIA Jetson平台上的性能和能力。

通过使用统一的训练协议和数据增强，作者进行了公平的比较，提供了Jetson AGX Orin和AGX Xavier系列在两个大规模户外数据集（SemanticKITTI和nuScenes）上的基准结果。

I Introduction

自动驾驶移动系统，包括自动驾驶汽车和移动机器人，需要在其环境中独立导航。自主操纵的一个基本先决步骤是对周围环境有充分理解，更准确地说，是分析场景的语义。

这类系统通常将环境感知为3D点云，这些点云通常使用激光雷达传感器获得。因此，语义分割在感知算法中具有首要重要性，即为3D点云中的每个点分配一个与其类别（例如行人、汽车、道路等）对应的标签，从而提供周围环境的细粒度细节。目前，语义分割主要采用深度神经网络，包括，并作为其他各种3D过程的基础结构（例如3D检测），从而使其成为感知算法的一个不可或缺的组成部分并成为作者的关注焦点。

尽管含有丰富的信息，但3D点集固有的几个挑战，如无结构格式、稀疏性（存在间隙和空区域导致不完整扫描）、以及大小和复杂性（包含大量点）。这些特性使得处理和理解3D点云在计算上非常昂贵，对于实时应用具有挑战性。

自动驾驶移动系统安全是首要任务，因此要求3D感知模块同时实现高语义分割精度和低延迟，因为这样的系统需要实时决策。然而，许多机器人应用中的硬件和计算资源受到系统尺寸、功耗和热量散发的限制，这使得复杂的、高度依赖资源的3D语义分割神经网络具有挑战性。

此外，嵌入式计算平台的硬件加速在将深度学习付诸实践方面发挥了重要作用。例如，NVIDIA Jetson平台在运行涉及图像分类和目标检测的神经网络方面提供了公认的性能，同时具有节能、轻量级和紧凑的特点。只要这些系统在实时性能方面表现良好，就可以轻松集成到移动自主和机器人系统中。

一些以前的研究已使用Jetson平台在AGX Xavier上进行语义分割[7]。此外，现有的基准主要针对点云分类[8]，目标检测[9]，或图像语义分割[10]。因此，作者在本工作中为Jetson AGX Orin和AGX Xavier上的大规模室外数据集SemanticKITTI[11]和nuScenes[12]提供了3D点云语义分割网络的基准。

为了确保公平的基准，作者开发了一个针对高端和嵌入式GPU的点云神经网络框架。在这个框架中，作者通过采用中的最佳实践，复制所有网络并调整它们的训练协议和数据增强。该框架还针对Jetson平台进行了优化，使其适用于实际场景。

II Related Work

3D Semantic Segmentation Methods

3D语义场景标注对于移动自主和机器人系统至关重要。它涉及将系统传感器获取的原始3D点进行分类，以提供细粒度的场景语义信息。相关方法通常可以分为：

基于视图的方法。这些方法建立在上游图像分割领域（重点关注用于分割RGB图像的卷积神经网络架构）之上，旨在处理通过旋转激光雷达获得的3D点云。这些方法将点投影到不同的视图上，以便在2D特征图上完全工作。

基于点的方法**[1, 6, 13]**关注于直接处理点而不是将其映射到中间表示。这些方法对于密集输入点云是有效的，但在处理稀疏户外点时，它们在其他方法面前稍显逊色，除了[1]之外，该方法在预测稀疏户外点方面展现了惊人的能力。最近，人们开始倾向于使用基于 Transformer 架构的方法[17, 18]。

稀疏卷积方法。许多工作利用点云中的稀疏性来执行稀疏卷积，在计算过程中完全排除空点云区域，从而减少内存消耗和计算费用 [2, 19, 20]，同时保持输出预测的有效性。

基于融合的方法 为了提高语义分割，这些方法要么将不同点表示和视角的优势结合在一个输入（3D LiDAR数据）[3, 14]中，要么将来自不同传感器的不同输入（摄像头和LiDAR）[21]融合，从而从中受益于它们各自的优势。

Embedded 3D Applications on Jetson Platforms

一些工作针对嵌入式Jetson设备上的3D点云应用。例如，[8]基准测试Jetson平台，包括Nano、TX1和AGX Xavier，用于3D点云分类，但仅在ModelNet-40，一个基于目标的3D目标合成和小数据集上检查PointNet[6]架构。[9]分析Jetson平台（AGX Xavier和Nano）上的深度学习基于3D目标检测，通过评估不同的YOLO版本进行。

此外，[22]提出了一个轻量级实时3D目标检测和跟踪系统，并在Jetson Orin Nano上对其进行了评估。因此，在嵌入式计算平台上实现各种最先进的3D语义分割方法仍然是一个挑战，这也是作者工作的主要关注点。作者针对表1中呈现的两种Jetson平台，即AGX Orin和AGX Xavier，因为它们在性能、效率和成本之间提供了平衡的折衷，具有不同的性能、内存和功耗水平，使其适合作为基准测试。

III Benchmark Setup

Datasets

作者专注于实时应用的语义分割任务，即移动自主和机器人系统。因此，作者针对两个大规模数据集SemanticKITTI [11]和nuScenes [12]进行户外语义分割研究，以应对实时自动驾驶车辆的感知应用中的挑战。

这些户外数据集的点云采集传感器是两种不同的激光扫描仪，它们在点云的密度/稀疏程度和总点数方面提供不同的点云特征。

Selected 3D Neural Networks

从第II-A部分中的每个类别中，作者选择一个方法，并从中创建一个轻量级变体以在嵌入式系统上获得性能提升，同时评估这两个模型在资源受限平台上的性能：

从基于投影的方法中，SalsaNext [4] 在与其他此类方法的比较中，提供了在分割精度和运行时间之间良好的折衷；它是基于从球面投影获得的LiDAR视图图像发展的，这是所有基于投影方法的基础。

作者还考虑了Wafflelron [1] 基于点的网络，这是一种仅依赖于密集2D卷积和通用MLP的最近提出的 Backbone 网络，使其在设计选择上比许多其他方法简单得多。它在SemanticKITTI [11]和nuScenes [12]等类别中表现出色，因此，在嵌入式系统中进行研究是值得的。

从稀疏卷积方法中，Minkowski [2] 提出了最通用的高维稀疏张量计算方法，利用点云中的稀疏性降低内存消耗并加速推理，同时采用3D卷积而不是2D卷积，因为2D卷积在几何和拓扑上存在损失。其他方法基于Minkowski [3, 19]，因此适用于基准测试。例如，SPVConv [3] 引入了稀疏3D卷积与点标MLP相结合，然后将两个 Level 的提取特征进行融合，以更好地分类小实例并提高整体准确率。这种基于融合的方法也得到了研究。

Experimental Setup

作者首先在NVIDIA GeForce RTX 4090上训练模型，然后仅在嵌入式系统上测试它们的推理能力。

对于Waffelron [1]，模型表示为WI- - ，其中为总层数，为从嵌入层生成的点 Token （point tokens）的维度。该嵌入层输入每个点（如LiDAR强度、高度和范围等）的低级可用的特征，并使用个邻居合并它们周围的全球和局部信息，最终提供具有与每个点关联的维 Token 的点云。获得的 Token 将通过一系列 Token 混合和通道混合（每个点共享一个MLP）层更新次， Token 混合部分的核心组件包括一个沿着主轴的2D投影、一个在2D网格上的特征离散化以及一个使用2D密集卷积建立的feed-forward网络。

作者采用以下配置：对于SemanticKITTI，所有层在大小为的2D网格上进行投影；对于nuScenes，第一层、第二层和第三层的 Baseline 序列分别为、和投影，重复直到达到，此时在大小为的2D网格上进行、和投影。作者评估了Waffelron的两个模型，即 WI-48-256 和 WI-12-128 。

关于Minkowski，作者使用MinkowskiUNet42（ MinkNet ），这是一种广为人知的架构，并在[1, 3, 19, 20]中广泛引用，用于3D语义分割。作者将茎、编码器和解码器的通道数分别指定为32、[32, 64, 128, 256]和[256, 128, 96, 90]，并将 Voxel 大小设置为所有数据集的5cm。同样， SPVCNN [3]基于MinkowskiUNet42构建，通过使用高分辨率点分支封装其残差稀疏卷积块。作者训练了每个网络的两个模型，其中第二个模型通过在每个层削减3D稀疏卷积的所有输入和输出通道，分别得到 MinkNet_0.5 和 SPVCNN_0.5