城市场景的激光雷达数据具有独特的挑战,例如异质特性和固有的类别不平衡。因此,需要大规模数据集以应用深度学习方法。实例增强(instance augmentation)已作为一种有效的方法来增加数据集的多样性。
然而,目前的方法需要耗时繁琐的3D模型编辑或昂贵的手动数据标注。为了克服这些限制,作者提出Text3DAug,一种利用生成模型进行实例增强的新方法。
Text3DAug不依赖标记数据,并且是第一个仅使用文本生成实例和标注的方法。这使得完全自动化的流水线成为可能,无需在实际应用中进行手动工作。
此外,Text3DAug与传感器无关,无论使用哪种激光雷达传感器都可以应用。
对激光雷达分割、检测和新类发现进行的全面实验分析表明,Text3DAug可以有效地补充现有方法或作为单独方法,与现有方法相当或更好地运行,尽管克服了它们的特定缺点。
I 引言
激光雷达传感器可以感知环境的三维,对于诸如自动驾驶、机器人、制图和各种工业应用等任务至关重要。虽然深度学习应用已经成为许多任务的默认标准(例如激光雷达检测和分割),但数据仍具有独特的挑战。
首先,激光雷达数据异质性高,依赖于传感器的特性。点云结构和分布根据扫描线条的数量、视场、旋转频率、安装高度等有很大差异。这导致当在一种传感器的数据上训练深度学习方法后,将其应用于另一种传感器的数据时,性能显著下降。这种所谓的传感器域间隙是3D点云的独特现象,正在进行研究如何预训练网络在不同数据集上或使多个数据集训练成为可能 。
其次,LiDAR点云中存在固有的数据失衡现象,这是由于多种因素的综合影响所致。在城市场景中,例如建筑比小型物体或个人占据更多的点。由于垂直LiDAR扫描线的发散对齐,点云密度随着物体距离的增加而降低,这意味着在一定距离之外,小型物体由很少或根本不存在的点表示。这将长期影响网络性能的感知范围[3]。这种现象加剧了难以获得深层学习方法所需的足够的数据点的问题。例如,SemanticKITTI数据集中建筑点比代表人的人点多709倍,摩托车比多16,205倍。
这些挑战需要大量且多样化的数据集以利用深度学习方法对LiDAR数据进行处理,以确保所有类别有足够的数据点。数据增强是一种标准技术,可以人为地增加数据多样性,而在LiDAR扫描的背景下,实例增强已成为解决数据失衡的有效方法。具体而言,通过从不同扫描中“剪切和粘贴”目标实例(例如SemanticKITTI的道路参与者)来增强训练数据。然而,这种概念的实际应用需要满足严格的条件。创建实例切口需要语义和实例标签,但由于涉及到额外的维度,与图像数据相比,标记点云数据所需的时间要多得多[4]。
用于切割实例的标记数据必须具有足够的目标类物体,这可能会受到数据不均衡性的影响,可能需要进一步的数据收集。此外,这些实例保留了它们原始位置、LiDAR传感器和可能的遮挡的点结构以及减除值。此外,如传感器域间隙、不同语义类别或缺失实例标签等额外因素意味着来自其他数据集的物体很少可以利用。
在这项工作中,作者解决了上述限制,提出了Text3DAug作为第一全自动化且无需标签的实例增强方法(请参阅图1)。作者的目标是将Text3DAug确立为现有方法的实践替代或补充方案。
作者的方法和其贡献可以概括如下:
Text3DAug 是使用生成模型进行实例增强的 pioneer,作者对作者的新流水线在激光雷达分割和检测基准测试上进行了全面评估。
Text3DAug 不需要标签或运动轨迹信息。作者的实例引擎是完全自动化的,可以自动生成大量带有标注的实例,无需手动操作。这种方法使作者能够扩展作者的方法,能用数千个实例进行增强。
作者的方法根据传感器的特性实现实例的合理放置和渲染。因此,Text3DAug 是传感器无关的,作者在多种数据集上对其进行了评估。
作为一个提示型方法,Text3DAug 不受数据集类别的限制,适合对无标签的新类别进行无监督训练。作者在新类发现实验中对其进行了评估。
II Related Work
LiDAR点云的自然不平衡性使得深度学习需要广泛而多样化的数据集。模拟数据已经成为获取真实世界数据的有效替代方案。此外,数据增强,包括特别有效的实例增强,已经成为提高数据多样性的标准方法。
Data Simulation
数据模拟作为一种自然且经济的替代数据获取与标记的数据收集流程,越来越受到重视。模拟器如SYNTHIA [5]和Carla [6]是基于游戏引擎开发的,其他则基于现有的视频游戏扩展 [7, 8]。模拟器可以在各种照明和天气条件下生成数据,具有不同的动态目标行为和新的视点,从而收集不同传感器模态下的多样化数据。然而,在3D资产创建、真实场景放置、动态动画和渲染方面,模拟场景需要大量的手工努力。
虚拟KITTI [9]和LiDARsim [10]使用现实世界的激光雷达扫描来初始化数字孪生,但仍然依赖手动标记的数据来转移目标类别和位置。尽管合成数据似乎有许多优势,但合成数据和现实世界数据之间存在明显的差距,导致显著的性能差异 。目前,使用合成数据的方法落后于使用一些真实标记数据的方法,甚至落后于使用大量数据集的方法 [12]。因此所谓的“sim2real”方法努力将真实的激光雷达特性映射到合成数据 或将真实数据混合到训练过程中 [13, 15]。
LiDAR-Aug [16]将合成CAD模型插入真实的激光雷达点云中,然后进行光束投射。然而,LiDAR-Aug需要花费成本进行整理或手动创建这些模型。此外,CAD模型本身可能在质量和细节(顶点数和详细程度)以及坐标系统定义等因素上有所不同。例如,CAD模型的网格轴不一定与真实中心点对齐,而是由目标类别和标准(例如ISO8855 [17]将汽车的后轴定义为车辆的中心)决定,需要进行后期处理。最后,大多数模拟方法,包括LiDAR-Aug,都没有考虑到CAD模型中不包含的激光雷达衰减值。
Instance Augmentation
实例增强是一种重要的步骤,可以增加3D点云数据多样性,尤其是对于低表示类,这在生命安全关键应用,如自动驾驶中至关重要。Yan等人[18]的开创性工作奠定了基础,创建了用于激光扫描的“切剪粘贴”真实实例数据库。Zhou等人[19]通过过采样罕见的类实例并向其中添加局部实例变换,进一步扩展了这个概念,以最大化数据变异性。然而,“切剪粘贴”方法保留了原点相对于激光传感器的原始位置的点分布和结构。点云中扫描线的辐射导致物体离传感器越远,点密度越低。将实例放在传感器更近或更远的位置,与周围的点密度不同。这些问题,结合实例的随机放置,导致激光扫描中不切实际的表示。后续工作[20, 21]通过根据点云的射程视图表示删除被添加实例覆盖的点,增加了一些逼真度。然而,根据网格角分辨率,射程视图表示可能导致数据损失。
Real3DAug[22]预先计算位置和 Mask 图,以识别合适的情景位置,但存在显著的局限性。这些图是禁止的,时间和计算上都非常昂贵。因此,在训练之前,数据集要修改一次,意味着增强在每个时代都是相同的。除了轨迹和标记的实例外,Real3DAug还需要为它的图添加进一步的语义标签,无论激光感知任务如何,因为其放置策略在道路和人行道等不同地面类型之间有所不同。在进行放置时,实例方向基于估计的边界框计算,因为激光数据只覆盖物体的传感器面。
III Approach
作者提出了一些关于激光雷达实例增强(LiDAR Instance Augmentation)当前最先进状态的关键观察:首先,“剪切粘贴”式实例增强(instance augmentation)方法依赖于点云语义和实例标签的可用性。其次,(这些方法的实例数量)受到数据集大小和变异性的限制。第三,(获取CAD模型而非实例切片)可能耗时且代价高昂,这些模型可能需要后处理并可能在质量上有所不同。
因此,作者提出了Text3DAug,这是一个完全自动化且无标签的实例增强 Pipeline ,这是首次利用生成模型进行3D内容创建。第III-A部分描述了作者的标准化提示配方,作者使用它从文本到3D模型生成目标网格,然后自动进行后处理、评估和标签。作者的实例生成引擎在第III-B部分和图2中描述。增强时,网格会被随机选择,然后放置并渲染到激光雷达点云中的实例,这些算法描述在III-C部分。此过程在图1中进一步阐述。Text3DAug旨在模块化,以允许其组件根据未来的研究发展进行修改和扩展。
Prompting
最初,作者探索了使用来自大型语言模型(LLM)的提示来生成文本到3D模型。然而,作者观察到,LLM生成的包含多个属性的提示,例如“一个戴帽子的男人正在走路并拿着雨伞”,导致在各种生成模型上生成的网格无法区分。相比之下,如“一个正在走路的男 人”这样的简单提示产生了可信的结果。基于这一观察和考虑效率,作者认为使用LLM是过度的,并因此设计了一个固定的提示配方。对于所需的目标类别,作者定义了一个包含同义词(如果有应用场景)和品牌名称的数据存储,例如,对于类别 car:_sportscar_,
convertible
,
sedan
,
SUV
,
Ford
, 等。由此,构建提示指令,并添加如大小和颜色等属性以提供上下文。利用这个配方,作者对类别 car 随机采样提示,如“生成一辆大红色跑车”。
作者观察到简单的提示表现更好,这一观点得到了现有研究的支撑。生成模型在包含概念或多个属性的提示上存在困难。具体地说,这个问题源于公共数据集的文本标注粗糙,只包含颜色和大小等少数属性,或者源于网格优化过程中的缺点导致不精确的几何结构。随着生成模型在3D内容领域的研究和数据的增加,更多的复杂提示策略将成为可能。
Instance Generation
通过采用上述提示方法,作者利用预训练的文本到3D模型为所需类别生成目标网格。这些网格被添加到数据库中, later用于 LiDAR 扫描的实例增强。通过重新生成网格,作者在训练过程中实现了高效的增强。文本到3D模型的一个显著优势是生成的网格具有特定的方向。与方法 Real3DAug [22] 不同,方向不必从部分的 LiDAR 数据中估计。作者利用这一特性来推导精确的边界框标注。这通过在轴向上对齐网格并将它们转换为通用坐标系,然后根据轴边界框拟合边界框。网格顶点缩放到最大高度为1。这后来允许在放置实例时进行实例高度的随机化(请参阅第III-C节)。作者为目标类别分配使用提示的类别。
网格质量根据 CLIP 分数 [31] 自动评估。由于 LiDAR 数据无需颜色信息,作者用估计表面法向量推导的纹理替换网格纹理,然后从四个视角(正面、后面、两侧)渲染网格。去除纹理鼓励 CLIP 专注于形状。这些四个视角(正面、后面、两侧)与所需类别以及诸如
无任何此类
或是
无效
这样的空类相比 CLIP 相似度。与提示类对应的最高分数被视为质量值。这种方法基于某些类别具有比其他类别更具有代表性的观点的理解。例如,一个人最好从正面识别,而汽车可能从侧面看到更好。作者在此部分 IV 中评估 CLIP 对于这项任务的有效性。作者的实例生成引擎如图2所示。
放置和局部增强
作者提出了Text3DBase算法,该算法在3D点云中引入了一种系统的实例放置方法。关于此过程的详细信息,请参见算法1。首先,从已创建的数据库D中,根据所需的类C采样n个随机目标网格,以确保目标的多样化表示。为了增加现实感,作者根据物体的距离对LiDAR数据进行映射,并将其表示为R。这种方法使得可以无监督地获取真实的反射值。对于网格的顶点,作者通过采样距离每个顶点相对其放置位置的每个顶点与R的范围的相关随机值来分配反照值。
每个网格经历一个随机局部变换,包括在一个类别相关的大小小范围内进行高度缩放,然后是旋转,以反映出实际世界数据的随机性。接着进行自由空间分析,将点云P及其顶点转换为极坐标。选择一个物体到传感器的随机放置距离r,然后从网格中导出相对方位角跨度ΔΦ(r)。作者的算法根据ΔΦ和网格高度过滤点云P的极坐标,划分可行区域。然后,随机选择一个区域并将网格放置在其中。如果没有找到区域,则重复该过程,选择不同的物体距离。找到合适的区域后,作者考虑网格上方和下方所有点,并用这些点的最小z坐标zmin作为估计的地面水平。如果没有找到点,作者还在网格周围的区域进行搜索,直到确定zmin。接下来,使用zmin调整网格的z位置,使其与地面对齐。作者发现这种方法特别有效,能够让网格无缝地集成到城市景观中,例如,准确地将目标放置在人行道或斜面上。通过这种放置算法,网格被插入到点云中,尊重其现有的结构和空间约束。最后,为了实现现实感,对每个垂直扫描线(环线)计算Φmin和Φmax,并使用这些作为在网格前面或被其遮挡的点去除的界限。
放置后,实例从网格中通过基于激光雷达传感器参数的射线投射生成,这对于模拟真实的点分布至关重要。通过引入噪声权重
和点流失概率