专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
今日五莲  ·  名单公布!每人每月2000元! ·  20 小时前  
今日五莲  ·  名单公布!每人每月2000元! ·  20 小时前  
海南省教育厅  ·  解码《纲要》㉒ | 提升职业学校关键办学能力 ·  2 天前  
海南省教育厅  ·  解码《纲要》㉒ | 提升职业学校关键办学能力 ·  2 天前  
潮司电商客服外包  ·  快手小店 | 子账号及客服分流超详细设置教程 ·  2 天前  
潮司电商客服外包  ·  快手小店 | 子账号及客服分流超详细设置教程 ·  2 天前  
网信宝塔  ·  谨防孩子被流量“催熟” ·  2 天前  
51好读  ›  专栏  ›  智驾实验室

4D 激光雷达分割,同时分割多个目标,在多个激光雷达数据集上实现最先进水平 !

智驾实验室  · 公众号  ·  · 2024-10-26 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

交互式分割在促进未来激光雷达数据集标注过程中发挥着重要作用。现有方法在每次激光雷达扫描时依次分割单个目标,在整个序列中重复该过程,这是冗余且无效的。

在这项工作中,作者提出了一种交互式4D分割,这是一种新范式,允许在多个激光雷达扫描的同时分割多个目标,并提出了第一个交互式4D分割模型,该模型通过利用激光雷达数据的顺序性质,在一个迭代中同时分割多个目标,这些目标位于叠加的连续激光雷达扫描上。

在进行交互式分割时,作者的模型利用整个时空体积,从而实现更高效的分割。在4D体积上运行时,它可以直接提供一致的实例ID,并简化跟踪标注。

此外,作者还证明了点击模拟对于激光雷达点云上成功训练模型至关重要。

为此,作者设计了一种更适合激光雷达数据特性的点击模拟策略。

为了证明其准确性和有效性,作者在多个激光雷达数据集上评估了Interactive4D,其中Interactive4D在很大程度上取得了新的最先进水平。

在论文接受后,作者将公开发布代码和模型,链接如下:https://vision.rwth-aachen.de/Interactive4D。

I Introduction

深度学习方法的显著发展主要得益于大规模标注数据集的可用性,尤其是在二维领域。然而,标注大规模三维数据集仍然具有挑战性,主要原因是点云的大小和所需的手工人力[4, 9]。因此,标注三维数据集的数量较少,阻碍了3D模型的稳健发展。这强调了针对3D数据的有效标注方法的重要性。交互式分割提供了一种有前景的解决方案,通过允许用户以最小的工作量创建高质量标注。在这种方法中,用户通过稀疏的用户交互指导模型在点云中密集地 Token 每个点。

这激发了对3D交互式分割的研究。早期的努力主要集中在室内点云上,最初的工作[23]将任务定义为单物体交互式分割。在这种设置中,标注者分别对每个物体进行分割,通过为物体点击并提供其他区域的负点击,基本上将其视为二元分割问题。最近,[53]将任务重新表述为多物体交互式分割,其中标注者同时分割多个物体。在这里,一个物体的正点击天然地成为其他物体的负点击,更好地利用用户输入并提高效率。两种方法都只考虑交互式分割物体实例,即“事物”,而忽视了无定形区域,即“东西”。

尽管在室内点云上取得了成功,但户外 LiDAR 点云的交互式分割仍然被低估了。尽管最近的一些工作 [46, 15] 涉及了这一任务,但它们仍然遵循单一目标范式,而多目标范式已被证明更为高效。此外,它们将每个 LiDAR 扫描视为独立的实体,忽略了 LiDAR 扫描的顺序性。由于 LiDAR 传感器在高频率下工作,连续的扫描捕获重叠区域。因此,独立标注每个扫描是低效的,导致不必要的标注工作。此外,对每个扫描进行独立标注会使在连续扫描之间维护一致的实例 ID 变得更加复杂,这对于跟踪任务至关重要。

在认识到这些限制后,在本研究中,作者应用了“一次分割所有”的策略处理LiDAR数据,并提出了交互式4D分割,这是一种新范式,其中标注者同时对多个物体在多个LiDAR扫描上进行分割。为了展示这种范式的有效性,作者提出了Interactive4D,这是第一个在叠加连续LiDAR扫描上对“物体”和“东西”进行多目标分割的交互式4D分割模型。通过在整个4D空间-时间LiDAR体积上实现多目标交互式分割,这提高了效率。通过直接处理4D数据,Interactive4D天生保证了叠加连续LiDAR扫描上的实例ID一致(图1,右)。这使其在跟踪任务中高度适应,简化了LiDAR跟踪数据集的标注过程,同时也为未来的研究方向铺平了道路。

在交互式社区[23, 31, 53]中,通常使用模拟点击进行训练和测试。许多方法通常模拟一个总是在最大误差区域[22, 53, 53]的中心点击的用户,而其他方法则随机选择点击位置。这两种方法在LiDAR数据方面都有明显的局限性。前者需要较高的计算成本,导致运行速度较慢,而两种方法都难以处理小物体和大物体之间的稀疏性和大小变化,这在户外场景中是常见问题,通常导致分割质量较差。为了克服这些局限性,作者提出了一种新的点击模拟策略,用于训练和评估。通过考虑LiDAR点云的稀疏性,识别出最相关的点击区域,并有效管理小物体和大物体之间的规模变化,可以生成增强和缩放不变的点击模拟。

遵循[53, 53, 23]中的评估协议,作者在SemanticKITTI[4]上训练Interactive4D,并在多个数据集上评估其性能,以评估分布内和零样本性能。作者在单个目标、多目标和4D交互分割设置上报告结果,在各设置上均实现了最先进性能。为了评估实际泛化能力,作者将Interactive4D集成到用户界面[53]中,并进行了用户研究,参与者对选定场景进行标注。研究显示,Interactive4D不仅在模拟点击时表现良好,在实际用例中也表现出色。

总之,作者的贡献如下:

(1) 作者提出了一种交互式4D分割的新范式,该范式通过利用LiDAR数据的顺序性,一次对多个物体在多个扫描上的交互式分割。

(2) 作者引入了交互式4D,这是第一个能够准确分割空间-时间点云上的物体的交互式4D分割模型,同时还能为跟踪任务提供一致的实例ID。

(3) 作者设计了一种新的点击模拟策略,更适合LiDAR数据的特性。

(4) 在多个LiDAR数据集上,作者取得了最先进的性能,并通过与人工标注员进行用户研究,证明了交互式4D在实际标注案例中的有效性。

II Related Work

LiDAR 全景分割与跟踪 LiDAR 全景分割(LPS)将 LiDAR 点云的语义分割和实例分割统一起来。最近,它已经扩展到 4D LiDAR 全景分割[3],它同时执行语义分割、实例分割和跟踪。LPS 和 4D-LPS 方法遵循相似的算法范式。它们之间的基本区别是,LPS 方法针对单个 LiDAR 扫描操作,而 4D-LPS 方法主要针对叠加的连续 LiDAR 扫描进行操作以实现跟踪。

根据它是否操作单个扫描或叠加的连续扫描,Interactive4D 可以作为 LPS 或 4D-LPS 方法,前提是用户提供预测 Mask 的语义标签。它通过结合用户输入进行分割和跟踪,能够通过微调点击改进结果。

后来,作者证明 Interactive4D 在最小用户输入的情况下,在 LPS 和 4D-LPS 任务上都优于最先进的结果,并进一步通过额外的用户输入改进了它们。

交互式3D分割 2D交互式分割已经得到很好建立 [21],然而,将其应用于生成3D标签会导致由于视场角、视角和校准误差等因素产生的不完美 [26]。为此,InterObject3D [23]针对室内点云的交互式分割,专注于单物体的交互式分割。后来,AGILE3D [53]提出了室内点云的多物体交互式分割,极大地提高了效率。

受到[53]的启发,作者探索多物体交互式分割用于LiDAR点云,并进一步将多物体LiDAR交互式分割扩展到4D设置,以最大化效率。几项最近的工作 [46, 15]研究了户外LiDAR点云的3D交互式分割。

CRSNet [46]专注于交互式分割仅物体,并遵循LiDAR数据的单物体范式。ClickFormer [15]是一项并行工作,交互式分割物体和物品,通过在扫描过程中填充额外的增强点击来解决LiDAR数据中物体的规模差异,仍然遵循单物体范式。相反,Interactive4D旨在处理4D设置中物体和物品的交互式LiDAR分割,通过在空间和时间上充分利用上下文来最大化效率。

III Method

受到基于注意力的模型在交互式分割领域成功应用的启发 [53, 37],作者对这些模型进行了关键技术改进,以实现其在激光点云上的完全潜力,并引入了作者的交互式4D分割模型,如图2所示。为了清晰起见,作者使用矩阵符号描述了整个过程。

空间-时间点云。(图2, )作者首先将连续的LiDAR扫描在短时间内[t,t+τ]内叠加到一个单一的空间-时间点云 中。这种表示对于交互式分割有益:

(1) 静态物体在扫描之间保持相同的空间区域,标注它们变得更加高效,需要的点击次数更少以达到所需的准确性。

(2) 另一方面,动态物体表现为多个轮廓,反映了它们随时间的变化,通过将轮廓关联到单个点云中实现直观跟踪。

(3) 统一的点云相比单个扫描具有更高的点密度,使物体更加集中,更容易识别。这对于识别较小的物体特别有益,因为在稀疏的LiDAR数据中它们通常难以检测。

特征提取器。 作者将 Voxel 化,得到 ,以便使用在网格上的 3D 稀疏卷积进行高效处理。在 中,时间被包含为另一个特征,以区分来自不同 LiDAR 扫描的 Voxel 。为了提取每个 Voxel 的特征 ,作者使用了一种 3D 稀疏 U-Net [8],与 [19, 39, 50, 53] 一致。

点击编码器。(图2, )。给定第K次迭代的一组原始点击 ,点击编码器的目标是将 编码为点击 Query 。初始 Query 作为精炼的起点,应该捕捉用户旨在分割的区域的相关信息,以有效地表示。作者将其表示为:

QK^0 = E_f + E_{xyz,t} + E_k + E_{id} (i)

其中, 分别表示点击 Voxel 提取的特征和位置编码[47]。 表示点击顺序的迭代编码[48]。此外,与先前的作品[53, 15]不同,作者通过一个单独的 learned embedding 明确地编码相关目标的关联目标 ID。这使得与同一目标相关的点击在精炼过程中可以被识别为相关,并与其他点击区分开来。

精炼 。(图2, ) 该模块包括 个连续的点击注意力层,这些层分别精炼点击 Query 和 Voxel 特征 。在每个层中, 通过交叉注意力关注 。然后, 自注意每个其他。最后, 交叉注意 来精炼特征表示。这种逐步精炼在 层中重复,最终得到最终的

点击融合。在最终优化后, 的点积结果为点击响应图 ,表示每个 Voxel 对每个点击的响应。为了生成目标级 Heatmap ,作者对与同一目标相关的所有点击响应进行每个 Voxel 的最大操作。这确保每个点击只贡献于它具有最高响应的区域,从而得到聚合目标 Heatmap 。然后,通过在 的 ID 维度上应用  Softmax,作者得到最终的 Mask

本地化损失。 (图2, )为了训练模型,作者使用了交叉熵和 dice 损失的组合 [36]。

在这里, 是两个标量,用于平衡两种损失。权重因子 根据每个点距离用户点击的接近程度调整损失,使得损失在每次点击附近更加局部化。它被表示为:

是点 到其最近用户点击的归一化距离,通过 缩放。这种公式确保了距离点击点 米内的点接收到的权重从 线性减少到 ,使损失更加局部化。这种损失设计以及点击融合操作有效地迫使每个点击更加局部,在点击区域附近给出强烈的响应,确保每个点击不会干扰其他信息。同时,距离 米以上的点获得 的权重,为点击提供一些激励,以分割物体的远离部分,如道路,以有效地处理大型且易于分割的区域。

4D推理。 (图2, ) 在每个短时间窗口 内,作者通过将每个点分配给 中响应最高的目标,直接获得一致的实例ID。然而,跟踪任务需要整个序列上的一致实例ID。为了实现这一点,作者形成一个重叠的LiDAR扫描窗口[3],并使用这个扫描中两个时间窗口的预测来将实例ID从 传递到 。这种方法还使作者能够在多个标注者之间并行化标注过程,同时自动确保整个序列上的一致实例ID。

点击模拟策略。 (图2, )交互式分割模型依赖于标注员的输入来逐步优化预测,但同时在训练过程中涉及人类是不切实际的。相反,基于预测和真实值的合成点击被模拟。

模拟策略应:

(1) 使模型的学习专注于错误区域,通过更少的交互提高准确性, (2) 尽量减少训练和实际应用之间的差距。在交互式3D分割模型[15, 23, 46, 53]中,有两种主要的点击模拟方法。

受到2D模拟[7, 28, 31, 31, 22, 33]启发,在密集数据下运行的模型采用基于边界相关的(BD)点击策略。这种方法使用以下指标选择距离边界最远的点:







请到「今天看啥」查看全文


推荐文章
今日五莲  ·  名单公布!每人每月2000元!
20 小时前
今日五莲  ·  名单公布!每人每月2000元!
20 小时前
潮司电商客服外包  ·  快手小店 | 子账号及客服分流超详细设置教程
2 天前
潮司电商客服外包  ·  快手小店 | 子账号及客服分流超详细设置教程
2 天前
网信宝塔  ·  谨防孩子被流量“催熟”
2 天前
猎奇漫画部  ·  【杀手古德】大嘴巴 论大嘴巴的来历
8 年前
BMWsky宝马会  ·  第一台G30新5系交车!车主这样评价...
8 年前
设计之旅  ·  美式田园风,就是这个味儿
8 年前