专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

83.3% mIoU达成 !LiSD 在 nuScenes数据集上刷新仅激光雷达3D分割记录 !

智驾实验室  · 公众号  ·  · 2024-06-22 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

随着自动驾驶技术的迅速普及,对基于激光雷达的3D语义分割和目标检测方法的研究受到了高度重视,旨在确保交通参与者的安全。在近几十年中,基于学习的方法已经出现,并显示出与传统的算法相比显著的性能提升。然而,分割和检测任务传统上是被单独研究的,以实现最佳的精确度。

为此,作者提出了一种名为LiSD的高效多任务学习框架,可以同时处理分割和检测任务,旨在优化整体性能。作者提出的LiSD是一个基于 Voxel 的编码器-解码器框架,包含分层特征协作模块和整体信息聚合模块。

采用了不同的集成方法,在保持分割的稀疏性的同时,为检测中的 Query 初始化密集化特征。此外,实例感知细化模块利用跨任务信息以获得更准确的预测。

在nuScenes数据集和Waymo开放数据集上的实验结果表明了作者提出模型的有效性。值得注意的是,LiSD在仅使用激光雷达的nuScenes分割基准上取得了最先进的性能,mIoU达到了83.3%。

1 Introduction

在自动驾驶领域,语义分割和3D目标检测任务扮演着至关重要的角色,它们是建立全面环境感知系统的基础组成部分,这对于降低劳动成本和确保交通安全至关重要。为了推动这一领域的发展,已经创建了如nuScenes[1]和Waymo开放数据集(WOD)[2]这样的大规模数据库,这些数据库对于指导复杂路况感知算法的改进和评估是无价的资源。基于上述数据库,语义分割和目标检测任务传统上是独立研究的,以实现最佳的准确度,例如,Cylinder3D框架专门为语义分割而设计,其性能并不能与专门为目标检测设计的框架相比[3]。因此,迫切需要研究能在语义分割和目标检测任务上实现最佳性能的统一框架。

同时,在单一推理过程中生成分割和检测结果可以节省时间,这比单独执行不同任务具有优势[4]。

图1:所提出的LiSD模型采用点云数据作为输入,并同时产生语义分割和目标检测结果。

近年来,深度学习框架在激光雷达感知领域取得了显著的成功,这可以大致分为基于点的、基于 Voxel 的、基于范围视图(RV)、基于鸟瞰图(BEV)和混合方法。由于稀疏卷积技术的发展, Voxel 方法已经成为分割和检测任务的主导范式[5]。标准的稀疏卷积在接收域中存在相关点时产生输出点。相比之下,子流形稀疏卷积只有在相应的输入位置激活时,输出位置才激活[6]。子流形卷积在3D网络中变得不可或缺,以减少内存消耗,这意味着采用子流形卷积时接收域受到限制[5]。VoxelNeXt[7]通过额外的下采样和稀疏高度压缩来生成具有足够接收域的鲁棒特征表示。然而,这些操作将改变输入稀疏特征的密度,从而增加了逆稀疏卷积实现的难度。为了解决这个问题,Ye等人[8]在多任务框架LidarMultiNet中提出了全局上下文池化(GCP)。GCP将3D稀疏特征转换为2D BEV密集特征以提取全局信息。此外,LiDARFormer[9]采用了跨空间转换模块来学习BEV特征中的长距离信息。然而,直接从2D BEV密集特征的转换中提取全局信息会导致内存消耗的增加,因为需要存储不活跃的点。

关于在多任务学习中跨任务信息交互,LidarMTL[4]采用了传统的方法,只共享低级特征。在LidarMultiNet[8]中,引入了一个第二阶段细化模块来增强第一阶段的语义分割并产生全景分割结果。Zhou等人[9]采用了一个跨任务模块,通过具有高计算复杂性的跨任务注意力机制传递高级特征。

在本文中,为了在保持精度的同时减少内存消耗和计算复杂度,作者提出了一个高效的多任务学习框架,称为LiSD,用于激光雷达的语义分割和目标检测,如图1所示。作者不是像VoxelNeXt那样直接将不同尺度的 Voxel 放置在地面上,而是引入了一个内存友好的整体信息聚合模块,该模块将高级特征插值到低级特征的相应活跃位置。通过这种方法,获得了全局信息的同时保持了稀疏性。此外,作者的LiSD采用了分层特征协作来增强 Voxel 特征表示。而且,与上述跨任务信息交互方法不同,作者提出了一个简单而有效的实例感知细化模块。这个模块专门设计用于通过结合 Proposal 特征来增强前景点的特征表示。LiSD在nuScenes和WOD两个数据库上进行了评估,展示了在分割和检测任务上的竞争力。值得注意的是,LiSD在nuScene上获得了83.3%mIoU的领先分割性能,超过了目前排行榜上所有的激光雷达方法。

主要贡献如下:

  • 作者提出了一种用于激光雷达语义分割和目标检测的高效多任务学习框架LiSD。
  • 作者引入了一个内存友好的整体信息聚合模块(HIAM),以集成适用于分割和检测任务的全局信息,以及一个分层特征协作模块(HFCM)来增强 Voxel 特征表示。
  • 作者提出了一种实例感知细化模块(IARM),通过目标 Proposal 的辅助来改善前景点的特征表示。
  • 所提出的LiSD在nuScenes和WOD数据集上的分割和检测任务中取得了具有竞争力的性能。

2 Method

在本节中,作者描述了作者的多任务学习框架LiSD的结构,该框架通过单次前向传播无缝集成了三个感知任务,即语义分割、目标检测以及辅助的鸟瞰图(BEV)分割,如图2所示。

Overview

给定输入点云 ,所提出的LiSD方法能够产生语义分割标签 和目标检测边界框 ,其中 表示点的数量, 分别表示预测框的数量和语义类别。每个点都配备了 维特征,例如3D坐标、强度、伸长率、时间戳等。预测的框由中心坐标、大小、方向和速度来描述。

首先, Voxel 化的点云被送入 Voxel 特征编码器(VFE)以生成稀疏 Voxel 特征表示 ,通过一个平均池化层,其中 表示 Voxel 内第 个点的特征表示,而 总共有 个点。然后,由3D稀疏卷积形成的基于 Voxel 的编码器-解码器被用于生成用于分割和检测任务的 Voxel 和鸟瞰图(BEV)特征表示。编码器包含四个阶段的稀疏卷积块以降低空间分辨率,从而为检测Head获取高级 Voxel 特征。相反,解码器配备了四个对称阶段的稀疏逆卷积块以恢复到原始 Voxel 大小,供分割头使用。在编码器-解码器中引入了整体信息聚合模块和分层特征协作模块,以扩大感受野并增强特征表示。最终,分割头和检测Head被用于生成语义标签和目标边界框。设计了一个实例感知细化模块,以整合跨任务信息,提高预测结果的准确性。

Holistic Information Aggregation Module

受到VoxelNeXt[7]的启发,处理稀疏 Voxel 特征时需要足够的感受野以确保正确预测。在VoxelNeXt中引入了额外的两个下采样阶段,以生成具有步长{16,32}的特征集{F_{5},F_{6}},而原始编码器的多尺度特征,其步长为{1,2,4,8},分别表示为{F_{1},F_{2},F_{3},F_{4}}。检测Head所需的增强特征表示 如下获得:

其中 表示增强 Voxel 特征的位置,而 分别对应于 的位置。 通过将位置 的3D坐标 加倍与 对齐, 同理。然而,产生的特征 相比于 具有明显更高的密度。 的不同稀疏性为逆稀疏卷积的实现带来了挑战。

图3:所提出HIAM的详细结构。采用额外的下采样以获取全局信息。随后,通过特征插值将信息聚合到分割头之前的基于 Voxel 的解码器中,同时使用坐标变换将信息集成到检测Head中。

为了解决这个问题,作者在图3中采用了另一种方法来为基于 Voxel 的解码器整合全局信息。具体来说,与位置 对应的 中的 Voxel 特征与 中的相邻 Voxel 特征进行插值以保持稀疏性,这个过程对 重复进行。基于 Voxel 的解码器所需的增强特征表示 如下表示:

其中







请到「今天看啥」查看全文