0. 论文信息
标题:4D-CS: Exploiting Cluster Prior for 4D Spatio-Temporal LiDAR Semantic Segmentation
作者:Jiexi Zhong, Zhiheng Li, Yubo Cui, Zheng Fang
原文链接:https://arxiv.org/abs/2501.02937
代码链接:https://github.com/NEU-REAL/4D-CS.git
1. 导读
激光雷达点的语义分割对于自动驾驶和移动机器人系统具有重要的价值。大多数方法探索多扫描的时空信息来识别每个点的语义类别和运动状态。然而,这些方法往往忽略了分割在空间和时间上的一致性,这可能导致同一对象内的点云被预测为不同的类别。为了解决这个问题,我们的核心思想是生成跨多个帧的聚类标签,这些标签可以反映对象的完整空间结构和时间信息。这些标签为我们的双分支网络4D-CS提供了明确的指导,该网络集成了基于点和基于簇的分支,以实现更加一致的细分。具体来说,在基于点的分支中,我们利用历史知识,通过多个视图上的时间融合来丰富当前特征。在基于聚类的分支中,我们提出了一种新的策略来产生前景对象的聚类标签,并应用它们来收集逐点信息以导出聚类特征。然后,我们在多次扫描中合并相邻的聚类,以恢复由于遮挡而丢失的特征。最后,在点簇融合阶段,我们自适应地融合两个分支的信息以优化分割结果。大量的实验证明了该方法的有效性,并在SemanticKITTI和nuScenes数据集上实现了多扫描语义和运动对象分割。
2. 效果展示
图1.基线(Wafflelron)的比较[14])与我们在SemanticKITTI上的拟议方法。对于两种方法,子图(a)和(c)显示语义分割,而子图(b)和(d)显示移动对象分割。子图(e)和(f)显示来自DBSCAN的前景对象的聚类结果。
SemanticKITTI验证集上语义分割结果的视觉化。我们强调了反映我们方法优势的领域,它显示在左上角。
SemanticKITTI验证集上运动对象分割的可视化。我们用蓝色虚线圆圈标记基线的不良预测。
3. 引言
激光雷达点云的语义分割是自动驾驶和机器人领域中的一项关键任务,旨在预测每个点的语义类别。它对于下游任务具有重要意义,包括语义建图和长期自主导航。近年来,已有多种方法尝试对单帧激光雷达数据进行语义分割。然而,这些逐一分割的算法忽略了某些有用的时间信息,特别是过去时刻对物体的独特且互补的观测结果,这使得处理遮挡和稀疏点的情况变得困难。此外,由于这些方法将每帧数据独立分开处理,因此无法区分激光雷达序列中物体的运动状态,从而在建图过程中产生鬼影效应。
为了克服上述限制,一些方法采用多帧激光雷达点云来恢复物体的完整外观[10],或利用时空特征来提高场景感知能力。此外,它们还探索了从激光雷达序列中提取潜在的运动信息,以识别物体的运动状态。例如,MemorySeg通过反复更新记忆特征来补偿当前帧中遮挡引起的信息丢失。SVQNet通过聚合相邻历史点的信息来进行局部特征编码,并选择时间上下文来补全不可见的几何形状,从而取得了有前景的结果。然而,即使考虑了这样的时间信息,由于缺乏对实例级别信息的适当考虑,有时会导致属于单个物体的点被归类到不同的语义类别中。具体来说,大型车辆的分割结果容易出现截断,因为网络通常只关注逐点分类而忽略了实例级别的理解。然后,即使某一时刻能够准确预测物体的运动状态,模型仍然难以确保相邻时间分割的一致性。因此,模型如何在时间和空间上都实现一致的结果呢?一种有前景的方法可能是聚类。对于前景物体稀疏分布的室外场景,DBSCAN[15]等聚类方法可以提供完整的物体外观,这适用于指导网络生成满足时空一致性的分割结果。
推荐课程:
国内首个面向具身智能方向的理论与实战课程
。
基于这一思路,我们设计了一个双分支分割网络,称为4D-CS,它将历史特征视为先验知识,并进一步开发了基于聚类的分支,通过实例信息提高分割的一致性。具体来说,在基于点的分支中,我们提取点特征,并采用多视图时间融合(MTF)模块,利用历史特征来增强这些特征。与利用可能积累噪声的记忆特征来传递历史知识不同,MTF仅考虑最近的历史特征,以防止推理过程中错误信息的持续影响。此外, MTF应用过去的多视图观测来补充空间特征。对于基于聚类的分支,其目的是生成聚类标签,并利用这些标签从逐点特征中整合实例信息。因此,我们首先采用基于体素的投票方法将过去的语义预测转移到当前帧,然后使用DBSCAN从多帧中分组前景物体,并通过池化聚合聚类特征。然而,聚类标签并不总是完全代表物体的完整外观,特别是在点云稀疏或被遮挡的情况下。为了解决这个问题,我们提出了一个时间聚类增强(TCE)模块,用于从过去帧中收集聚类特征,从而提高物体信息的完整性。最后,为了加强同一物体内点之间的语义一致性,我们在点-聚类融合阶段提出了一个自适应预测融合(APF)模块,该模块自适应地融合来自两个分支的分割结果。
4. 主要贡献
4D-CS的主要贡献如下:
• 设计了一个双分支分割网络,利用显式的聚类信息来解决同一前景物体内点类别预测不一致的问题。
• 提出了一种获取聚类标签的新策略,并配套了三个模块:多视图时间融合(MTF)、时间聚类增强(TCE)和自适应预测融合(APF),旨在利用实例信息和整合时间特征来提高分割性能。
• 在SemanticKITTI和nuScenes数据集上,实现了多帧语义和移动物体分割的最新性能。我们的代码将很快发布。
5. 方法
在本节中,我们提出了一种聚类辅助方法4DCS,它提高了属于同一物体的点的分割结果的一致性。如图2所示,我们的方法包括基于点的分支、基于聚类的分支和点-聚类融合。对于图2(a)中的基于点的分支,我们首先使用自我运动对齐多帧点云,并将其输入到主干网络中提取特征Ft。为了利用过去的知识,我们使用多视图时间融合(MTF)模块来合并多个视图上的时间特征,从而获得增强特征Ht。对于图2(b)中的基于聚类的分支,我们根据历史预测生成聚类标签Ct,并利用它们从点特征Ht中聚合初始实例特征Ut。之后,我们提出了一个时间聚类增强(TCE)模块来整合时间聚类特征,然后将这些特征分配给前景点以生成精细的实例特征Hct。最后,对于图2(c)中的点-聚类融合,我们采用来自两个分支的特征来预测分割结果,然后在自适应预测融合(APF)模块中自适应优化每个点的语义类别和运动状态。
6. 实验结果
如表I和表II所示,我们在SemanticKITTI和nuScenes数据集的多扫描语义分割任务上,将本文算法与其他方法进行了比较。结果表明,所提出的4D-CS(四维连贯分割)方法在平均交并比(mIoU)方面达到了最先进的性能。与基线方法相比,本文方法在大前景物体上取得了显著改进:卡车的交并比提高了22.5%,其他车辆的交并比提高了17.0%,动态卡车的交并比提高了26.2%,移动的其他车辆的交并比提高了14.7%。在表II中,本文方法也使大多数前景物体(尤其是大型物体,如卡车和公交车)的交并比得到了提升。这表明,明确的聚类先验有助于网络关注物体的完整空间信息,而不是像其他算法那样仅依赖于从有限感受野获得的局部特征,从而获得了更好的前景物体分割结果。此外,在表III中,我们还比较了本文方法在SemanticKITTI的多对象分割(MOS)基准测试集上的性能。本文方法在测试集上的交并比均值(IoUM)比最先进的工作MF-MOS[24]高出6.8%。这验证了同时在点和实例层面传递历史特征,不仅可以提高分割的完整性,还能增强模型识别物体运动状态的能力。
7. 总结
在本文中,我们分析了现有多扫描分割方法的局限性,并提出了一种新颖的双分支结构,旨在利用聚类信息来提高分割结果的时空一致性。首先,我们通过多视图表示融合时间点的特征。然后,利用聚类标签整合点特征并获取实例信息,该信息通过结合跨多帧的相邻聚类进行细化。最后,我们自适应地融合两个分支的信息,以优化每个点的类别预测,从而增强分割的一致性。实验表明,本文的4D-CS方法超过了以往最先进的多扫描语义分割和动态物体分割方法。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球