专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

CVPR 2024 | 面向无标注 3D 语义分割的层级式模态内相关性学习方法

极市平台 · 公众号 · · 2024-05-08 18:47

正文

↑ 点击蓝字关注极市平台

作者丨智能图形计算专委会

来源丨智能图形计算专委会

编辑丨极市平台

极市导读

本文针对无标注三维语义分割任务，在跨模态（文本-图像-点云）迁移学习框架基础上，提出了一种新的层级式点云模态内相关性学习方法，旨在从带噪声伪标签的监督中学习鲁棒的三维视觉表征，并提高模型的语义理解能力。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

中国科技大学陈雪锦教授团队与微软亚洲研究院合作，提出了一种面向无标注 3D 语义分割的层级式模态内相关性学习方法，文章录取于计算机视觉顶级会议CVPR 2024，欢迎阅读！

Hierarchical Intra-modal Correlation Learning for Label-free 3D Semantic Segmentation

背景介绍

无标注三维语义分割的目标是在数据没有标注的情况下实现对三维场景的语义理解。这一任务对于三维标注成本高昂或可能遇到未知物体的开放场景至关重要，例如自动驾驶、机器人导航以及增强现实等。现有方法通常利用跨模态对比学习技术，将预训练的视觉-语言模型（例如CLIP [1]和MaskCLIP [2]）在开放世界环境中的物体图像识别能力转移至三维领域，从而实现无标注的三维语义分割。这些视觉-语言模型能够从图像和文本中提取丰富的语义信息，为三维模型训练提供伪标签监督。然而，这些模型通常基于图像分类任务进行预训练，生成的图像伪标签包含较多噪声，如图1所示，这给三维视觉模型学习稳定且鲁棒的视觉表征带来了巨大挑战。

图1：MaskCLIP [2]模型产生的图像伪标签往往包含较多噪声，影响3D语义分割训练。

研究目标

本文针对无标注三维语义分割任务，在跨模态（文本-图像-点云）迁移学习框架基础上，提出了一种新的层级式点云模态内相关性学习方法，旨在从带噪声伪标签的监督中学习鲁棒的三维视觉表征，并提高模型的语义理解能力。本方法在三个层次上挖掘点云模态内的相关性：集合内相关性（Intra-set）、场景内相关性（Intra-scene）以及场景间相关性（Inter-scene），如图2所示，以捕捉场景中多层次的视觉和几何关系，进而辅助模型学习紧凑的三维表征。

首先，在局部范围内，几何特征相似的点往往共享相同的语义信息。利用这种局部几何相似性来校正伪标签，有助于减少标签中的局部噪声。其次，通过对齐场景内具有相似几何和外观属性的点的特征，也可以降低伪标签噪声带来的影响，促使模型在训练过程中学习到更加紧致的三维表征。进一步地，通过对齐不同场景中具有相似特性的点，可以降低场景间不一致监督信息的干扰，帮助模型在多样化场景中学习到稳定而统一的特征分布。

在室内数据集ScanNet [3]上，我们的方法达到了36.6%的平均交并比（mIoU），相较于此前的最先进方法CLIP2Scene [5]，提高了7.8%的mIoU。在室外数据集nuScenes [4]上，我们实现了23.0%的mIoU，超过了CLIP2Scene 2.2%的mIoU。我们还通过理论分析、可视化和消融实验进一步验证了本框架的有效性。

本文的主要贡献可以归纳如下：

（1）提出层级式点云模态内相关性学习框架，用于无标注三维语义分割。本框架能够层级式地捕获三维场景中不同尺度上的视觉和几何相关性，协助模型学习紧凑的三维特征，提升模型语义理解的鲁棒性和准确性；

（2）提出全面的理论分析，可视化，和消融实验，验证了框架的有效性；

（3）在室内、室外数据集上均取得了最优结果。

图2：集合内相关性（Intra-set）、场景内相关性（Intra-scene）及场景间相关性（Inter-scene）。

研究方法

本文提出的层级式模态内相关性学习框架主要包含三个核心部分：集合内伪标签修正、场景内相关性学习和跨场景相关性学习，如图3所示。

集合内伪标签修正： 我们依据局部几何特征的平滑性等信息来辨识属于同一物体部位的点集。借鉴Chen等人[6]的研究，我们基于所有场景中点之间的等价关系（实验中采用基于法向量的等价关系）定义熵集，记为几何一致集合。通过将这些三维几何一致集合投影到二维图像平面上，得到了二维几何一致集合（在图3中，不同颜色代表不同的集合）。在每个集合内，我们采用投票机制选取出现频率最高的点云伪标签来替代该集合中所有点的伪标签，从而得到修正后的伪标签。利用局部几何相似性，有效地减少了点云伪标签的局部噪声，如图4所示。

场景内相关性学习： 已有的跨模态学习方法主要关注在不同模态特征空间的对齐，导致模型受图像伪标签噪声影响难以学习到鲁棒的三维表征。本模块旨在学习场景内点间几何和外观相关性，以此约束相关性强的点的特征分布更加紧密，从而构建一个更加紧凑的特征空间。首先，我们在每个几何一致集合内部均匀采样，将采样点拼接在一起作为输入点云的子集。之后通过Vision Transformer模块建模采样点特征之间相关性。通过在交叉熵损失函数中引入点间相关性，训练过程中的梯度将有助于促进：（1）具有强相关性的点特征向同一文本特征聚合；（2）靠近同一个文本特征的点特征距离更近，靠近不同文本特征的点特征距离更远。这使得模型能够学习到更为紧凑的特征分布，如图5（第2列）中所示。

场景间相关性学习： 为了应对不同场景的点云伪标签不一致带来的挑战，我们提出了跨场景相关性学习模块，旨在通过跨场景的点间相关性约束不同场景的点特征分布尽可能稳定和统一。训练过程中，将同一批次中多个场景中点的特征拼接在一起，与场景内相关性学习类似，使用Vision Transformer模块学习点间相关性。通过在损失函数中引入跨场景注意力权重，在训练过程中促进不同场景中点特征更加紧凑，进而得到稳定一致的特征分布，如图5（第3列）所示。最后，我们设计了一种反馈机制，将三维模型的输出特征与Vision Transformer的输出特征进行对齐，从而将相关性学习能力蒸馏到三维模型中。

图5：特征空间可视化。前两行代表两个不同的场景特征分别可视化的结果，第三行代表前两个场景中特征一起可视化的结果。

实验结果

为了验证所提框架的有效性，我们在ScanNet室内数据集和nuScenes室外数据集上进行了一系列实验。表1展示了不同方法在室内外数据集语义分割的平均交并比（mIoU）指标、训练时间和模型参数。本方法在较短的训练时间和最少模型参数下，在室内和室外数据集上分别取得了最优（36.6 mIoU）和次优（23.0 mIoU）的语义分割结果。其中，Chen等人[7]的工作为同期工作，且本框架核心贡献与其研究成果不冲突。

此外，我们在图7和图8中展示了本框架与CLIP2Scene方法在语义分割任务上的可视化对比结果。从对比结果来看，我们的框架能够生成更为精确和一致的语义预测。在图6中，还比较了本框架与CLIP2Scene在不同训练周期下的分割性能，结果表明所提方法相较于CLIP2Scene展现出了稳定的性能提升，并且随着训练周期的增加，其性能提升的潜力更加显著。

为了探究本文各个模块的贡献，我们在表2中提供了在ScanNet数据集上的消融实验结果。从基线模型开始，逐步增加集合内相关性学习、场景内相关性学习、场景间相关性学习模块，以及反馈机制，每一步的增加都带来了显著的性能提升。

图7：本框架与CLIP2Scene在ScanNet验证集上的语义分割可视化结果。

图8：本框架与CLIP2Scene在nuScene验证集上的语义分割可视化结果。

总结与展望

本文提出了一个层级式点云模态内相关性学习框架，用于无标注三维点云语义分割。本框架在三个层次上利用视觉和几何相关性，包括集合内、场景内和场景间，以减少伪标签噪声对模型训练的影响，以学习到更加紧凑和一致的三维表征。在室内外数据集上的实验结果验证了我们方法的优越性。此外，理论分析和消融研究进一步证明了本框架的有效性。

尽管所提方法取得了显著的性能提升，但我们尚未探索图像和文本的模态内相关性。利用图像内的相关性，希望可以创建一个更加一致的二维特征空间，从而产生更准确和一致的分割伪标签。同样，希望通过研究文本内的相关性使我们使用更精确和详细的描述，为跨模态对齐提供丰富的指导。展望未来，我们计划将层级式模态内相关性学习框架扩展到图像和文本上，以实现更好的无标签三维语义分割性能。通过对模态内相关性进行深入挖掘，我们希望进一步提高三维语义分割的准确性和鲁棒性，推动无标注三维语义分割任务的发展。

参考文献

[1] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748-8763.

[2] Zhou C, Loy C C, Dai B. Extract free dense labels from clip[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 696-712.

[3] Dai A, Chang A X, Savva M, et al. Scannet: Richly-annotated 3d reconstructions of indoor scenes[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 5828-5839.

[4] Caesar H, Bankiti V, Lang A H, et al. nuscenes: A multimodal dataset for autonomous driving[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 11621-11631.

[5] Chen R, Liu Y, Kong L, et al. Clip2scene: Towards label-efficient 3d scene understanding by clip[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 7020-7030.

[6] Chen N, Chu L, Pan H, et al. Self-supervised image representation learning with geometric set consistency[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 19292-19302.

[7] Chen R, Liu Y, Kong L, et al. Towards label-free scene understanding by vision foundation models[J]. Advances in Neural Information Processing Systems, 2024, 36.