专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

ETH Zurich、A*STAR等联合工作：重新审视并改正小样本3D分割任务中的问题，新benchmark开启广阔提升可能性！

我爱计算机视觉 · 公众号 · · 2024-06-06 13:07

正文

关注公众号，发现CV技术之美

本文分享 CVPR 2024 论文 Rethinking Few-shot 3D Point Cloud Semantic Segmentation ，重新审视并改正小样本3D分割任务中的问题，作者来自 ETH Zurich 等联合团队。

详细信息如下：

论文链接: https://arxiv.org/abs/2403.00592
代码链接: https://github.com/ZhaochongAn/COSeg

技术背景

3D场景理解在自动驾驶、智能机器人等领域扮演着至关重要的角色，它使设备能够感知并理解周围的三维世界。尽管传统的全监督学习模型在特定类别的识别上表现出色，但这些模型通常只限于识别这些预定义的类别。这就意味着，每当需要识别新的对象类别时，就必须收集大量的3D场景数据并进行详细标注，这一过程不仅耗时耗力，还极大限制了全监督模型在真实世界中的应用广度和灵活性。

然而，借助Few-shot学习方法，这一局面得到了显著改善。Few-shot学习是一种需要极少标注样本就能迅速适应新类别的技术。这意味着模型可以通过少量的示例迅速学习和适应新的环境，大大降低了数据收集和处理的成本。这种快速、灵活的学习方式，使得3D场景理解技术更加适应快速变化的现实世界，为各种应用场景如自动驾驶和高级机器人系统打开了新的可能性。因此，研究Few-shot 3D模型能有效推动很多重要任务在更广阔世界的实际应用。

特别的，对于Few-shot 3D point cloud semantic segmentation（FS-PCS）任务，模型的输入包括support point cloud以及关于新类别的标注（support mask）和query point cloud。模型需要通过 利用support point cloud和support mask获得关于新类别的知识并应用于分割query point cloud，预测出这些新类别的标签 。在模型训练和测试时使用的 目标类别无重合 ，以保证测试时使用的类均为新类，未被模型在训练时见过。

任务的重新审视与改正

该文章重新审视了当前FS-PCS任务。发现当前的任务setting具有两个显著的问题。

第一个问题是 前景泄漏 ：3D任务通常将场景点云中的密集点均匀采样后作为模型的输入。然而FS-PCS采用的采样方法并非均匀采样，而是会 对目标类别（前景区域）采样更多的点，对非目标区域（背景区域）采样更少的点 ，这样得到的输入点云会在前景有更密集的点分布，导致了前景泄露问题。如图1所示，第四和第六列的输入点云来自于当前的有偏采样，在前景区域（door或board）展示出比背景更密集的点分布，而第三和第五列的输入使用改正后的一致性采样，展示出了均匀的点密度分布。该问题使得 新类的信息被点云的密度分布所泄漏 ，从而允许模型简单的利用输入点云中的密度差异，预测更密集的区域为前景就可以实现良好的few-shot性能，而非依赖于学习从support到query的知识转移能力。因此 当前的评价benchmark无法反映过往模型的真实性能 。如表1所示，将当前setting中的前景泄露改正后，过往模型展示出了大的性能下降，表明了过往模型极大的依赖于密度的差异来实现看似优越的few-shot性能。
第二个问题是 稀疏点分布 ：当前的setting 仅从场景中采样2048个点 作为模型在训练和测试时的输入，这样稀疏的点分布严重限制了输入场景的语义清晰度。如图1所示，在第一行第五列中，人类肉眼都难以区分出区域中的语义类别door和周围的类别wall。对第二行也同样很困难来区分目标区域为board类或是其他的类别如window。这些稀疏的输入点云有 非常受限的语义信息，引入了显著的歧义性 ，限制了模型有效挖掘场景中语义的能力。

因此，为了改正这些问题，作者提出了一个 新的setting来标准化FS-PCS任务 ，采用均匀采样并增加采样点数10倍到20480点。如图1中第三列所示，新setting下的输入有一致性的点的分布和更清晰的语义信息，使得该任务更加贴近于真实的应用场景。

新的模型COSeg

在新改正的setting下，作者引入了一个新的模型叫做Correlation Optimization Segmentation（COSeg）。过往的方法都基于 特征优化范式 ，侧重于优化support或者query的特征，并将改进后的特征输入到无参的预测模块获得预测结果，可看作 隐式的建模support和query间的correlations 。相反，没有注重于优化特征，文中提出了 correlation优化范式 ，直接将support和query间的correlations输入到有参的模块中， 显式的优化correlations ，允许模型直接塑造query和support间的关系，增强了模型的泛化能力。

在COSeg中，首先对每个query点计算与support prototypes间的Class-specific Multi-prototypical Correlation简称为CMC，表示 每个点和所有类别prototypes之间的关系 。随后将CMC输入到后续的Hyper Correlation Augmentation（HCA）模块。

HCA模块利用两个潜在的关系来优化correlations。第一，query点都是互相关联的，因此他们对于类别prototypes间的correlations也是互相关联的，由此可得到 点和点间的关系 ，相对应于HCA的前半部分对correlations在点维度做attention。第二，将一个query点分为前景或者背景类依赖于该点对于前景和背景prototypes之间的相对correlations，由此可得到 前景和背景间的关系 ，相对应于HCA的后半部分对correlations在类别维度做attention。

此外，由于few-shot模型在base类别上做训练，在novel类别上做测试。这些模型会容易被测试场景中存在的熟悉的base类别干扰，影响对于novel类别的分割。为了解决该问题，文中提出 对于base类别学习无参的prototypes （称为base prototypes）。 当分割新类时，属于base类的query点应该被预测为背景 。因此，利用base prototypes，作者在HCA层内部引入Base Prototypes Calibration（BPC）模块来 调整点和背景类别间的correlations ，从而缓解base类带来的干扰。

实验结果

文中的实验首先在 改正后的标准setting下评测了之前的方法，创立了标准的benchmark ，并且证明了COSeg方法的优越性能，在各个few-shot任务中都 实现了最佳的结果 。可视化也清楚表明了COSeg实现了更好分割结果。此外，在文中作者也提供了广泛的消融实验证明了设计的有效性和correlation优化范式的优越性。

总结

该文章的研究在FS-PCS领域的贡献如下。

首先，作者确定了当前FS-PCS setting中的两个关键问题（ 前景泄露和稀疏点分布 ），这两个问题降低了对过往方法的评价基准的准确性。为了解决过往setting中的问题，文中引入了一个 全新的标准化的setting以及评价benchmark 。

此外，在标准化FS-PCS setting下，作者提出一个 新的correlation优化范式 ，显著提高了模型在few-shot任务上的泛化性能。文中的模型 COSeg融合了HCA来挖掘有效的点云关联信息和BPC来进行背景预测的调整 ，在所有few-shot任务上实现了最佳的性能。

文中改正的 标准化setting开放了更多在Few-shot 3D分割任务上提升的可能性

ETH Zurich、A*STAR等联合工作：重新审视并改正小样本3D分割任务中的问题，新benchmark开启广阔提升可能性！

正文

技术背景

任务的重新审视与改正

新的模型COSeg

实验结果

总结

请到「今天看啥」查看全文