专栏名称: 数据派THU

本订阅号是“THU数据派”的姊妹账号，致力于传播大数据价值、培养数据思维。

图少样本学习综述：从元学习到预训练和提示学习

数据派THU · 公众号 · 大数据 · 2024-10-20 17:42

正文

本文约4300字，建议阅读10+分钟
本综述总结分类了现有的图少样本学习文献，对比了不同方法，并指出了该领域未来的研究方向。

作者 | 于星橦

单位 | 新加坡管理大学博士后

研究方向 | 图神经网络

一、摘要

图表示学习作为图任务中的关键技术而发展迅速。早期的图表示学习方法通常基于端到端的训练设置，其效果高度依赖于大量的标注数据。然而现实世界中的标注数据往往难以获得，这促使了图少样本学习的出现，用于解决只有少量可用标注数据的图任务。

本综述总结分类了现有的图少样本学习文献，对比了不同方法，并指出了该领域未来的研究方向。具体地，我们从以下两个类别探讨了相关研究：1）问题分类：探讨不同类型的数据稀缺问题及其现实应用；2）技术分类：介绍解决这些数据稀缺的少样本问题的关键策略。

这些技术可以分为元学习、预训练和混合方法。我们在每个类别中进行了更细致的分类，分析这些方法之间的关系，并比较它们的优缺点，以帮助读者选择合适的方法。最后，我们总结了图少样本学习的未来研究方向，以促进该领域的持续创新发展。本综述的相关论文可在 GitHub 仓库中获取。

论文链接：

https://arxiv.org/pdf/2402.01440

Github仓库链接：

https://github.com/smufang/fewshotgraph

作者主页：

https://xingtongyu.netlify.app/

关键词：数据挖掘，图表示学习，少样本学习，元学习，预训练，提示学习。

二、引言

现有的图表示学习方法，例如图神经网络（GNNs）和图 Transformer，其有效性依赖于丰富的图结构信息和大量的标注数据。然而，图数据稀缺是普遍存在于现实世界的应用，从而严重影响了图表示学习方法的准确性。

具体地，我们观察到图数据稀缺问题可以分为 1）标签稀缺问题；2）结构稀缺问题。首先，获取标注数据通常很困难或成本高昂 [19]，从而导致标签稀缺问题，尤其是对于新出现类别的数据，如图 1(a) 所示。其次，图结构本身可能是稀疏的，尤其是对于大量的低度节点，它们的邻居数量有限，如图 1(b) 所示，从而导致结构稀缺问题。

由于上述数据稀缺问题，图少样本学习方法 [20][21] 在各个领域引起了广泛关注，如社交网络分析 [22][23]、推荐系统 [24][25] 和分子研究 [21][26]，如图 1(c,d,e) 所示。这些方法往往从图中学习通用的、任务无关的先验知识，然后将其适应到标签稀缺或图结构稀缺的下游任务。

基于学习先验知识和下游适应的具体策略，我们进一步将这些技术分类为三大类：1）元学习方法；2）预训练；3）混合方法，如图 2 所示。其中，元学习 [27][28] 和预训练 [29][30] 是两种从额外数据中学习先验知识的主要方法，然后将其适应到少样本下游任务。然而，这两类方法遵循不同的范式，我们将在下文进一步阐述。

三、少样本学习问题

由于现实世界图数据中广泛存在的数据稀缺问题，图少样本学习成为了一个重要的研究问题。根据数据稀缺的类型，我们将图上的少样本学习问题分为两类：标签稀缺和结构稀缺。

一方面，类似于自然语言处理（NLP）和计算机视觉（CV）中面临的挑战 [50][51][52]，标签稀缺，即缺乏标注数据，同样也是图少样本学习中的一个重要挑战。另一方面，不同于文本和图像数据，图具有非欧几里得的拓扑结构。因此，图中的结构稀缺成为另一个重要挑战。研究者针对两个挑战提出了各种解决方案，在本节中，我们按照图 3 对相关文献进行分类并介绍了其现实应用。

3.1 标签稀缺问题

由于获取有标签数据通常很困难或成本高昂，标签稀缺是现实世界中普遍存在的问题。然而，有监督的图表示学习方法的性能在很大程度上依赖于以大量标注数据作为监督。因此，当标注数据有限时，传统的监督方法表现不佳，这促使少样本学习方法来解决图上的标签稀缺问题。我们进一步根据各自的类别设置和目标实例，将标签稀缺问题分类为基于类别级别的标签稀缺和基于实例级别的标签稀缺。

3.1.1 类别级别的标签稀缺

设表示图上的所有类别集合，该集合由两个子集组成：用于模型训练的基础类别集，以及用于测试的新类别集，满足且。标签稀缺可能发生在任一子集或同时出现在两者中。

3.1.2 实例级别的标签稀缺

我们还根据节点、边或图级别上标签稀缺的实例进行分类。我们在表II中根据基于实例的标签稀缺问题分类总结了相关文献及其应用。

3.3 结构稀缺问题

与标签稀缺不同，标签稀缺源于获取标注困难或成本很高，而结构稀缺则源于图拓扑结构的稀疏性，例如其中许多节点仅连接极少的边。由于图表示学习的有效性本质上依赖于节点之间拓扑结构的丰富性，结构稀缺为有效学习图表示带来了重大障碍。在现实世界中，图的结构稀缺是一个普遍问题，吸引了越来越多的研究兴趣。我们将关于结构稀缺的文献分类为两种子类型：长尾分布和冷启动学习问题，如表 III 所示。具体地，长尾问题解决的是从不均衡分布中学习的挑战，其中大量节点具有少量连接，而冷启动问题则侧重于为新节点学习表示，这些新节点没有或只有极少的连接。

四、元学习

元学习是少样本学习技术中的一个重要类别，在我们的分类法中位于第一分支，如图 4 所示。现有的元学习方法 [142][32][31] 旨在从基础类别中学习先验知识，这些先验知识可转移到下游任务中的新类别。这些方法通常假设在基础类别中有丰富的标注数据，而下游的新类别只有少量标注数据。

4.1 基于结构的增强方法

图数据的一个独特特征在于节点之间的连接结构，这为处理图数据提供了关键信息。因此，许多基于图的任务的元学习方法专注于利用图结构来增强先验知识的学习。根据图结构的类型，它们可以进一步分为节点级、边级和子图级的增强方法。

4.2 基于迁移的增强方法

通过支持集实现对查询集的快速知识迁移是元学习的一个关键要求。具体而言，知识迁移使得将全局共享的先验知识定制为每个任务的本地化或专门化模型成为可能，从而不仅保留了每个单独任务的独特特征，还利用了共享的共通知识。因此，许多方法旨在增强图上的少样本学习的知识迁移机制。

五、预训练

由于预训练方法能处理多种领域中未标注数据并灵活迁移到多种下游任务，它成为了另一种流行方法 [37]。图预训练阶段通常利用未标注的图数据，通过无监督方法来预训练图编码器，旨在捕捉图的与任务无关的内在属性，如节点特征和局部或全局结构。随后，作为先验知识的一种形式，预训练的图编码器可以知识迁移来解决各种下游任务。图 6 展示了预训练和知识迁移。

5.1 预训练策略

图预训练的无监督任务主要分为两大类：基于对比策略和基于生成策略，此外还有许多方法同时采用这两种策略以从图中提取更全面的知识。最近，一些图预训练方法还利用了大型语言模型。

5.1.1 基于对比策略的方法

基于对比策略的预训练方法在图中对比不同尺度的实例。对于每个目标实例，对比策略会采样其正例和负例，旨在在潜在特征空间中拉近正例与目标的距离，同时使负例远离目标，如图 6(b) 所示。我们整理了相关工作于表 VI，并讨论了他们的实例规模，增强方法和针对的图类型。

5.1.2 基于生成策略的方法

生成方法为图预训练提供了新的视角。这些方法旨在重建图的部分内容，例如邻接矩阵 [43]、边掩码 [39] 或节点特征掩码 [163]。这些目标涉及结构重建或特征重建，许多研究采用了这两类目标，如表 VII 所总结的。此外，类似于对比方法，各种类型的图上也提出了多样的生成方法。

5.2 基于微调的知识迁移方法

预训练的图编码器包含了关于在预训练阶段使用的图的内在属性的先验知识。这个先验知识可以通过使用预训练权重初始化下游模型来转移到各种下游任务中。为了将初始模型定制化到每个具体任务，它配备了一个任务头，并经历了一个称为微调的知识迁移阶段。在微调过程中，对于每个任务，模型会进一步使用任务特定的标注数据进行训练，并此过程中更新预训练模型和任务头的参数，如图 6(c) 左所示 [30][39]。

5.3 参数高效的知识迁移方法

为了缓解通过微调进行适应所带来的问题，最近的研究重点转向了参数高效的适应方法，这避免了更新预训练图编码器中的所有参数。关键策略包括提示学习和参数高效的微调。

5.3.1 提示学习

源自自然语言处理领域的提示学习，已经证明了其在将预训练语言模型适应到多样化语言任务中的有效性 [177]。提示学习引入一个提示向量来修改或重新表述预训练模型的原始输入，使下游任务在统一模板下更接近预文本任务。值得注意的是，提示向量的规模相对于预训练参数规模而言微不足道。

在迁移过程中，仅微调一个非常小的提示向量，而不更新预训练模型，使该方法具有参数高效性。最近，提示学习已经扩展到图学习领域 [48][19]。基于对齐预训练任务和下游任务的统一模板，这些方法设计提示以进一步缩小预训练任务与下游任务之间的差距，如图 6(c) 右所示。具体方法在模板选择和提示设计上有所不同，如表 VIII 和表 IX 所总结。

5.3.2 参数高效微调

这些方法仅调整来自原始预训练模型或新添加模块的部分参数。因此，需要更新的参数数量显著减少，这对于少样本学习来说更加高效和可行。著名的参数高效微调（PEFT）技术包括适配器微调 [188] 和低秩适应（LoRA）[189]。

适配器微调 [188] 在预训练模型的某些层中插入称为适配器的小型神经网络模块，而 LoRA [189] 则利用低秩矩阵来近似参数更新。在这两种技术中，微调过程中仅更新新模块的参数，而原始的预训练权重保持冻结。

六、混合方法

如前所述，元学习和预训练体现了学习先验知识的两种不同范式，每种范式都有其独特的优点和缺点。在同时拥有大量用于预训练的未标注数据和大量的有标注基础集用于元学习的情况下，采用融合两种范式的混合方法是一种有效的策略。

因此，我们可以利用元学习和预训练各自的优势，不仅通过预训练利用未标注数据学习通用的与任务无关的先验知识，还可以从类似的元训练任务中汲取先验知识，如图 7 所示。

七、未来方向

7.1 图少样本学习的问题场景

1）结构稀缺问题；2）大规模图上的少样本学习；3）复杂图上的少样本学习；4）跨领域的少样本学习。

7.2 图少样本学习的技术

1）提高可解释性；2）图基础模型。

八、结论

在本综述中，我们对图上的少样本学习文献进行了系统性的回顾。具体地，我们按照两个类别总结了图少样本学习文献，即根据问题和技术对现有研究进行分类。

基于问题，我们将这些研究分为标签稀缺问题和结构稀缺问题。对于每一类，我们总结了它们的问题定义及各自的应用。基于技术，我们将文献分类为元学习、预训练和混合方法。对于每个类别，我们介绍了具有代表性的工作，并讨论了它们的优点和缺点。最后，我们概述了有前景的未来方向，旨在促进这一快速发展的领域的进一步探索。

编辑：黄继彦

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU