LLMs为零样本图学习器:GNN表示与LLM词元嵌入的对齐
大家好,今天给大家介绍一篇最新的研究论文。这篇论文提出了一种名为TEA-GLM的新型框架,通过将GNN表示与LLM词元嵌入对齐,实现了跨数据集和跨任务的零样本图机器学习。
这项工作不仅创新地解决了图神经网络泛化能力有限的问题,还展示了大语言模型在图学习领域的潜力,是图机器学习领域的一个重要突破。文章提出的方法在多个基准数据集上取得了显著的性能提升,展现了强大的泛化能力。
1. 基本信息
这篇论文题为"LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings",由来自Beihang University的Duo Wang、Yuan Zuo、Fengzhi Li和Junjie Wu完成。
2. 研究背景
在图机器学习领域,图神经网络(GNNs)已经成为一个关键的框架,它能够有效捕获图结构中的复杂消息传递模式。近年来,研究者们提出了多种GNN架构,包括Graph Convolution Network (GCN)、Graph Attention Network (GAT)和GraphSAGE等。这些模型在特定任务上展现出了优秀的性能,但它们普遍存在一个显著的局限性:
当需要在不同数据集或下游任务之间迁移时,模型的性能往往会显著下降
。
为了缓解对标注数据的依赖并增强图模型的鲁棒性,自监督学习被广泛应用于GNN的训练过程中。例如,Deep Graph Infomax (DGI)通过互信息最大化,而GraphCL则利用对比学习来提升模型性能。然而,这些方法通常需要针对下游应用进行任务特定头部的微调,这不仅耗费资源,还限制了它们在多样化场景中的实用性。此外,
图提示学习虽然通过使用统一的任务模板和元学习来增强GNN的泛化能力,但仍然需要大量的微调,且受限于任务类型的特殊性。
近年来,大语言模型(LLMs)展现出的卓越泛化能力引起了研究者在图机器学习领域的关注。一些方法尝试将图结构编码为文本输入给LLM,但这种方法往往会导致次优的结果。另一些研究者尝试使用LLM作为增强器来生成数据或节点文本表示,但这些方法仍然依赖于GNN进行预测。最近的一些工作尝试将LLM作为预测器,但由于难以产生可在不同任务和数据集之间有效迁移的图表示,其性能仍然不够稳定。
3. 方法
TEA-GLM框架的核心思想是通过对齐GNN表示与LLM的词元嵌入来实现零样本图学习。下面详细介绍该方法的技术细节。
3.1 问题定义
首先定义图
,其中:
3.2 词元嵌入对齐的图自监督学习
这部分包含两个关键组件:实例级对比学习和特征级对比学习。
3.2.1 实例级对比学习
为了生成图的不同视图,采用两种数据增强策略:
-
移除边(RE)策略:通过随机掩码矩阵
对邻接矩阵进行掩码:
其中
表示Hadamard积。
-
掩码节点特征(MF)策略:通过随机掩码向量
生成新的节点特征:
通过这两种策略得到两个视图
和
。使用图编码器获取节点表示:
其中
表示不同视图,
是节点表示的维度。
对比损失函数定义为:
其中
是余弦相似度函数,
是温度参数。总的实例级损失为:
3.2.2 特征级对比学习
为了打破实例间的独立性,引入特征级对比学习。对于特征矩阵
,将不同视图中的列向量表示为
和
。特征级损失定义为:
为了将节点表示映射到LLM的语义空间,使用PCA获取LLM词元嵌入的
个主成分,记为
,其中