专栏名称: 深度学习与图网络
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
山西省人民政府  ·  海报|亚冬会上的“山西能量包”,Buff叠满! ·  3 天前  
阳泉日报  ·  2024年山西经济“成绩单”公布 ·  4 天前  
51好读  ›  专栏  ›  深度学习与图网络

LLMs为零样本图学习器:GNN表示与LLM词元嵌入的对齐

深度学习与图网络  · 公众号  ·  · 2024-10-23 11:01

正文

LLMs为零样本图学习器:GNN表示与LLM词元嵌入的对齐

大家好,今天给大家介绍一篇最新的研究论文。这篇论文提出了一种名为TEA-GLM的新型框架,通过将GNN表示与LLM词元嵌入对齐,实现了跨数据集和跨任务的零样本图机器学习。

这项工作不仅创新地解决了图神经网络泛化能力有限的问题,还展示了大语言模型在图学习领域的潜力,是图机器学习领域的一个重要突破。文章提出的方法在多个基准数据集上取得了显著的性能提升,展现了强大的泛化能力。

1. 基本信息

这篇论文题为"LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings",由来自Beihang University的Duo Wang、Yuan Zuo、Fengzhi Li和Junjie Wu完成。

2. 研究背景

在图机器学习领域,图神经网络(GNNs)已经成为一个关键的框架,它能够有效捕获图结构中的复杂消息传递模式。近年来,研究者们提出了多种GNN架构,包括Graph Convolution Network (GCN)、Graph Attention Network (GAT)和GraphSAGE等。这些模型在特定任务上展现出了优秀的性能,但它们普遍存在一个显著的局限性: 当需要在不同数据集或下游任务之间迁移时,模型的性能往往会显著下降

为了缓解对标注数据的依赖并增强图模型的鲁棒性,自监督学习被广泛应用于GNN的训练过程中。例如,Deep Graph Infomax (DGI)通过互信息最大化,而GraphCL则利用对比学习来提升模型性能。然而,这些方法通常需要针对下游应用进行任务特定头部的微调,这不仅耗费资源,还限制了它们在多样化场景中的实用性。此外, 图提示学习虽然通过使用统一的任务模板和元学习来增强GNN的泛化能力,但仍然需要大量的微调,且受限于任务类型的特殊性。

近年来,大语言模型(LLMs)展现出的卓越泛化能力引起了研究者在图机器学习领域的关注。一些方法尝试将图结构编码为文本输入给LLM,但这种方法往往会导致次优的结果。另一些研究者尝试使用LLM作为增强器来生成数据或节点文本表示,但这些方法仍然依赖于GNN进行预测。最近的一些工作尝试将LLM作为预测器,但由于难以产生可在不同任务和数据集之间有效迁移的图表示,其性能仍然不够稳定。

3. 方法

TEA-GLM框架的核心思想是通过对齐GNN表示与LLM的词元嵌入来实现零样本图学习。下面详细介绍该方法的技术细节。

3.1 问题定义

首先定义图 ,其中:

  • 表示节点集合,总节点数为
  • 表示边集合
  • 是邻接矩阵,当
  • 是特征矩阵,其中 是节点 的特征向量

3.2 词元嵌入对齐的图自监督学习

这部分包含两个关键组件:实例级对比学习和特征级对比学习。

3.2.1 实例级对比学习

为了生成图的不同视图,采用两种数据增强策略:

  1. 移除边(RE)策略:通过随机掩码矩阵 对邻接矩阵进行掩码:

其中 表示Hadamard积。

  1. 掩码节点特征(MF)策略:通过随机掩码向量 生成新的节点特征:

通过这两种策略得到两个视图 。使用图编码器获取节点表示:

其中 表示不同视图, 是节点表示的维度。

对比损失函数定义为:

其中 是余弦相似度函数, 是温度参数。总的实例级损失为:

3.2.2 特征级对比学习

为了打破实例间的独立性,引入特征级对比学习。对于特征矩阵 ,将不同视图中的列向量表示为 。特征级损失定义为:

为了将节点表示映射到LLM的语义空间,使用PCA获取LLM词元嵌入的 个主成分,记为 ,其中







请到「今天看啥」查看全文