本文提出了一个基于知识蒸馏的大型语言模型(LLMs)和文本属性图(TAGs)学习的融合框架。通过训练解释器模型作为桥梁,将LLMs的知识迁移到图模型中,解决了标签稀缺问题并提高了预测效率。引入多粒度的特征增强方法和语义感知结构感知的对齐方法,在四个真实数据集上的实验证明了该框架的有效性。
为了解决标签稀缺问题,本文利用知识蒸馏技术,将LLMs的知识提炼到轻量级的图模型中,实现两者之间的互补优势。
通过训练一个解释器模型作为桥梁,将LLMs的知识迁移到图模型中。在训练阶段,LLMs为解释器提供丰富的文本Rationale作为监督信号;在推理阶段,图模型模仿解释器的推理过程。
将LLMs产生的文本Rationale转化为文本级、结构级和消息级的图特征,为解释器模型提供更加丰富和细粒度的先验知识。
在四个真实数据集上的大量实验表明,所提出的方法平均将基线方法的性能提高了1.25%,证明了该知识蒸馏框架的有效性。
1. 基本信息和摘要
论文题目: Distilling Large Language Models for Text-Attributed Graph Learning
作者: Bo Pan, Zheng Zhang, Yifei Zhang, Yuntong Hu, Liang Zhao
作者研究单位: Department of Computer Science, Emory University, Atlanta, GA, USA
2. 主要内容
近年来,文本属性图(Text-Attributed Graphs, TAGs)在各个领域得到了广泛应用,如引文网络、电子商务、社交媒体等。TAG由节点和边组成,其中每个节点表示一个文本实体(如文档),边反映了节点之间的关系。与传统的独立同分布(i.i.d)文本分析不同,TAG学习聚焦于挖掘蕴藏在文本特征关系中的价值。
目前,TAG学习的主流方法是先用预训练语言模型提取文本表示,再输入到图神经网络(Graph Neural Network, GNN)中,以获取融合了结构信息的节点嵌入表示。这种融合语义与结构的方式虽然有效,但GNN的训练往往需要大量标签数据,而
现实任务中标签却常常十分稀缺,甚至完全没有。
最近,大型语言模型(Large Language Models, LLMs)展现出了非常厉害的少样本学习和零样本学习能力,为解决TAG学习中的标签稀缺问题带来了希望。然而,
在实际应用中,LLMs面临着可扩展性差、计算成本高、数据隐私泄露等问题
。为了克服这些挑战,本文提出利用知识蒸馏技术,将LLMs的知识提炼到轻量级的图模型中,实现LLMs与图模型的互补优势。
具体来说,本文的主要贡献包括:
-
提出了一个新颖的知识蒸馏框架,通过训练一个解释器模型作为桥梁,将LLMs的知识迁移到图模型中
。在训练阶段,LLMs为解释器提供丰富的文本Rationale作为监督信号;在推理阶段,图模型模仿解释器的推理过程,实现了无需LLMs参与的高效预测。
-
引入了多粒度的特征增强方法,将LLMs产生的文本Rationale转化为文本级、结构级和消息级的图特征
,为解释器模型提供了更加丰富和细粒度的先验知识。同时,LLMs生成的伪标签和软标签也被用于指导解释器模型的训练。