专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据文摘  ·  必知!5大AI生成模型 ·  3 天前  
数据派THU  ·  Optuna发布 4.0 ... ·  5 天前  
大数据文摘  ·  突发!OpenAI发布最强模型o1,理化生达 ... ·  1 周前  
51好读  ›  专栏  ›  数据派THU

原创 | 大语言模型在文本属性图学习中的知识蒸馏

数据派THU  · 公众号  · 大数据  · 2024-09-20 17:00

正文

作者:王雨润
本文约3200字,建议阅读10分钟
Emory大学的研究团队提出了一种新的方法,通过知识蒸馏技术,将LLMs的强大能力转移到更小、更高效的本地图模型中,以提高TAGs的学习效率。


文本属性图(Text-Attributed Graph, TAG)学习是图神经网络和自然语言处理领域的一个重要交叉点。TAG中的节点通常由文本描述,而图结构则表示节点之间的关系。这类图结构在社交网络、推荐系统、知识图谱等多个领域具有广泛应用。然而,由于文本数据的复杂性以及图数据的异质性,如何有效地在TAG上进行学习一直是一个具有挑战性的问题。传统的图神经网络在处理TAGs时,往往依赖于大量的人工标注标签,这在许多应用中是不可行的。

近年来,大型语言模型(Large Language Models, LLMs)在自然语言处理任务中展现了强大的能力。LLMs能够捕捉文本中的丰富语义信息,并在多种下游任务中实现了显著的性能提升。然而,LLMs通常具有计算成本高、模型规模大等问题,这使得其在实际应用中存在一定的局限性。为了解决这一问题,Emory大学的研究团队提出了一种新的方法,通过知识蒸馏技术,将LLMs的强大能力转移到更小、更高效的本地图模型中,以提高TAGs的学习效率。(https://arxiv.org/pdf/2402.12022)

该研究的核心问题在于如何将LLMs的强大表现有效地转移到TAG学习中,同时克服LLMs在应用中的局限性。研究目标包括设计一个能够从LLMs中学习的中介模型,该模型能够捕捉文本中的重要信息,并将其传递给学生模型(student model);并在保证性能的同时,减少LLMs在TAG学习中的计算开销和隐私风险。具体而言,该项研究主要包含以下内容:

1、提出了一种新的框架,通过让LLMs输出理由来训练解释器模型,然后将这些知识转移到不依赖LLMs的学生模型中。

2、提出了一种将文本理由转换为文本级、结构级和消息级理由的方法,以及使用LLMs生成的伪标签和伪软标签作为训练解释器模型的监督。

3、提出了一种语义和结构感知的TAG模型对齐方法,该方法在对齐TAG模型时保留了文本和图信息,使学生模型能够更好地与教师模型对齐。

模型蒸馏框架

蒸馏框架旨在解决TAG学习中传统GNN模型难以充分利用文本信息的问题。通过结合大型语言模型(LLMs)的语义提取能力和GNN的结构学习能力,本文提出了一个两步的蒸馏过程。该方法包括三个主要模块:LLMs、解释器模型(interpreter model)和学生模型(student model)。

LLMs:LLMs具备强大的文本理解和生成能力,能够捕捉到输入文本中的深层语义信息。其主要作用是从文本数据中提取出丰富的语义特征。这些特征不仅包括文本的显性信息(如关键词),还包含隐性的语义结构(如上下文依赖、隐喻等)。

解释器模型:该模型的设计目的是从LLMs中学到足够的信息,并以适合本地图模型输入的方式进行表达。解释器模型通过知识蒸馏(Knowledge Distillation)的方式进行训练,即通过对比LLMs的输出和目标标签,解释器模型逐渐学会如何从文本中提取重要的特征,并将这些特征映射为适合图神经网络处理的格式。这一过程的关键在于保持信息的有效性和一致性,使得后续的学生模型能够在不依赖于LLMs的情况下执行任务。

学生模型:学生图模型是最终用于实际任务的轻量级图神经网络。该模型接收解释器模型的输出作为输入,并在TAG学习任务中进行节点分类、链接预测等操作。由于中介模型已经预处理了大量复杂的语义信息,学生模型可以专注于利用图结构中的关系信息,从而大幅减少计算资源的消耗,具有良好的高效性和可扩展性。


解释器模型的零样本学习

解释器模型的训练过程核心在于使用零样本学习方法,即在没有先验标签的情况下,通过文本理由(rationales)自动生成伪标签和软标签,用于将文本理由转化为图形模型中的多层次增强特征以训练图神经网络。

主要步骤包括:

1、生成伪标签和伪软标签:利用LLMs的零样本学习能力,为每个节点生成伪标签和伪软标签,这些标签将用于生成理由并作为训练解释器模型的监督信号。过程中引入软标签(soft labels)机制,通过分析文本的深层含义来给出更加细致的标签,有助于模型更好地理解文本和图结构之间的关联。

2、关键词识别:通过LLMs识别文本中对分类最有帮助的关键词,以增强文本特征。

3、关键链接和消息识别:识别对中心节点分类重要的邻居节点(关键链接)和这些邻居节点中的关键信息(关键消息)。模型通过详细的文本理由来学习如何将文本信息转化为图的信息。这些理由不仅包括文本的直接描述,还包括背后的逻辑和推理过程,使模型能够在没有显式理由的情况下进行推断。

语义和结构感知的模型对齐方法

通过语义和结构感知的方式,可将大型语言模型(LLMs)的知识传递给图模型,以优化文本属性图(TAG)的学习过程。这个框架包括一个解释器模型和一个学生模型,两者通过特定的模型对齐方法进行知识传递,以实现在没有LLMs的情况下进行有效的预测。

1、语义对齐(semantics alignment)

语义对齐的目的是缩小解释器模型和学生模型在文本嵌入上的差异,主要包含以下步骤:

①提取文本嵌入:从解释器模型和学生模型中提取文本嵌入,这些嵌入包含了节点的文本特征。

②考虑节点度:在对齐过程中,考虑节点在图中的连接度,即其邻居节点的数量。

③计算语义相似性:使用余弦相似度等方法计算原始文本特征和LLM增强后的文本特征之间的相似性。

④最小化嵌入差异:通过优化过程,减少解释器模型和学生模型在文本嵌入上的差异。

2、结构对齐(Structure Alignment)

结构对齐关注于模型对图结构的理解,特别是节点的邻居结构,主要包含以下步骤:

①选择重要邻居:通过模型识别每个节点的关键邻居节点,这些邻居节点对于节点的分类至关重要。

②计算结构相似性:比较原始邻居结构和增强后的邻居结构之间的相似性,以识别结构上的差异。

③最小化结构差异:通过优化过程,减少解释器模型和学生模型在结构嵌入上的差异。

3、总体模型对齐目标

在语义对齐和结构对齐的基础上,本研究进一步考虑模型的预测输出(即逻辑值对齐)。总体对齐目标是结合以下三个方面的损失函数:

①标签预测损失:使用交叉熵损失来计算学生模型的预测标签与真实标签之间的差异。

②逻辑值对齐损失:使用均方误差(MSE)损失来计算解释器模型和学生模型输出的逻辑值之间的差异。

③语义和结构对齐损失:结合语义对齐和结构对齐的损失,以确保学生模型在没有LLMs的情况下也能准确预测。

与传统方法相比,该研究提出的框架通过蒸馏过程,将LLMs的计算负担转移到更轻量级的学生模型中,使得实际应用更加高效,降低计算成本。同时,学生模型不再直接依赖LLMs,避免了在数据传输和处理过程中暴露敏感信息的风险。该方法能够适应多种LLMs和GNN架构,为不同任务提供定制化的解决方案。

编辑:黄继彦

作者简介

王雨润,北京大学国土空间规划专业博士在读,研究方向集中于人类移动性与城市复杂性建模、特别关注如何通过大规模图学习与因果推断技术来解析城市动态和社会行为模式。

数据派研究部介绍




数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:


算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。


点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~



转载须知


如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

点击“阅读原文”拥抱组织