大家好,今天为大家介绍一篇研究论文。这篇论文提出了GraphBridge,一种多粒度集成框架,用于提升文本属性图(Text-Attributed Graphs, TAGs)的表示学习。
GraphBridge通过结合局部文本信息和全局结构信息,并引入图感知的token减少模块来解决效率和可扩展性问题
,为TAG领域的研究提供了新的方法。推荐这篇论文的原因是它不仅在理论上bridging了局部和全局视角,还在实验中解决了大规模TAG处理的关键挑战,对推动TAG相关应用的发展具有重要意义。
1. 基本信息
-
论文题目:Bridging Local Details and Global Context in Text-Attributed Graphs
-
作者:Yaoke Wang*, Yun Zhu*, Wenqiao Zhang, Yueting Zhuang, Yunfei Li, Siliang Tang†
-
-
-
2. 研究背景
文本属性图(TAGs)在现实世界中应用广泛,它们结合了语义文本信息和上下文结构信息,对实际应用至关重要。TAG的表示学习研究主要包括两个方面:局部级别的编码和全局级别的聚合。
局部级别编码关注统一文本节点信息(如使用语言模型),而全局级别聚合侧重于结构增强建模(如使用图神经网络)
。
目前的大多数工作虽然尝试结合不同信息层次,但往往忽视了两者之间的互连关系,即节点间的上下文文本信息。这些上下文文本信息能提供语义insight,有助于bridging局部和全局层面。此外,处理大规模TAG时,现有方法还面临效率和可扩展性的挑战,特别是在使用大型语言模型处理密集连接节点时,资源消耗问题更为突出。
本文旨在解决这些问题,提出了一种新的多粒度集成框架,通过利用上下文文本信息来bridging局部和全局视角,并引入了一个图感知的token减少模块来解决效率和可扩展性问题。
3. 方法
本文提出的方法GraphBridge是一个多粒度集成框架,
主要包含两个核心组件:图感知的token减少模块和多粒度集成框架。
1. 图感知的token减少模块
为解决效率和可扩展性问题,作者提出了一个图感知的token减少模块。该模块的目标是从原始的
个token中选择最关键的
个token(其中
)。token的重要性评分基于节点的文本和结构信息:
其中
是节点
中每个token的重要性得分,
表示节点
的邻居节点。
具体步骤如下:
a) 使用预训练语言模型(如BERT或RoBERTa)获取每个token的细粒度表示
。
b) 通过平均池化获取句子级别的文本特征:
c) 使用无参数的消息传递机制聚合邻居节点的文本特征:
d) 计算图增强的重要性得分:
e) 使用top-k函数选择
个最重要的token。
为优化重要性得分,作者引入了一个正则化项来防止某些token获得过高的重要性得分:
其中
是均匀分布。
2. 多粒度集成框架
GraphBridge通过考虑节点间的上下文文本语义来bridging局部和全局视角。具体步骤如下:
a) 对于每个节点