笔记整理:曲晏林,天津大学硕士,研究方向为大模型
论文链接:https://arxiv.org/abs/2411.01477
发表会议:AAAI 2025
1. 动机
传统的知识图谱以静态关系三元组(
s
,
r
,
o
)的形式集成事实(也称为事件),其中
s
和
o
分别表示主题和对象实体,
r
表示关系类型。然而,在现实世界中,知识不断发展并不断表现出复杂的时间动态,这启发了时间知识图谱
(
Temporal Knowledge Graph
,
TKG
)的构建和应用。
TKG
将前面的静态关系三元组扩展为带有时间戳的四元数(
s
,
r
,
o
,
t
)。因此,
TKG
由多个快照组成,其中同一快照中的事实同时出现。图外推任务
的目的是
预测未来时间戳
t
中缺失的实体。具体来说,目标是预测查询(
s
,
p
,?,
t
)中缺失的实体。
目前的大多数工作都是对
TKG
的结构和时间特征进行建模,以捕捉不同事件之间的特定关系和时间依赖性,从而用于未来事件预测。许多研究可以通过参考已知的历史事件,并通过对比学习区分周期性和非周期性事件对推理任务的不同影响,来预测重复或周期性事件。然而,在实际的推理任务中,一些周期性事件共享相同的头部实体和关系,不同的只
有
尾部实体。这导致了过度相似的表示,在推理过程中很难区分。此外,在基于事件的
TKG
中,从未发生过的新事件约占
40%
。由于这些新事件在整个时间轴上的时间相互作用的稀疏痕迹,不可能使用基于高频周期性事件的推理方法,从而导致这些类型事件的推理性能较差
。
2. 贡献
(1)
提出了
DPCL-Diff
模型,不仅可以对周期事件进行推理,还可以通过扩散生成机制对新事件进行推理。
(2)
在
TKG
领域引入
GNDiff
,对新事件进行基于非马尔可夫决策链的图节点扩散,生成大量与新事件相关的高质量图数据。
(3)
提出了
DPCL
方法,其中周期和非周期事件实体分别映射到庞加莱和欧几里得空间,以更准确地捕捉周期事件实体之间的关系并区分相似的事件实体。
(4)
在四个公共数据集上进行了实验,结果表明,
DPCL-Diff
模型在事件预测方面优于最先进的
TKG
模型。此外,还探索了
GNDiff
和
DPCL
在
TKG
任务中的有效性。
3. 方法
(1)
图节点扩散模型
(GNDiff)
:
用于模拟新事件的发生过程,生成高质量数据样本。
(2)
双域周期性对比学习
(DPCL)
:
用于区分周期性事件和非周期性事件,并捕捉周期性事件实体之间的关系。
图节点扩散模型
(GNDiff)
GNDiff
利用扩散模型的思想,通过向新事件的稀疏相关事件添加噪声,模拟新事件的发生过程,生成更符合实际分布的高质量数据样本。
输入:将头部实体
s
、关系类型
r
和尾部实体
o
的向量表示拼接成一个向量,作为
GNDiff
的输入。
前向扩散过程:逐步向输入向量中添加噪声,模拟事件逐渐被模糊化的过程。噪声添加过程由一个堆叠的热向量控制,该向量表示节点在不同状态之间的转移概率。
反向扩散过程:逐步去除噪声,恢复事件的真实状态。这个过程利用预训练语言模型,并通过掩码机制模拟节点的可能状态。
生成样本:通过反向扩散过程生成与输入向量相关的高质量数据样本,用于新事件的推理。
双域周期性对比学习
(DPCL)
DPCL
将周期性事件实体映射到双曲空间,将非周期性事件实体映射到欧几里得空间,利用空间特性更有效地捕捉周期性事件实体之间的关系,并区分相似的周期性事件。
数据预处理:分析实体频率,将周期性事件实体和非周期性事件实体分别标记。
空间映射:将周期性事件实体映射到双曲空间,将非周期性事件实体映射到欧几里得空间。
对比学习:在每个空间内进行对比学习,通过比较实体之间的距离,区分正负样本。
计算依赖关系:计算每个实体与查询之间的依赖关系得分,用于预测缺失实体。
训练和推理
DPCL-Diff
的训练过程最小化以下损失函数:
GNDiff
损失
(L_diff):
用于优化反向扩散过程,生成更符合实际分布的数据样本。
DPCL
损失
(L_ce):
用于优化对比学习过程,区分正负样本。
监督对比损失
(L_sup):
用于增强模型的判别能力,确保同一类样本的一致性和不同类样本的差异性。
DPCL-Diff
的推理过程结合了
GNDiff
和
DPCL
的预测结果,选择概率最高的实体作为最终预测结果。
4. 实验
数据集:选择了四个公开的
TKG
数据集进行实验,包括
ICEWS14, ICEWS18, WIKI
和
YAGO
。
评估指标:使用平均倒数排名
(MRR)
和命中率
@1, 3, 10
作为评估指标。
基线模型:与多种静态和动态的
KG
推理模型进行比较,包括
ComplEx, R-GCN, ConvE, RE-Net, xERTE, CyGNet, EvoKG, RPC, CENET, DHE-TKG, RLGNet
和
HisRES
。
实验结果表明,
DPCL-Diff
在四个数据集上均取得了优于基线模型的推理性能。特别是在
ICEWS14
数据集上,
DPCL-Diff
的
Hits@1
指标比基线模型
CENET
提升了
30.37%
,这种提升不仅归功于
GNDiff
为处理未见事件而有效地生成数据,而且还归功于它对周期性事件进行泛化的能力。高比例的新事件和大数据量放大了
GNDiff
的影响,而预训练语言模型(
PLM
)进一步增强了上下文表示。此外,
dcl - diff
跨事件建模结构和语义关系的能力提高了新事件和周期性事件的性能,
Hits@1
指标对排名调整的敏感性进一步强调了这一改进。
5. 总结
本文提出了一种基于双域周期对比学习的图节点扩散模型的时态知识图推理方法。该方法旨在缓解由于时间轴上的新事件相互作用有限而导致的预测困难。通过图节点扩散生成图数据来增强新的事件推理,其中引入噪声并调整以模拟现实世界的事件机制,从而产生更好地反映实际分布的样本。此外,通过双域周期对比学习,将事件实体映射到庞加莱空间和欧几里得空间,有效区分周期和非周期事件,提高了时间知识推理任务的性能。大量的实验证明了
DPCL-Diff
在公共时态知识图数据集上的推理优势和有效性。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击
阅读原文
,进入 OpenKG 网站。