技术动态 | 大模型用于知识图谱增量构建思路iText2KG

开放知识图谱 · 公众号 · 科技创业科技自媒体 · 2024-09-18 19:40

正文

转载公众号 | 老刘说NLP

今天我们来看看如何使用大模型来增量构建知识图谱iText2KG方案，供大家一起参考并思考。

关于大模型用于知识图谱构建iText2KG

我们来回顾下大模型进行知识图谱构建的方案，基于LLM构建知识图谱的解决方案分为三个主要范式：

1） 本体引导（Ontology-guided）

这种方法依赖于预先定义的本体来指导知识图谱的构建。例如，AttacKG+方法，它是一个自动化的框架，用于构建攻击知识图谱并捕捉网络攻击的逐步阶段。这个框架包括重写器、解析器、标识符和总结器等模块，它们共同工作以提取威胁行为并将其与适当的格式匹配。

2） 微调（Fine-tuning）

在这种方法中，LLMs在特定的数据集上进行微调，以提高其在特定任务上的性能。例如，ThemeKG方法，它使用来自特定主题语料库的数据构建知识图谱。这种方法利用维基百科中的常识知识，并结合LLMs进行本体引导，以生成准确的实体和关系。

3）零样本/少样本学习（Zero- or Few-shot learning）

这些方法不需要大量的标注数据，而是利用LLMs在少量示例或没有示例的情况下进行任务。例如，Text2KGBench是一个用于评估语言模型生成知识图谱能力的基准测试，它通过定义一系列评估指标来衡量实体和关系的提取性能。

但是，它们也面临着一些挑战和限制：

泛化能力：许多现有方法依赖于特定的本体或主题，这限制了它们在不同领域和场景中的适用性。
实体和关系的解析：在没有预先定义的实体和关系类型的情况下，如何有效地解析和整合实体和关系仍然是一个挑战。
后处理需求：许多方法需要大量的后处理来解决实体和关系的冗余和不一致性问题。

《iText2KG: Incremental Knowledge Graphs Construction Using Large Language Models》：https://arxiv.org/pdf/2409.03284，该工作讨论了如何使用大型语言模型（LLMs）来增量构建知识图谱（KGs），iText2KG的系统包含四个模块，如下图所示：

1）文档蒸馏器（Document Distiller）：使用 LLMs 将原始文档重构为预定义的语义块。

2）增量实体提取器（Incremental Entity Extractor）：从语义块中识别唯一的语义实体并解决歧义。

3）增量关系提取器（Incremental Relation Extractor）：处理已解决的实体和语义块以检测语义上唯一的关系。

4）图集成器和可视化（Graph Integrator and Visualization）：使用 Neo4j 将这些关系和实体以图形格式可视化。

2、iText2KG的四个模块的技术细节、输入和输出。

1）模块1-文档蒸馏器（Document Distiller）

目的：将原始文档转换为结构化的语义块。
方法：使用大型语言模型（LLMs）根据预定义的模式或蓝图提取信息。
预定义模式：类似于JSON结构，包含一系列键，每个键对应文档中的一个特定信息类型（如标题、作者、日期等）。
LLMs的应用：通过提示（prompting）技术，引导LLMs关注文档中的特定部分并提取相关信息。
输入： 原始文档（如文本文件、PDF、Word文档等）。预定义的模式或蓝图（JSON格式，指定需要提取的信息类型）。
输出： 语义块：结构化的JSON对象，包含从文档中提取的相关信息。

2）模块2-增量实体提取器（Incremental Entities Extractor）

目的：从语义块中识别并提取实体，确保实体的唯一性和一致性。
方法：使用LLMs进行实体识别，并采用增量方法逐步构建全局实体集合。
实体匹配：通过余弦相似性等技术比较新提取的实体与已有实体，以避免重复和歧义。

输入： 语义块（来自文档蒸馏器的输出），初始全局实体集合（开始时为空）。
输出： 更新的全局实体集合：包含所有独特实体的列表。

3）模块3-增量关系提取器（Incremental Relations Extractor）

目的：识别实体之间的关系。
方法：使用LLMs分析实体和语义块，提取实体间的关系。

上下文依赖：根据提供的实体上下文（全局或局部），LLMs提取不同类型的关系，平衡信息丰富性和准确性。
输入： 全局实体集合（来自增量实体提取器的输出）。语义块（来自文档蒸馏器的输出）。
输出： 全局关系集合：包含实体间关系的列表。

4）模块4-图集成器（Graph Integrator）

目的：将实体和关系整合到知识图谱中，并进行可视化。
方法：使用Neo4j图形数据库构建知识图谱。
实体和关系的表示：在Neo4j中，实体作为节点，关系作为边，构建图形结构。
输入： 全局实体集合和全局关系集合。
输出知识图谱：一个图形化的表示，展示了所有实体和它们之间的关系，可以在Neo4j等工具中查看和分析。

2、具体效果

为了说明知识图谱（KG）构建的结果，图5展示了在三种不同场景中，基线方法与iText2KG方法之间的比较。

在所有三种知识图谱构建场景中，基线方法都显示出存在没有关系的孤立节点。这一现象可能归因于实体提取和关系提取的同时执行，这可能会在语言模型中引起幻觉效应，导致“遗忘”效应。这一观察表明分离实体和关系提取的过程可以提高性能。
在“网站到KG”的场景中，输入文档数量的增加与图中噪声节点的出现有关。这强调了对文档蒸馏器模块有效地提炼和蒸馏输入数据的重要性。
iText2KG方法在三种知识图谱构建场景中展示了改进的实体和关系解析能力。根据表3和表4的数据，当输入文档较少且由简单、非复杂短语组成时，语言模型在实体和关系解析方面显示出高效率，这在“简历到KG”的过程中得到了证明。相反，随着数据集更加复杂和庞大，挑战也随之增加，如“网站到KG”场景所示。

此外，重要的是要强调输入文档的分块大小和阈值对KG构建的影响。文档蒸馏器的输入文档可以是独立的文档或文档块。如果块大小较小，则语义块将从文档中捕获更具体的详细信息，反之亦然。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。