专栏名称: 开放知识图谱

OpenKG：开放促进互联、链接创造价值

论文浅尝 | 语言模型真的了解领域吗？一个本体学习的视角（ISWC2024）

开放知识图谱 · 公众号 · · 2025-02-26 19:40

主要观点总结

本文探讨了大型语言模型（LLMs）在适应性和泛化能力方面的局限性，通过构建基于真实数据集的乱语概念数据集，对关系抽取和分类学发掘等任务进行实验。实验结果表明，LLMs在面临未见过的领域或乱语术语时，性能会显著下降，依赖于先前学到的语义和词汇意义。微调能够增强模型对特定任务的关注，并提高在乱语语料库上的性能，显示出模型推理能力的出现。研究为学术界提供了警示，需要加强模型在不同领域间的语义推理和泛化能力。

关键观点总结

关键观点1: 动机

探究大型语言模型是否真正具备非结构或半结构化知识中的推理能力，通过实验构建乱语概念数据集进行对比试验。

关键观点2: 方法

论文的pipeline主要包括平行语料的生成和对模型不同设置下能力的评估。平行语料生成包括概念挖掘、概念链接和乱语生成。评估设置包括三种：Ground-truth (GT)(en) vs en、Ground-truth (GT)(gib) vs gib 和 en vs gib。

关键观点3: 实验设置

为了评估在不同领域中的性能变化，从WordNet中生成了三个领域特定的合成数据集作为平行语料库。使用多种大型语言模型（如GPT-3.5、GPT-4等）进行实验。

关键观点4: 实验结果

当真实术语被替换为乱语术语时，大型语言模型的性能显著下降。微调能够显著提升模型在特定任务上的性能，但在乱语语料库上的性能提升仍有局限性。迁移学习实验表明，微调使得模型对上位词关系的语法线索更加敏感，并能够更好地关注概念之间的语义关系。

关键观点5: 结论

大型语言模型在适应任意领域时表现较差，依赖于先前学到的语义和词汇意义。微调能够增强模型的推理能力，但仍需加强模型在不同领域间的语义推理和泛化能力。

正文

请到「今天看啥」查看全文

笔记整理：屠铭尘，浙江大学硕士生，研究方向为知识图谱

论文链接：https://arxiv.org/abs/2407.19998

发表会议：ISWC 2024

1. 动机

目前，大语言模型已经被广泛应用在 KBC （知识库补全）、 OL （本体学习）等词汇语义相关任务中。然而，我们并不知道语言模型是否真的具备了在非结构或半结构化知识中推理的能力，还是仅仅掌握了语言中的一些模式。

这个问题在语言模型的专业领域应用上非常重要，因为专业领域知识可能会跟模型在训练阶段学到的知识有非常大的差异。

因此，为了探究模型究竟是学到了真正可推理的知识，还是仅仅掌握了语言模式，本文通过构建一个基于真实数据集部分替换的“乱语”概念数据集，并在关系抽取和分类学发掘这两个任务上对模型的实验结果进行对照试验。

如下图的例子所示，本文假设，如果模型学到了独立于语言模型的推理能力，那么模型在掌握了 Example1 中的知识： macaron （马卡龙）是一种 confection （甜食）后，也应该在看到 Example2 时，知道 twiglomptoroa （胡编乱造的短语概念 1 ）是一种 becsverdecoroal （胡编乱造的短语概念 2 ）。

2. 方法

本论文的 pipeline 主要分成两个主要部分，第一部分是平行语料的生成，第二部分是对模型不同设置下能力的评估。

2.1 平行语料生成

为了模拟模型训练时未见过的专业领域，生成了一个内部的概念知识互相不冲突的 KG 。主要包括概念挖掘、概念链接和语料生成三个步骤。

（1）概念挖掘

使用简单的广度优先搜索算法（ BFS ），从每个根概念开始，仅通过用户选择的关系（包括上位词关系、语义派生关系和概念主题关系）进行搜索。

（2）概念链接

概念链接即建立概念定义与其他概念之间的依赖关系。例如，如果 “ 糖 ” 在概念 c 的定义中被提到，我们会将所有以 “ 糖 ” 作为表示的概念与 c 链接起来。

（3）乱语生成（ Gibberish Generation ）

我们假设有一个算法，它基于概念 c 的初始表示、定义和词性，为其生成一个对应的乱语 T(c) 。当一个概念具有乱语定义和乱语表示时，称其为 完全处理 （ fully processed ）；当一个概念仅具有乱语表示时，称其为 部分处理 （ partially processed ）。

2.2 Evaluation

任务的 prompt

关系抽取任务的 prompt

分类学发掘任务的 prompt

Fine-tuning 实验的设置

训练语料形式

3. 实验

3.1 实验设置

Datasets

为了评估在不同领域中的性能变化，从 WordNet中生成了三个领域特定的合成数据集作为平行语料库。

- Sweets：包含与甜食或糖相关的概念。在该数据集中，上位词（hypernyms）关系频繁出现，概念通常由其上位词构造得较为完善。

- Football：包含与足球相关的概念。该数据集通过浏览同主题概念创建，包含较少的分类学关系，但具有自己的术语和行话。

- Music：包含与乐器相关的概念，是三个数据集中规模最大的一个。

Models

GPT-3.5 （174B 参数）
GPT-4 （≥ 1T 参数）
Falcon-40B （40B 参数）
LLaMa2-13B (13B) 和 Zephyr-7B-β(7B)

评估设置

采用以下三种评估设置：

（1） Ground-truth (GT)(en) vs en ：将原始英文数据集上的模型答案与其标准答案进行比较。

（2） Ground-truth (GT)(gib) vs gib ：将乱语数据集上的模型答案与乱语标准答案进行比较。

（3） en vs gib ：将原始英文数据集上的答案作为标准答案，评估模型在乱语数据集上的预测一致性，而不考虑预测的正确性。

3.2 Off-the-Shelf评估

关系提取 任务

需要特别指出，英文 WordNet 在上位词（hypernymy）和整体关系（holonymy）的标注方面非常稀缺。比如以下示例：

在该示例中，定义显然暗示了“toffee apple”是“apple”的一种。但在 WordNet 中，仅将 “sweet” 和 “confection” 视为有效的上位词关系。这种不完整性说明了为何观察到的模型性能较低。但由于我们的目标是相对性能比较，而非绝对分数，因此即使标准答案的质量不高也不会对整体分析造成重大影响。

在以下表中的两个任务中，所有 LLMs 和所有合成领域都表现出一致的趋势：当真实术语被替换为乱语术语时，性能显著下降。尽管 GPT-4在乱语语料库上的表现最佳，它仍然经历了类似的性能下降。
即使使用真实数据集，所有 LLMs 在关系提取任务上的性能普遍较低，主要原因是注释质量较差。当使用乱语数据集时，性能进一步下降。

分类体系发现任务 （Taxonomy Discovery Task）
结果：在该任务中，当使用乱语数据集代替真实数据集时，LLMs 的性能同样大幅下降。

原因分析：这一性能下降可以解释为，LLMs 在利用语义先验（即预训练中已知的词汇语义）方面表现得显著更好。这些语义先验帮助模型推断出概念 A 是概念 B 的子类。但当语义先验无法使用（如乱语术语）时，模型的能力受到了严重限制。

尽管性能下降是预期中的结果，因为测试的 LLM 必须处理它在训练过程中从未见过的词汇，但我们进一步观察到，预测对齐度非常低。尽管在平行语料库中，类似的概念共享相同的语义关系，但模型未能根据类似的输入产生类似的输出。这表明，当前的 LLMs 并不擅长推理语义关系。
我们认为，注意力机制主要依赖于单词的词汇意义和框架，而不是利用单词之间的语义关系。换句话说，LLMs 在本体学习（Ontology Learning）中的“推理”能力主要限于模型已训练过的实体和概念，即它们的先验语义。

然而，在任意领域的本体学习中，推理未知概念的上位词关系，或者推理那些与现有词汇相同形式但意义不同的新概念的能力是至关重要的。例如，领域特定术语可能使用与已有单词相同的词汇形式，但意义完全不同，这就需要模型能够推理出这些新概念的语义关系。

因此，现有 LLMs 在面对具有不同语义但相似词汇形式的概念时，缺乏有效推理和处理这些概念关系的能力，这限制了它们在复杂本体学习任务中的应用。

3.3 模型微调后评估

微调显著提升了 LLM 在特定任务上的性能，在乱语语料库上的性能提升同样显著， LLMs 在乱语语料库上表现出一定的适应性，性能有所改善。

这一结果表明，微调能够增强模型对特定任务的专注，从而显著提高其在真实和乱语语料库上的表现。这也显示了在复杂的本体学习和语义推理任务中微调的潜力。

尽管模型在乱语语料库上的性能在微调后有所提高，但始终无法达到在真实语料库上微调的相同模型的性能。这表明，这种性能提升的局限性主要源于模型对先验语义的依赖，因为乱语语料库和其真实版本的唯一区别是输入和标签的映射。

3.4 迁移学习

尽管有前述的两个观察结果，我们可以假设，乱语语料库上性能的提升可能是模型在未见过的领域上进行推理和泛化的迹象。乱语词汇很可能不包含在 LLM 的词汇表中，因此模型无法依赖现有的先验语义来处理这些词汇。为了验证这一假设，我们设计了另一个实验：

我们使用 Zephyr-7B-β 在一个领域内进行微调，针对分类体系发现任务进行训练，然后将其测试到另一个领域。通过仅使用乱语语料库，我们确保大多数领域特定术语被匿名化，从而防止 LLM 有效利用先验语义。

实验结果是，F1 分数普遍提高，除了从 WN-music 到 WN-sweets 的逆情况外，其他领域的 F1 分数都有显著提升。精确率（Precision）通常有所下降，而召回率（Recall）则有所上升。这表明微调使得 LLM 对上位词关系的语法线索更加敏感，但在此过程中牺牲了精确性。

分析：由于训练和测试领域均由乱语词汇构成，我们将 LLM 的性能提升（与基础版本相比）归因于推理能力的提升。微调使得 LLM 更擅长进行抽象推理，并能够更好地关注概念之间的语义关系，而不仅仅是概念本身。这表明，微调后的 LLM 在面对乱语语料库时，能够借助推理能力填补其词汇表中的空白，从而提升其在不同领域的应用能力。

4 . 总结

- 探索 LLM 适应性与泛化能力的极限

本文探讨并测试了 LLMs 的适应性与泛化能力的极限，并观察到 LLMs 在适应任意领域时表现较差。通过基于真实数据和 WordNet 中的实际领域创建乱语数据集，并使用 LLMs 在这些数据上执行本体学习任务，我们发现，LLMs 无法始终如一地在类似的概念之间提取相同的分类关系。这表明，LLMs 在很大程度上依赖于先前学到的语义、词汇意义和词语的框架。

- 微调后的改进与推理能力的出现

然而，我们注意到在乱语数据上进行微调后，LLMs 在发现层级结构任务上取得了显著进展，不仅在它们被训练的领域上有所提升，而且在其他任意领域也有提升。我们将这种改进归因于词汇语义推理能力的出现。微调后的 LLMs 显示出了在未知领域中推理并发现层次结构的能力，表明其推理机制能够部分弥补对已知语义和词汇的依赖。

- 对未来工作的启示与警示

我们的研究为学术界提供了一个警示，即 LLMs 并不适应任意领域。这表明，要有效地在本体学习（Ontology Learning）等任务中利用 LLMs，我们必须加强模型在不同领域之间进行语义推理和泛化的能力。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击 阅读原文 ，进入 OpenKG 网站。