[论文解读]知识图谱、大模型与幻觉：自然语言处理的视角 - 丹麦哥本哈根阿尔堡大学等

知识图谱科技 · 公众号 · · 2025-02-05 08:21

正文

摘要

大型语言模型（LLMs）已经彻底改变了包括自动化文本生成、问答、聊天机器人等在内的自然语言处理（NLP）应用。然而，它们面临一个重大挑战：即产生听起来合理但实际上错误的内容，即幻觉。这削弱了信任并限制了LLMs在不同领域的适用性。另一方面，知识图谱（KGs）提供了结构化的互联事实集合，以实体（节点）及其关系（边）的形式表示。在最近的研究中，KGs被用来提供上下文，填补LLMs在理解某些话题时的空白，提供了一种有希望的方法来减轻LLMs中的幻觉，增强它们的可靠性和准确性，同时受益于它们广泛的适用性。尽管如此，这仍然是一个非常活跃的研究领域，存在各种未解决的开放问题。在本文中，我们讨论了这些未解决的挑战，涵盖了最新的数据集和基准测试，以及知识整合和评估幻觉的方法。在我们的讨论中，我们考虑了当前大型语言模型（LLMs）在LLM系统中的使用，并针对每个挑战确定了未来的方向。

Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective - ScienceDirect

https://www.sciencedirect.com/science/article/pii/S1570826824000301

核心速览

研究背景

研究问题：这篇文章要解决的问题是大型语言模型（LLMs）在生成文本时容易产生的虚假信息（即“幻觉”），这些问题损害了人们对AI系统的信任并限制了其在各个领域的应用。
研究难点：该问题的研究难点包括：幻觉的多面性（如世界知识、自相矛盾、与提示指令或给定上下文的幻觉）、评估幻觉的复杂性（需要评估输出的语义一致性）以及现有数据集和基准测试的局限性。
相关工作：该问题的研究相关工作有：利用知识图谱（KGs）提供结构化的事实信息来缓解LLMs的幻觉问题、现有的幻觉检测方法和评估基准。

研究方法

这篇论文提出了利用知识图谱（KGs）来缓解LLMs的幻觉问题。具体来说，

知识图谱的引入：KGs是一种结构化的知识表示形式，由实体（节点）和它们之间的关系（边）组成。通过将KGs的信息整合到LLMs中，可以在推理或生成过程中提供事实基础，从而提高输出的一致性和准确性。
知识整合模型的分类：根据其底层架构，知识整合模型可以分为几类。这些模型可以在不同的阶段整合额外的信息，以增强事实性。
幻觉检测方法：提出了几种基于KGs的幻觉检测方法，如GraphEval、KGR、Fleek等。这些方法通过提取LLM输出的子图并与给定的文本上下文进行比较来进行幻觉检测。
知识整合方法：探讨了在LLMs的不同阶段整合KGs的方法，包括预训练、推理和后生成阶段。提出了多种技术，如基于提示的知识注入、上下文感知的解码和多语言知识图谱的嵌入。

实验设计

数据集：评估了多个现有的幻觉检测和评估数据集，如Shroom SemEval 2024、MuShroom SemEval 2025、MedHalt等。这些数据集涵盖了多个领域和任务类型，但大多数缺乏专门用于训练参数化知识整合模型的训练集。
评估指标：使用了多种评估指标，如准确率、校准、F1分数等，以全面评估模型的性能。特别是对于生成任务，采用了BERTScore和BARTScore等语义相似度度量方法。
多提示评估：为了评估LLMs对不同输入表述的鲁棒性，使用了DefAn数据集，该数据集为每个问答数据点提供了15种不同的问题重述。

结果与分析

幻觉检测效果：基于KGs的幻觉检测方法在不同数据集上的表现各异。一些方法在特定任务上表现出较高的准确性，但在其他任务上效果不佳。这表明需要进一步的研究和改进，以提高方法的通用性和可靠性。
知识整合效果：在预训练阶段整合KGs的知识可以显著提高LLMs的事实性。然而，这种方法在快速知识更新方面存在局限性。推理和后生成阶段的整合方法也显示出一定的潜力，但仍需解决提示模板的脆弱性和计算成本高等问题。
多语言评估：现有的多语言知识图谱在低资源语言中的应用显示出显著的优势。然而，多语言知识整合仍然面临数据稀缺和语言不一致等挑战。

总体结论

这篇论文总结了利用知识图谱（KGs）缓解LLMs幻觉问题的研究现状和局限性。尽管已有方法提出了一些解决方案，但幻觉缓解仍然是一个持续的研究难题。论文提出了未来研究的几个方向，包括大规模数据集的构建、多语言和多任务的评估、细粒度的幻觉检测、减少对文本提示的依赖以及混合使用不同的幻觉缓解方法。通过这些研究方向，论文希望为LLMs的幻觉问题提供更全面和有效的解决方案。

论文评价

优点与创新

全面性：论文详细讨论了知识图谱（KGs）在缓解大型语言模型（LLMs）生成幻觉现象中的潜力，涵盖了当前的研究现状、局限性以及未来的研究方向。
分类方法：提出了基于不同架构的知识集成模型的分类方法，并展示了在不同阶段整合外部知识的可能性。
资源梳理：总结了现有的评估幻觉的资源和基准测试，指出了这些资源的不足之处，如多语言支持、细粒度评估等。
未来方向：提出了多个未来研究方向，包括大规模数据集、细粒度的幻觉检测、非文本提示的知识集成方法等，为后续研究提供了明确的指导。
多语言支持：强调了多语言知识图谱在低资源语言中的重要性，提出了通过静态编码和多语言知识图谱增强语言模型的方法。

不足与反思

数据集局限性：现有的评估数据集大多集中在英语，缺乏多语言支持，限制了LLMs技术的普及和应用。
知识图谱的局限性：讨论了知识图谱在处理幻觉时的局限性，如数据完整性、准确性和多语言覆盖范围等问题。
方法的可扩展性：对依赖多阶段管道提取和验证声明的方法表示怀疑，认为这些方法的可扩展性和可靠性需要进一步验证。
细粒度幻觉检测：呼吁进行更细粒度的幻觉检测，以便更好地理解和解决幻觉问题。
非文本提示的知识集成：建议研究远离文本提示的知识集成方法，以应对提示格式和理解上的局限性。
混合方法的研究：建议研究混合和匹配不同的幻觉缓解方法，以了解这些方法之间的互补性。

关键问题及回答

问题1：论文中提到的基于知识图谱（KGs）的幻觉检测方法有哪些？它们各自的优缺点是什么？

GraphEval ：通过提取LLM输出的子图并与给定的文本上下文进行比较来进行幻觉检测。优点是可以提供细粒度的错误分析，缺点是依赖于LLM的提示模板，可能受到提示脆弱性的影响。
KGR ：通过提取源文本和生成文本之间的KG子图来检测幻觉。优点是可以通过命名实体来捕捉更具体的信息，缺点是可能丢失更抽象概念的详细信息。
Fleek ：提取相关的结构化三元组并验证它们是否与KG或Web搜索结果一致。优点是可以通过外部知识源进行事实检查，缺点是依赖于额外的LLM进行问题生成，增加了计算成本。

问题2：论文中提到的在LLMs的不同阶段整合KGs的方法有哪些？这些方法在实际操作中存在哪些挑战？

预训练阶段：通过将KG三元组作为训练数据的一部分，使模型在预训练过程中学习到事实性知识。优点是可以显著提高模型的事实性，缺点是知识是静态编码的，无法快速更新。
推理阶段：通过提示（prompting）将KG知识注入到LLMs中。优点是简单易行，缺点是依赖于手工设计的提示模板，且缺乏对提示文本的控制，容易导致错误。
后生成阶段：在生成答案后，通过外部KG进行事实检查并进行修正。优点是可以实时修正错误，缺点是增加了计算成本，且需要多步推理过程。

问题3：论文中提到的多语言知识图谱在低资源语言中的应用有哪些优势？面临哪些挑战？

优势：多语言知识图谱可以帮助低资源语言更好地理解和处理语言数据，提高模型在跨语言任务中的表现。例如，通过多语言KG，可以更好地支持低资源语言的问题回答和事实提取任务。
挑战：多语言知识图谱面临的主要挑战包括数据稀缺和语言不一致问题。低资源语言往往缺乏足够的高质量训练数据，导致模型难以学习到充分的事实性知识；此外，不同语言之间的知识表示可能存在差异，增加了知识整合的难度。

参考文献