摘要
大型语言模型(LLMs)已经彻底改变了包括自动化文本生成、问答、聊天机器人等在内的自然语言处理(NLP)应用。然而,它们面临一个重大挑战:即产生听起来合理但实际上错误的内容,即幻觉。这削弱了信任并限制了LLMs在不同领域的适用性。另一方面,知识图谱(KGs)提供了结构化的互联事实集合,以实体(节点)及其关系(边)的形式表示。在最近的研究中,KGs被用来提供上下文,填补LLMs在理解某些话题时的空白,提供了一种有希望的方法来减轻LLMs中的幻觉,增强它们的可靠性和准确性,同时受益于它们广泛的适用性。尽管如此,这仍然是一个非常活跃的研究领域,存在各种未解决的开放问题。在本文中,我们讨论了这些未解决的挑战,涵盖了最新的数据集和基准测试,以及知识整合和评估幻觉的方法。在我们的讨论中,我们考虑了当前大型语言模型(LLMs)在LLM系统中的使用,并针对每个挑战确定了未来的方向。
Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective - ScienceDirect
https://www.sciencedirect.com/science/article/pii/S1570826824000301
核心速览
研究背景
-
研究问题
:这篇文章要解决的问题是大型语言模型(LLMs)在生成文本时容易产生的虚假信息(即“幻觉”),这些问题损害了人们对AI系统的信任并限制了其在各个领域的应用。
-
研究难点
:该问题的研究难点包括:幻觉的多面性(如世界知识、自相矛盾、与提示指令或给定上下文的幻觉)、评估幻觉的复杂性(需要评估输出的语义一致性)以及现有数据集和基准测试的局限性。
-
相关工作
:该问题的研究相关工作有:利用知识图谱(KGs)提供结构化的事实信息来缓解LLMs的幻觉问题、现有的幻觉检测方法和评估基准。
研究方法
这篇论文提出了利用知识图谱(KGs)来缓解LLMs的幻觉问题。具体来说,
-
知识图谱的引入
:KGs是一种结构化的知识表示形式,由实体(节点)和它们之间的关系(边)组成。通过将KGs的信息整合到LLMs中,可以在推理或生成过程中提供事实基础,从而提高输出的一致性和准确性。
-
知识整合模型的分类
:根据其底层架构,知识整合模型可以分为几类。这些模型可以在不同的阶段整合额外的信息,以增强事实性。
-
幻觉检测方法
:提出了几种基于KGs的幻觉检测方法,如GraphEval、KGR、Fleek等。这些方法通过提取LLM输出的子图并与给定的文本上下文进行比较来进行幻觉检测。
-
知识整合方法
:探讨了在LLMs的不同阶段整合KGs的方法,包括预训练、推理和后生成阶段。提出了多种技术,如基于提示的知识注入、上下文感知的解码和多语言知识图谱的嵌入。
实验设计
-
数据集
:评估了多个现有的幻觉检测和评估数据集,如Shroom SemEval 2024、MuShroom SemEval 2025、MedHalt等。这些数据集涵盖了多个领域和任务类型,但大多数缺乏专门用于训练参数化知识整合模型的训练集。
-
评估指标
:使用了多种评估指标,如准确率、校准、F1分数等,以全面评估模型的性能。特别是对于生成任务,采用了BERTScore和BARTScore等语义相似度度量方法。
-
多提示评估
:为了评估LLMs对不同输入表述的鲁棒性,使用了DefAn数据集,该数据集为每个问答数据点提供了15种不同的问题重述。
结果与分析
-
幻觉检测效果
:基于KGs的幻觉检测方法在不同数据集上的表现各异。一些方法在特定任务上表现出较高的准确性,但在其他任务上效果不佳。这表明需要进一步的研究和改进,以提高方法的通用性和可靠性。
-
知识整合效果
:在预训练阶段整合KGs的知识可以显著提高LLMs的事实性。然而,这种方法在快速知识更新方面存在局限性。推理和后生成阶段的整合方法也显示出一定的潜力,但仍需解决提示模板的脆弱性和计算成本高等问题。
-
多语言评估
:现有的多语言知识图谱在低资源语言中的应用显示出显著的优势。然而,多语言知识整合仍然面临数据稀缺和语言不一致等挑战。
总体结论
这篇论文总结了利用知识图谱(KGs)缓解LLMs幻觉问题的研究现状和局限性。尽管已有方法提出了一些解决方案,但幻觉缓解仍然是一个持续的研究难题。论文提出了未来研究的几个方向,包括大规模数据集的构建、多语言和多任务的评估、细粒度的幻觉检测、减少对文本提示的依赖以及混合使用不同的幻觉缓解方法。通过这些研究方向,论文希望为LLMs的幻觉问题提供更全面和有效的解决方案。
论文评价
优点与创新
-
全面性
:论文详细讨论了知识图谱(KGs)在缓解大型语言模型(LLMs)生成幻觉现象中的潜力,涵盖了当前的研究现状、局限性以及未来的研究方向。
-
分类方法
:提出了基于不同架构的知识集成模型的分类方法,并展示了在不同阶段整合外部知识的可能性。
-
资源梳理
:总结了现有的评估幻觉的资源和基准测试,指出了这些资源的不足之处,如多语言支持、细粒度评估等。
-
未来方向
:提出了多个未来研究方向,包括大规模数据集、细粒度的幻觉检测、非文本提示的知识集成方法等,为后续研究提供了明确的指导。
-
多语言支持
:强调了多语言知识图谱在低资源语言中的重要性,提出了通过静态编码和多语言知识图谱增强语言模型的方法。
不足与反思
-
数据集局限性
:现有的评估数据集大多集中在英语,缺乏多语言支持,限制了LLMs技术的普及和应用。
-
知识图谱的局限性
:讨论了知识图谱在处理幻觉时的局限性,如数据完整性、准确性和多语言覆盖范围等问题。
-
方法的可扩展性
:对依赖多阶段管道提取和验证声明的方法表示怀疑,认为这些方法的可扩展性和可靠性需要进一步验证。
-
细粒度幻觉检测
:呼吁进行更细粒度的幻觉检测,以便更好地理解和解决幻觉问题。
-
非文本提示的知识集成
:建议研究远离文本提示的知识集成方法,以应对提示格式和理解上的局限性。
-
混合方法的研究
:建议研究混合和匹配不同的幻觉缓解方法,以了解这些方法之间的互补性。
关键问题及回答
问题1:论文中提到的基于知识图谱(KGs)的幻觉检测方法有哪些?它们各自的优缺点是什么?
-
GraphEval
:通过提取LLM输出的子图并与给定的文本上下文进行比较来进行幻觉检测。优点是可以提供细粒度的错误分析,缺点是依赖于LLM的提示模板,可能受到提示脆弱性的影响。
-
KGR
:通过提取源文本和生成文本之间的KG子图来检测幻觉。优点是可以通过命名实体来捕捉更具体的信息,缺点是可能丢失更抽象概念的详细信息。
-
Fleek
:提取相关的结构化三元组并验证它们是否与KG或Web搜索结果一致。优点是可以通过外部知识源进行事实检查,缺点是依赖于额外的LLM进行问题生成,增加了计算成本。
问题2:论文中提到的在LLMs的不同阶段整合KGs的方法有哪些?这些方法在实际操作中存在哪些挑战?
-
预训练阶段
:通过将KG三元组作为训练数据的一部分,使模型在预训练过程中学习到事实性知识。优点是可以显著提高模型的事实性,缺点是知识是静态编码的,无法快速更新。
-
推理阶段
:通过提示(prompting)将KG知识注入到LLMs中。优点是简单易行,缺点是依赖于手工设计的提示模板,且缺乏对提示文本的控制,容易导致错误。
-
后生成阶段
:在生成答案后,通过外部KG进行事实检查并进行修正。优点是可以实时修正错误,缺点是增加了计算成本,且需要多步推理过程。
问题3:论文中提到的多语言知识图谱在低资源语言中的应用有哪些优势?面临哪些挑战?
-
优势
:多语言知识图谱可以帮助低资源语言更好地理解和处理语言数据,提高模型在跨语言任务中的表现。例如,通过多语言KG,可以更好地支持低资源语言的问题回答和事实提取任务。
-
挑战
:多语言知识图谱面临的主要挑战包括数据稀缺和语言不一致问题。低资源语言往往缺乏足够的高质量训练数据,导致模型难以学习到充分的事实性知识;此外,不同语言之间的知识表示可能存在差异,增加了知识整合的难度。
参考文献
-
[2025最新综述解读]定制化大模型的GraphRAG - 香港理工&吉林大学等
-
[2025论文解读]基于知识图谱的思考:一种知识增强的泛癌症问答大模型框架 - 中科院&广州国家实验室等
-
[VLDB24 KG+LLM论文]利用多模态和知识图谱增强大模型以实现无幻觉的开放集物体识别 - 河海大学等
-
论文浅尝 | 从大型语言模型进行情境化提炼以完成知识图谱(ACL2024)
-
(88页)知识图谱增强大模型GraphRAG 2025年最新调研综述 - 密歇根大学、Adobe、Meta、亚马逊等
-
Stardog Voicebox智能体: 知识图谱&LLM双轮驱动、释放自动化的创造力
-
“大模型+知识图谱”双轮驱动的见解、技术和评估 - 英伟达的GraphRAG
-
大模型能自动创建高质量知识图谱吗?可行性及人机协同机制 - WhyHow.AI
-
GraphRAG和轻量级LightRAG技术及应用案例深度解析
-
微软GraphRAG框架演进之路及带来的一些思考
-
LazyGraphRAG:微软重磅推出高性价比下一代GraphRAG
-
提升大型语言模型结果:何时使用GraphRAG
-
微软GraphRAG最新动态:通过动态社区选择改善全球搜索
-
GraphRAG产业化应用落地挑战和探索:知易行难 - 企业大模型独角兽Glean实践之四
-
GraphRAG从研发到上线的挑战-硅谷企业级大模型知识库独角兽Glean系列之三