专栏名称: 知识图谱科技
务实的人工智能布道者。跟踪介绍国内外前沿的认知智能技术(知识图谱,大语言模型GenAI)以及医药大健康、工业等行业落地案例,产品市场进展,创业商业化等
目录
相关文章推荐
51好读  ›  专栏  ›  知识图谱科技

[论文解读]知识图谱、大模型与幻觉:自然语言处理的视角 - 丹麦哥本哈根阿尔堡大学等

知识图谱科技  · 公众号  ·  · 2025-02-05 08:21

正文

摘要

大型语言模型(LLMs)已经彻底改变了包括自动化文本生成、问答、聊天机器人等在内的自然语言处理(NLP)应用。然而,它们面临一个重大挑战:即产生听起来合理但实际上错误的内容,即幻觉。这削弱了信任并限制了LLMs在不同领域的适用性。另一方面,知识图谱(KGs)提供了结构化的互联事实集合,以实体(节点)及其关系(边)的形式表示。在最近的研究中,KGs被用来提供上下文,填补LLMs在理解某些话题时的空白,提供了一种有希望的方法来减轻LLMs中的幻觉,增强它们的可靠性和准确性,同时受益于它们广泛的适用性。尽管如此,这仍然是一个非常活跃的研究领域,存在各种未解决的开放问题。在本文中,我们讨论了这些未解决的挑战,涵盖了最新的数据集和基准测试,以及知识整合和评估幻觉的方法。在我们的讨论中,我们考虑了当前大型语言模型(LLMs)在LLM系统中的使用,并针对每个挑战确定了未来的方向。

Knowledge Graphs, Large Language Models, and Hallucinations: An NLP Perspective - ScienceDirect

https://www.sciencedirect.com/science/article/pii/S1570826824000301

核心速览

研究背景

  1. 研究问题 :这篇文章要解决的问题是大型语言模型(LLMs)在生成文本时容易产生的虚假信息(即“幻觉”),这些问题损害了人们对AI系统的信任并限制了其在各个领域的应用。

  2. 研究难点 :该问题的研究难点包括:幻觉的多面性(如世界知识、自相矛盾、与提示指令或给定上下文的幻觉)、评估幻觉的复杂性(需要评估输出的语义一致性)以及现有数据集和基准测试的局限性。

  3. 相关工作 :该问题的研究相关工作有:利用知识图谱(KGs)提供结构化的事实信息来缓解LLMs的幻觉问题、现有的幻觉检测方法和评估基准。

研究方法

这篇论文提出了利用知识图谱(KGs)来缓解LLMs的幻觉问题。具体来说,

  1. 知识图谱的引入 :KGs是一种结构化的知识表示形式,由实体(节点)和它们之间的关系(边)组成。通过将KGs的信息整合到LLMs中,可以在推理或生成过程中提供事实基础,从而提高输出的一致性和准确性。

  2. 知识整合模型的分类 :根据其底层架构,知识整合模型可以分为几类。这些模型可以在不同的阶段整合额外的信息,以增强事实性。


  3. 幻觉检测方法 :提出了几种基于KGs的幻觉检测方法,如GraphEval、KGR、Fleek等。这些方法通过提取LLM输出的子图并与给定的文本上下文进行比较来进行幻觉检测。

  4. 知识整合方法 :探讨了在LLMs的不同阶段整合KGs的方法,包括预训练、推理和后生成阶段。提出了多种技术,如基于提示的知识注入、上下文感知的解码和多语言知识图谱的嵌入。

实验设计

  1. 数据集 :评估了多个现有的幻觉检测和评估数据集,如Shroom SemEval 2024、MuShroom SemEval 2025、MedHalt等。这些数据集涵盖了多个领域和任务类型,但大多数缺乏专门用于训练参数化知识整合模型的训练集。

  2. 评估指标 :使用了多种评估指标,如准确率、校准、F1分数等,以全面评估模型的性能。特别是对于生成任务,采用了BERTScore和BARTScore等语义相似度度量方法。

  3. 多提示评估 :为了评估LLMs对不同输入表述的鲁棒性,使用了DefAn数据集,该数据集为每个问答数据点提供了15种不同的问题重述。

结果与分析

  1. 幻觉检测效果 :基于KGs的幻觉检测方法在不同数据集上的表现各异。一些方法在特定任务上表现出较高的准确性,但在其他任务上效果不佳。这表明需要进一步的研究和改进,以提高方法的通用性和可靠性。

  2. 知识整合效果 :在预训练阶段整合KGs的知识可以显著提高LLMs的事实性。然而,这种方法在快速知识更新方面存在局限性。推理和后生成阶段的整合方法也显示出一定的潜力,但仍需解决提示模板的脆弱性和计算成本高等问题。

  3. 多语言评估 :现有的多语言知识图谱在低资源语言中的应用显示出显著的优势。然而,多语言知识整合仍然面临数据稀缺和语言不一致等挑战。

总体结论

这篇论文总结了利用知识图谱(KGs)缓解LLMs幻觉问题的研究现状和局限性。尽管已有方法提出了一些解决方案,但幻觉缓解仍然是一个持续的研究难题。论文提出了未来研究的几个方向,包括大规模数据集的构建、多语言和多任务的评估、细粒度的幻觉检测、减少对文本提示的依赖以及混合使用不同的幻觉缓解方法。通过这些研究方向,论文希望为LLMs的幻觉问题提供更全面和有效的解决方案。

论文评价

优点与创新

  1. 全面性 :论文详细讨论了知识图谱(KGs)在缓解大型语言模型(LLMs)生成幻觉现象中的潜力,涵盖了当前的研究现状、局限性以及未来的研究方向。

  2. 分类方法 :提出了基于不同架构的知识集成模型的分类方法,并展示了在不同阶段整合外部知识的可能性。

  3. 资源梳理 :总结了现有的评估幻觉的资源和基准测试,指出了这些资源的不足之处,如多语言支持、细粒度评估等。

  4. 未来方向 :提出了多个未来研究方向,包括大规模数据集、细粒度的幻觉检测、非文本提示的知识集成方法等,为后续研究提供了明确的指导。

  5. 多语言支持 :强调了多语言知识图谱在低资源语言中的重要性,提出了通过静态编码和多语言知识图谱增强语言模型的方法。

不足与反思

  1. 数据集局限性 :现有的评估数据集大多集中在英语,缺乏多语言支持,限制了LLMs技术的普及和应用。

  2. 知识图谱的局限性 :讨论了知识图谱在处理幻觉时的局限性,如数据完整性、准确性和多语言覆盖范围等问题。

  3. 方法的可扩展性 :对依赖多阶段管道提取和验证声明的方法表示怀疑,认为这些方法的可扩展性和可靠性需要进一步验证。

  4. 细粒度幻觉检测 :呼吁进行更细粒度的幻觉检测,以便更好地理解和解决幻觉问题。

  5. 非文本提示的知识集成 :建议研究远离文本提示的知识集成方法,以应对提示格式和理解上的局限性。

  6. 混合方法的研究 :建议研究混合和匹配不同的幻觉缓解方法,以了解这些方法之间的互补性。

关键问题及回答

问题1:论文中提到的基于知识图谱(KGs)的幻觉检测方法有哪些?它们各自的优缺点是什么?

  1. GraphEval :通过提取LLM输出的子图并与给定的文本上下文进行比较来进行幻觉检测。优点是可以提供细粒度的错误分析,缺点是依赖于LLM的提示模板,可能受到提示脆弱性的影响。

  2. KGR :通过提取源文本和生成文本之间的KG子图来检测幻觉。优点是可以通过命名实体来捕捉更具体的信息,缺点是可能丢失更抽象概念的详细信息。

  3. Fleek :提取相关的结构化三元组并验证它们是否与KG或Web搜索结果一致。优点是可以通过外部知识源进行事实检查,缺点是依赖于额外的LLM进行问题生成,增加了计算成本。

问题2:论文中提到的在LLMs的不同阶段整合KGs的方法有哪些?这些方法在实际操作中存在哪些挑战?

  1. 预训练阶段 :通过将KG三元组作为训练数据的一部分,使模型在预训练过程中学习到事实性知识。优点是可以显著提高模型的事实性,缺点是知识是静态编码的,无法快速更新。

  2. 推理阶段 :通过提示(prompting)将KG知识注入到LLMs中。优点是简单易行,缺点是依赖于手工设计的提示模板,且缺乏对提示文本的控制,容易导致错误。

  3. 后生成阶段 :在生成答案后,通过外部KG进行事实检查并进行修正。优点是可以实时修正错误,缺点是增加了计算成本,且需要多步推理过程。

问题3:论文中提到的多语言知识图谱在低资源语言中的应用有哪些优势?面临哪些挑战?

  1. 优势 :多语言知识图谱可以帮助低资源语言更好地理解和处理语言数据,提高模型在跨语言任务中的表现。例如,通过多语言KG,可以更好地支持低资源语言的问题回答和事实提取任务。

  2. 挑战 :多语言知识图谱面临的主要挑战包括数据稀缺和语言不一致问题。低资源语言往往缺乏足够的高质量训练数据,导致模型难以学习到充分的事实性知识;此外,不同语言之间的知识表示可能存在差异,增加了知识整合的难度。


参考文献

  1. [2025最新综述解读]定制化大模型的GraphRAG - 香港理工&吉林大学等

  2. [2025论文解读]基于知识图谱的思考:一种知识增强的泛癌症问答大模型框架 - 中科院&广州国家实验室等

  3. [VLDB24 KG+LLM论文]利用多模态和知识图谱增强大模型以实现无幻觉的开放集物体识别 - 河海大学等

  4. 论文浅尝 | 从大型语言模型进行情境化提炼以完成知识图谱(ACL2024)

  5. (88页)知识图谱增强大模型GraphRAG 2025年最新调研综述 - 密歇根大学、Adobe、Meta、亚马逊等

  6. Stardog Voicebox智能体: 知识图谱&LLM双轮驱动、释放自动化的创造力

  7. “大模型+知识图谱”双轮驱动的见解、技术和评估 - 英伟达的GraphRAG

  8. 大模型能自动创建高质量知识图谱吗?可行性及人机协同机制 - WhyHow.AI

  9. GraphRAG和轻量级LightRAG技术及应用案例深度解析

  10. 微软GraphRAG框架演进之路及带来的一些思考

  11. LazyGraphRAG:微软重磅推出高性价比下一代GraphRAG

  12. 提升大型语言模型结果:何时使用GraphRAG

  13. 微软GraphRAG最新动态:通过动态社区选择改善全球搜索

  14. GraphRAG产业化应用落地挑战和探索:知易行难 - 企业大模型独角兽Glean实践之四

  15. GraphRAG从研发到上线的挑战-硅谷企业级大模型知识库独角兽Glean系列之三







请到「今天看啥」查看全文