报告聚焦 AI 大模型领域,对过去一年的技术演进动态、技术趋势、以及开源开发者生态数据进行多方位的总结和梳理。
在第二章《TOP 101-2024 大模型观点》中,蚂蚁集团知识引擎负责人,KAG 项目负责人
梁磊
认为,随着大模型训练范式从预训练(Pre-training)阶段向后训练(Post-Training)阶段的迁移,人们的关注焦点也逐渐从语言模型的生成能力越来越多转向推理能力。
这一转变的本质是更加重视模型理解和处理复杂问题的能力。可以预见,2025 年基于知识图谱 + 大语言模型的垂域推理应用和开源项目将越来越多的涌现,为垂直领域的复杂问题问答推理提供新的解决方案。
全文如下:
2024:大模型背景下知识图谱的理性回归
文 / 梁磊
2024 年 11 月 30 日,适逢 GPT 3.5 发布两周年,在过去的两年时间里,国内的大模型产业在基座模型、智能体(Agent)技术以及检索增强生成(RAG)等方面都取得了显著的进步,并催生了众多优秀的开源项目。
随着越来越多高质量和多样化的数据被加入到预训练数据中,如通义千问、DeepSeek、文心一言、蚂蚁百灵等基座大模型在知识掌握、推理能力和理解水平上都有了显著的提升,在诸多榜单和真实问题上展现出了超越 GPT-4o 的水平。
然而,大模型幻觉、数据时效性、隐私安全、以及推理解释性等问题并没有随着模型能力越来越强而消失,这些问题仍然存在并严重阻碍着大语言模型在垂直领域的应用。这也造就了模型越来越强,垂直领域的杀手级应用依然没有出现的怪象。
为了应对这些问题挑战,行业及社区都在不断的积极探索外部知识库与大型语言模型的方式来寻找解决方案。在此过程中,涌现出了许多出色的开源项目,它们的技术路径大致可以分为两类:一类是基于搜索引擎技术的改进,另一类则是基于知识图谱技术的发展。
2024 年有多个搜索引擎为基础的 RAG 框架发布并取得比较大的关注,包括 QAnything、Ragflow、MaxKB 等近 20 个开源框架。这类都是比较经典的方法,以搜索引擎的向量检索和文本检索为基础为大语言模型提供外挂的文本知识库,能够在保证垂直领域数据隐私安全的前提下,将私域知识与大语言模型有效融合提升垂直领域的应用效率。RAG 开源项目通常集 Chunk 切分、向量化、存储、检索、生成等几个阶段于一体,其核心在于其中的不同策略适应和优化,如文档处理、检索策略等。
以搜索引擎为基础的演进方案以文档检索为开始,以大语言模型的生成为终。RAG 回答问题的准确率受限于召回的 Chunks 和 LLM 的生成能力,也受限于搜索引擎向量相似度计算的不足,传统搜索引擎解决不了的问题,如难以感知文档间细粒度的实体知识关联、无法对文档内知识的知识要素执行逻辑推理等,这类 RAG 方法依然解决不了。这也让开发者陷入了 “一周出 demo,半年用不好” 的困境。为克服以搜索引擎为基础方法在向量计算和逻辑推理方面的不足,业界也涌现出了越来越多基于知识图谱的方案。
知识图谱技术是 2012 年 Google 为改善搜索引擎的质量和相关性而提出的,他能够构建并理解实体及其之间的关系,能够整合不同来源的文档实现跨文档的实体关联,这使得知识图谱可以对用户查询提供更加精确和语境化的回答,可以突破向量计算的瓶颈而执行多步推理、逻辑推理。尽管有这些优势,知识图谱因其较高的构建和维护成本高,过去这几年也遭到了较多的诟病。
大模型技术的出现,为知识图谱技术的发展提供了新的机遇窗口。如何充分利用大语言模型的能力来克服知识图谱的不足,并充分发挥知识图谱的优势?2024 年,涌现出了多个不错的开源项目并获得了广泛的关注。
2024 年初有两个非常有代表性的工作,微软发布的 GraphRAG 和俄亥俄州立大学发布的 HippoRAG。两者都引入了知识图谱的方法通过开放信息抽取 (OpenIE) 来构建跨文档的细粒度语义关联以期缓解 RAG 在这方面的不足。
GraphRAG 借助大模型和社区挖掘构建层次化社区摘要以支持能更全面的回答全局性问题,比如 “文档中的娱乐明星都出席过哪些活动”,而 HippoRAG 则引入了 PPR 及 IRCoT 的方法来挖掘跨文档的事实关联以回答多跳事实问答,比如 "斯坦福哪个教授是从事神经科学阿尔兹海默症研究的"。两者的核心目标依然是更有效的召回与目标 Query 相关的 Chunks,以生成更高质量的摘要或事实问答。但由于这两个方法的目标有所不同,导致它们的技术路线在 Chunks 构建、召回、答案生成及评价指标上有所差异。
GraphRAG 使用大型语言模型 (LLM)提取的知识图谱。图片来源于:
https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/
GraphRAG 类方法有效缓解了 RAG 跨文档语义关联不足的问题,无论在摘要问答和多跳问答上都取得了较大的效果提升,证明了这类方法的有效性。
后续开源的 LightRAG、DB-GPT、lazyGraphRAG 是针对 GraphRAG 资源消耗大的方法改进,OpenSPG 开源的 KAG 较多的借鉴了 HippoRAG 的思想。GraphRAG 类方法因引入 OpenIE 抽取而引入了大量噪声导致构建的知识图谱并不能直接应用于推理,知识图谱强事实性、准确推理等优势并没有得到有效发挥。
2024 年也有较多以传统知识图谱 KBQA 为基础的方法,通过大模型重塑了问答阶段的问题理解和答案生成过程,同时通过大模型 SFT 技术提升问题的逻辑拆解、三元组提取的准确性,具体到图谱的推理和检索过程与传统的 KBQA 类方法基本一致,比较有代表性的工作包括 ChatKBQA、ToG 等。
这类方法是比较纯正的知识图谱技术路线,实现了结构化知识图谱与大模型技术的结合。社区关注度较高的 ToG 也推出了 2.0 版本在处理复杂推理任务、增强深度推理能力以及提供可解释和可追溯的推理路径方面更加出色。KBQA 为基础的方法依赖已构建完备的知识图谱,知识图谱长期被诟病的构建门槛高的问题依然没有得到缓解。
2024 年 10 月蚂蚁集团发布的 OpenSPG/KAG 是知识图谱类方法中比较值得关注的,它主张逻辑符号引导的推理和检索以提升垂直领域知识问答的逻辑性、事实性。KAG 在框架设计中充分考虑了知识图谱、向量检索及大语言模型的能力优势,传统知识图谱被广为诟病的构建门槛高、知识稀疏性等问题在 KAG 框架中都得到了较多的诠释。
KAG 框架是结合医疗、政务等垂直领域应用打磨而来,其中为降低领域知识图谱的构建门槛,KAG 适配了开放信息抽取以支持垂直领域的开箱即用和快速冷启动,并通过自动知识对齐模块来缓解开放信息抽取带来的噪声问题;为提升推理准确性并降低知识稀疏性带来的影响,KAG 引入了分层知识推理与检索框架,在结构化推理无果的情况下借鉴 QFS 的思想从 Chunks 中检索与目标问题相关的答案。
KAG 框架上算是知识图谱与大模型技术的集大成者,代码中大量使用的本体结构、逻辑规则等图谱的技术元素。KAG 目前开放的是一个比较基础的版本,一般用户的上手成本还比较低,基本可以开箱即用。同时,结合垂直领域的推理要求还有较多工作需要持续优化,大量使用的图谱技术也让开发者的优化有一些学习门槛。
随着大模型训练范式从预训练(Pre-training)阶段向后训练(Post-Training)阶段的迁移,人们的关注焦点也逐渐从语言模型的生成能力越来越多转向推理能力。这一转变的本质是更加重视模型理解和处理复杂问题的能力。
以此为驱动,垂直领域私域知识库的应用也会更关注解决复杂问题的能力,如指标解读、研报生成、诊疗决策、表格计算、事实问答等,这些都是传统 RAG 向量计算模型难以解决的。
随着大语言模型理解能力的不断增强,知识图谱可以不断克服并降低其构建门槛高、知识稀疏性等带来的影响,其固有的强推理能力和高可解释性的优势将得到更充分的发挥。
可以预见,2025 年基于知识图谱 + 大语言模型的垂域推理应用和开源项目将越来越多的涌现,为垂直领域的复杂问题问答推理提供新的解决方案。