初识 GraphRAG

全栈修仙之路 · 公众号 · · 2025-02-12 08:46

正文

生成式AI技术发展曲线

随着大语言模型(LLM)飞速发展，LLMs正在以前所未有的速度改变着我们与信息互动的方式。然而，尽管 LLMs 具有强大的功能，但确存在一些明显缺点，比如幻觉问题、可解释性差、抓不住问题重点、隐私和安全问题等。

大模型问题

信息准确性问题：生成式模型可能会“幻觉”（hallucinate），即生成与事实不符的内容。比如预训练的数据不完整、过期，模型采用的训练策略有特定偏好，推理解码策略的随机性等都会造成大模型"说胡话"。
知识时效性问题：生成模型的知识范围仅限于训练数据和训练时间点，缺乏实时性。
知识覆盖问题：大规模模型虽然包含广泛的知识，但面对某些领域的细节或长尾问题，可能回答不准确或无效。

RAG是什么？

RAG，正是为了尽可能地解决大模型在实际应用中面临的一些问题，特别是“幻觉”问题而诞生的，也是最重要的一种优化方案。

将传统的生成式大模型与实时信息检索技术相结合，为大模型补充来自外部的相关数据与上下文，以帮助大模型生成更丰富、更准确、更可靠的内容。这允许大模型在生成内容时可以依赖实时与个性化的数据和知识，而不只是依赖训练知识。简单的说：RAG给大模型增加了一个可以快速查找的知识外挂。

用一个例子帮助理解RAG：

如果把大模型比喻成一个经过大量知识与技能训练的优秀学生，把大模型响应的过程比喻成考试，那么这个优秀学生在考试时仍然可能会遇到没有掌握的知识，从而编造答案（幻觉）。

RAG就是在这个学生考试时临时给他的一本参考书。我们可以要求他在考试时尽量参考这本书作答，那么在遇到与这本书中的知识相关的问题时，他的得分是不是就高多了呢？

RAG架构

最基础的RAG架构流程

通常情况下，可以把一个简单的RAG应用从整体上分为数据索引（Indexing）与数据查询（Query）两个大的阶段，而在每个阶段都包含不同的处理环节。以上面的举例来解释：

索引阶段就是编写考试时需要的参考书，这本书要容易快速查找特定知识。
查询阶段就是考试时使用这本书的过程，先查找参考资料，然后解答问题。

传统RAG的问题

RAG虽然能够较好的回答一些事实性问题，但是在面对一些统计性、总结性、概要性的QFS问题（Query-Focused Summarization）时却表现非常差：当回答问题需要通过共享属性遍历不同的信息片段以提供新的综合见解时，就会发生这种情况，不能像人类思考问题时，将各个点连接起来进行总结概括主题。

GraphRAG基础

在开始之前，我们先快速了解图（Graph）、图数据库（GraphDB）、知识图谱（Knowledge Graph）以及GraphRAG的基础知识。

图

图（Graph）是一种用来表示对象以及它们之间关系的数学结构。任何两个对象之间都可以直接发生联系，所以适合表达更复杂的关系信息。一个图结构的主要的组成是节点和边。

节点：用来表示一个对象。比如一部电影、电影中的一个演员......
边：用来表示对象之间的关系。比如演员Tom参演了电影的一个角色

图数据库（GraphDB）

图数据库是一种专门用于存储和操作图结构数据的数据库管理系统。与关系型数据库不同，图数据库使用图数据库是一种专门用于存储和操作图结构数据的数据库管理系统。与关系型数据库不同，图数据库使用节点、边和属性来表示和存储数据。这使得它们非常适合处理高度连接的数据，提供高性能的复杂查询能力，用来遍历与发现有洞察力的数据关系。其最大特点是：