代码链接:
https://github.com/HKUDS/MiniRAG
https://arxiv.org/abs/2501.06713
https://github.com/HKUDS
检索增强生成(RAG)技术在向小型语言模型(SLMs)迁移时面临重大挑战。尽管 SLMs 在计算效率和部署灵活性方面具有明显优势,但传统 RAG 架构过度依赖大语言模型的强大能力,导致在使用 SLMs 时出现严重的性能衰退。
具体而言,SLMs 在复杂查询理解、多步推理、语义匹配和信息合成等关键 RAG 任务上存在固有局限。这种不匹配要么导致系统性能显著下降,要么使某些高级 RAG 框架(如 GraphRAG)在迁移到 SLMs 时完全失效。
针对这一技术瓶颈,香港大学黄超教授团队提出了创新的 MiniRAG 系统,通过重新设计检索和生成流程,实现了面向 SLMs 的轻量级 RAG 解决方案。该方案基于三个关键发现:
MiniRAG 框架由两个核心组件构成:1)异构图索引(详见 2.1 节),构建语义感知的知识表示体系;2)轻量级图式知识检索(详见 2.2 节),实现精准高效的信息获取。在设备端部署 RAG 系统时,小型语言模型(SLMs)的固有局限主要体现在两个方面:
- 语义理解能力受限:难以准确提取和理解文本中实体间的复杂关系,对数据块间微妙的上下文联系把握不足
- 信息处理效率不足:无法有效总结大规模文本内容,在过滤和处理含噪声的检索结果时表现欠佳
为克服这些挑战,研究团队创新性地提出了基于语义感知异构图的索引机制。该机制通过系统性地整合文本块和命名实体,构建了一个富有表达力的语义网络,为精确检索奠定基础。异构图包含两类关键节点:
- 实体节点:提取自文本的核心语义元素,涵盖事件、地点、时间标记及领域概念
这种双层节点架构使文本块能够直接参与检索过程,有效保证了相关上下文的准确识别,同时巧妙规避了小型语言模型在文本总结方面的固有缺陷。设备端 RAG 系统面临着独特挑战:计算资源受限且需要保护数据隐私,这使得无法部署大型语言模型和复杂的文本嵌入模型。针对这一现状,MiniRAG 中的知识检索机制巧妙结合语义感知异构图和轻量级文本嵌入,实现了高效精准的知识获取。检索过程的核心任务是准确识别与用户查询相关的文本元素,为模型生成高质量响应提供支持。MiniRAG 采用了一种优化策略:利用小型语言模型在实体提取方面的优势,实现查询的精准解析和索引数据的智能匹配。这种方法既保持了操作的简洁性,又确保了检索效果。为突破小型语言模型在知识检索上的固有局限,研究团队设计了创新的拓扑感知检索方法,有机融合异构知识图中的语义信息和结构特征。具体实现采用两阶段策略:
这种双层检索机制既保证了检索的准确性,又提升了系统的整体效率。
MiniRAG 通过巧妙的架构设计实现了一个重要突破:在设备端构建高效的 RAG 系统,既无需依赖大型模型,又能兼顾性能与隐私保护。研究团队围绕以下三个核心问题展开全面评估:
性能对标:评估 MiniRAG 在检索准确度和运行效率方面与当前最先进方案的对比表现
架构解析:深入分析各核心组件对 MiniRAG 整体性能的具体贡献
案例研究:通过典型案例研究,考察 MiniRAG 在复杂多步推理任务中的实际表现
数据集:为全面验证 MiniRAG 在设备端 RAG 场景的性能,研究团队精选了两个具有代表性的数据集:LiHua-World:合成个人通信数据集,和 Multihop-RAG:短文档新闻数据集LiHua-World 这是一个专为端侧 RAG 场景定制的数据集,模拟记录了虚拟用户 LiHua 整年的通讯内容。数据集特点:
问题类型:覆盖单跳、多跳和总结性问题
数据标注:配备人工标注的标准答案和支持文档
内容范围:涵盖社交、健身、娱乐、生活等多维度场景
评估指标:研究采用两个核心指标衡量 RAG 系统的生成效果:
- 错误率(err):监测系统产生未被识别的错误信息的频率
3.2 性能对标分析
- 现有 RAG 系统在迁移至小型语言模型(SLMs)时存在严重性能衰减
- LightRAG 的性能显著下滑(降幅高达 45.43%)
创新的双节点异构图结构重构了索引机制
显著降低了对大型模型的依赖
借助拓扑增强的检索机制实现稳定性能
最大性能降幅仅 21.26%
最小性能降幅仅 0.79%
- 显著的存储优化: 相比基线方法(如使用 gpt-4o-mini 的 LightRAG),存储需求降低 75%
- 较好的性能表现: 保持高水准的准确率, 在部分场景下甚至超越基线表现
研究团队通过设计两组关键实验变体,系统评估了 MiniRAG 各核心组件的独立贡献。首个变体(-)将 MiniRAG 的异构图索引替换为传统的基于描述的索引方法,这种方法类似于 LightRAG 和 GraphRAG,需要全面的语义理解来生成准确的实体和边描述。另一个变体(-)则通过选择性停用图检索过程中的特定模块,深入分析各组件对系统整体性能的影响。实验结果揭示了两个关键发现:
首先,当使用文本语义驱动的索引技术(-)替代 MiniRAG 的索引方法时,系统性能显著下降,这验证了小型语言模型(SLMs)在全面语义理解方面的固有局限,特别是在生成复杂知识图谱和创建全面文本描述方面的能力不足;其次,实验证实了结构组件的重要性,移除边信息(-)或块节点(-)都会显著影响系统表现,这些元素不仅通过查询引导的推理路径发现促进有效的查询匹配,还在数据索引阶段有效弥补了 SLMs 的固有局限性。3.4 案例研究
该工作通过一个餐厅识别的复杂场景,全面展示了 MiniRAG 在实践中的卓越性能。该案例不仅验证了系统处理多约束查询的能力,更突显了其克服小型语言模型局限性的优势。
复杂查询场景分析。研究团队使用一个复杂查询场景对 MiniRAG 和 LightRAG 进行了对比案例研究,查询为:Wolfgang 和 Li Hua 为庆祝 Wolfgang 升职而共进晚餐的那家意大利餐厅叫什么名字? 该查询提出了多重挑战,要求系统从在线聊天数据中识别出特定的意大利餐厅,并将其与升职庆祝的上下文关联起来。尽管 LightRAG 具备一定能力,但由于其底层小型语言模型(phi-3.5-mini-instruct)的局限性,它在这一任务中表现不佳。SLM 在提取适当的 high-level 信息方面的限制,加上基于图的索引中的噪声,导致直接嵌入匹配效果不佳,最终阻碍了准确答案的检索。 解决方案:MiniRAG 通过其独特的查询引导推理机制成功应对了这一挑战。系统首先利用异构图索引结构构建查询相关的知识路径,从答案类型预测('社交互动'或'地点')开始,通过目标实体匹配逐步推进。这种结构化的推理方法配合查询元素的策略性分解(专注于'意大利场所'和'餐厅'语境),使系统能够精确导航知识空间。通过查询引导推理与异构图索引的协同作用,MiniRAG 成功在多个意大利餐厅中筛选出与升职庆祝情境相关的目标场所——Venedia Grancaffe。'在当前 AI 领域,大型语言模型(LLMs)虽然表现出色,但高计算资源消耗和隐私安全风险严重制约了其在边缘设备的实际应用。业界普遍认为,使用小型语言模型(SLMs)是一个可行的替代方案,但 SLMs 在语义理解和知识检索方面的固有局限性,让许多研究者对其应用前景持怀疑态度。
该研究团队开源的 MiniRAG 通过创新的异构图索引架构和轻量级启发式检索机制,成功让 SLMs 在检索增强生成(RAG)任务中发挥出超乎预期的性能。实验结果令人振奋:采用小型语言模型的 MiniRAG 竟能达到与使用大模型的传统方法相当的效果,同时显著降低了计算资源需求。更具突破性的是,研究团队发布的首个设备端 RAG 评估基准数据集,通过真实场景验证了这一方案的可行性。这项研究不仅证明了小型模型的巨大潜力,更为边缘设备AI的普及铺平了道路,使高性能、低成本、保隐私的设备端智能成为可能。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧