专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
目录
相关文章推荐
51好读  ›  专栏  ›  Datawhale

DeepSeek接入个人知识库,保姆级教程来了!

Datawhale  · 公众号  ·  · 2025-02-25 22:00

正文

Datawhale干货

作者:张龙斐, Datawhale鲸英助教

面向人群:计算机小白

阅读时间:7分钟

上次的《 最全梳理:一文搞懂 RAG 技术的5种范式! 》梳理了对 RAG 进行了一个完整的综述。这次带来 RAG 的小白应用教程:介绍如何通过 ragflow 框架把 DeepSeek 接入到自己的个人知识库中,当然其他模型也是类似,可以自由搭配。
先看效果:

Image

ragflow 简介:

RAGFlow 是一款基于深度文档理解的开源检索增强生成(Retrieval-Augmented Generation,RAG)引擎,旨在通过结合信息检索和生成式 AI 的优势,解决现有技术在数据处理和生成答案方面的挑战。

作用

RAGFlow 广泛应用于需要动态生成内容且依赖外部知识库的场景,例如:
  • 智能客服 :实时从企业知识库中检索相关信息,为客户提供准确、个性化的解答。
  • 文档生成与报告分析 :从多个数据源中检索信息并生成结构化的文档或摘要,适合大规模内容管理。
  • 辅助诊断 :医疗专业人员可以通过 RAGFlow 快速查找相关医学文献和病例资料,为诊断和治疗提供参考。
  • 文献综述 :帮助学生和研究人员快速定位和分析相关的学术文献,高效完成文献综述的撰写。
  • 新闻报道与投资分析 :记者和金融机构可以利用 RAGFlow 整合和提炼大量素材,生成新闻稿件或投资分析报告。

优势

  1. 深度文档理解 :能够从复杂格式的非结构化数据中精准提取知识,支持多种文档格式(如 Word、PPT、Excel、PDF 等),并自动识别文档布局。
  2. 降低幻觉风险 :提供清晰的关键引用来源,支持文本分块的可视化和人工干预,确保生成答案有据可依。
  3. 兼容异构数据源 :无缝处理多种数据格式,整合不同来源的数据,为用户提供一站式的数据处理和问答体验。
  4. 自动化工作流 :支持从个人应用到超大型企业的各类生态系统,提供易用的 API,便于快速集成到各类业务系统。
  5. 高效性与成本优化 :通过动态优化流程,减少不必要的计算和查询次数,降低运行成本。
  6. 精准性与可靠性 :检索和生成环节相辅相成,确保最终结果的准确性和可靠性。
RAGFlow 的这些特性和优势使其在信息检索和内容生成领域具有广泛的应用前景和显著的竞争力。

我的理解呢,ragflow的意义在于它把原本复杂的rag系统开发,处理成了零代码开发模式,方便非计算机背景的人也可以进行rag系统的搭建和维护,而且融入了类似dify的强大的工作流编排功能。

ragflow 本地 windows 部署

配置要求:ragflow是一个相当“重”的项目,如果你的电脑不满足以下条件,请不要随意尝试
Image

一、软件配置安装

首先我们需要安装好 docker 软件
https://www.runoob.com/docker/windows-docker-install.html
安装好 docker 后启动即可,不用登陆不用设置任何东西,一路跳过。
这里我们需要配置 docker 镜像源
Image

{
  "registry-mirrors": [
    "https://registry.docker-cn.com",
    "http://hub-mirror.c.163.com",
    "https://docker.mirrors.ustc.edu.cn"
  ],
  "insecure-registries": [],
  "debug"false,
  "experimental"false,
  "features": {
    "buildkit"true
  },
  "builder": {
    "gc": {
      "enabled"true,
      "defaultKeepStorage""20GB"
    }
  }
}
上方代码粘贴替换完毕后点击右下角
Image
到这里我们的 docker 就配置好了
然后我们需要安装 git:https://cloud.tencent.com/developer/article/2099150






请到「今天看啥」查看全文