在当今信息爆炸的时代,我们每天都在与海量的文档打交道,无论是研究报告、学术论文还是日常的工作文件。随着数据量的不断增长,如何高效地从这些文档中提取所需信息成为了一个挑战。
随着 AI 技术的发展和 RAG 技术的出现,前面遇到的问题,有了一个很不错的解决方案。将您的文档转化为一个智能的知识库,让您能够通过简单的对话就能获取深入的洞察和答案。
本文 Kakuqo 将介绍近期 Github 上非常火爆的开源项目 ——
Kotaemon
。
Kotaemon
是一个基于 RAG 的开源工具,让你可以轻松地与您的文档 “聊天”💬。
kotaemon 主要特点
-
自托管文档问答 (RAG) Web-UI
:支持多用户登录,组织文件到私人/公共集合,协作并分享你喜欢的聊天记录。
-
组织 LLM 和嵌入模型
:支持本地 LLM 和主流的 API 提供商(如 OpenAI、Azure、Ollama、Groq)。
-
混合 RAG 管道
:提供默认的混合(全文和向量)检索器和重新排序,以确保最佳检索质量。
-
多模态问答支持
:在多个包含图表和表格的文档上执行问答,支持多模态文档解析。
-
高级引用和文档预览
:系统默认提供详细引用以确保 LLM 答案的正确性。可以在浏览器内的 PDF 查看器中直接查看引用(包括相关评分)并高亮显示。当检索管道返回低相关性文章时会发出警告。
-
支持复杂推理方法
:使用问题分解来回答复杂/多跳问题。支持基于代理的推理方法,如 ReAct、ReWOO 和其他代理。
-
可扩展:
基于 Gradio 构建,您可以随意自定义/添加任何 UI 元素。支持多种文档索引和检索策略,还提供了 GraphRAG 索引管道的示例。
kotaemon 使用示例
添加 AI 模型
文件上传
与文档聊天
信息面板
kotaemon 快速上手
为了方便大家快速体验 kotaemon 的功能,kotaemon 作者很贴心为我们提供了一个线上版本。
https://huggingface.co/spaces/cin-model/kotaemon-demo
除此之外,该项目也支持本地部署,提供了 App、Docker 部署和非 Docker 部署的方案。
安装 App
从 Github kotaemon 仓库的 releases 界面,下载最新的版本,目前最新版本是
v0.4.4
。
App 安装步骤:
-
-
导航到 scripts 文件夹并启动与您的操作系统匹配的安装程序:
-
Windows: 运行 run_windows.bat。只需双击该文件。
-
-
-
-
注意:如果您希望始终使用终端打开该文件,请勾选“始终使用此方式打开”。
-
Linux: 运行 run_linux.sh。请在终端中使用 bash run_linux.sh 运行该脚本。
-
安装完成后,安装程序会询问是否启动 ktem 的 UI,回答继续。
-