现在大家经常使用 DeepSeek 等通用大模型。但是用着用着就会发现他们就像一个啥都懂但不太精的学霸,啥都能聊几句,但可能包含错误信息。
这时,个人的知识库就很重要。有知识库的大模型就像在学霸的基础上,给它塞了一堆专业资料。在遇到专业问题时,它会先翻自己的“小抄本”(知识库),回答更靠谱。
今天,我选了
可能是目前最好用的 AI 知识库
:字节的方舟知识库,支持快速搭建和多模态能力,分享如何搭建自己的AI知识库。
有多模态能力的 AI知识库
首先过一下官方介绍和核心优势。
方舟知识库是一款基于大模型技术的智能知识库服务,旨在帮助用户快速构建和部署知识库,实现文档内容的智能问答。其核心优势在于:
-
超大容量: 单文档最大支持 300M,单库规模可达 300 万篇,切片规模百亿级别。
-
高吞吐: 单日支持百万篇文档更新,满足快速迭代需求。
-
复杂文档处理能力: 尤其擅长处理包含复杂图表的文档,如财报、论文等。
保姆级使用教程
1.
进入知识库
使用地址:https://console.volcengine.com/ark/region:ark+cn-beijing/knowledge/collection/list
2)
点击“
立即开通
”按钮,进入 AI 知识库。
在入口处点击
“
创建知识库
”
按钮,输入名称及知识库描述后,
依据文档类型
选择数据类型
。目前支持
非结构化数据
(例如文章、报告、书籍等)
和
结构化数据
(例如问答总结、数据表等)
两种类型。
如果上传的文档中含有
大量带有文字的图片
,建议开启
图片 OCR
,以提高识别准确率。这个功能
几
乎秒杀大多数需要调用视觉模型的本地知识库
。
3.
测试文档选择:支持PDF、Word等常用文档
为了全面评估方舟知识库的性能,我们选取了以下三类文档进行测试:
将测试文档上传知识库,可以看到,方舟知识库对于文件格式的支持
几乎覆盖了PDF、Word、Excel等所有常见文档
,并且同时
支持
飞书文档
,以及
公开下载链接导入
。
点击“导入”后,
知识库会调用文本向量化模型构建知识库索引
。对于大文件,方舟知识库构建速度依然很快,这一点比
调用本地向量化模型部署的知识库
要好很多。查看“
切片详情
”,可以看到
文件详细的文本切片信息,
同时
支持指定查看某一个文件的切片。
接下来,我们将针对以上三类文档,详细展示火山引擎方舟知识库的实测体验。
1)
杂志解读问答(辅助伴读场景)
我们使用 2025 年第 8 期《证券市场周刊》扫描件进行测试,同时开启
图片 ocr,
提出了 3 个问题:
-
问题一:
公募基金针对哪一类经济板块进行积极投资?
这个问题的答案在杂志的第 44 页(总页数共 118 页),模型需要检索的篇幅非常多了。
进入知识库的“
知识问答
”板块,输入问题,可以看到方舟知识库很快
成功找到了正确答案并给出了准确的增长数值
,并且还
检索到了下一页
,从产业链的角度解释公募基金
具体加仓了哪些关键环节
。
同时点击“
召回详情
”,还能够查到在
问答过程中召回的切片
,并且显示
每一个切片的召回分数与召回位次
。可以看到,排在首位的召回切片成功定位到了关键信息。
值得注意的一点是,当勾选“
文档聚合排序
”时,召回切片
按照原始文档顺序,对召回的切片进行排序聚合
,以保证语序和语义正确。如果需要
按照召回分数与召回位次进行排序,请取消勾选
。
-
问题二:3 月 3 日- 3 月 7 日,百度平台周涨跌幅是多少?
这个问题的答案在杂志最末尾“
一周市场热点及重点板块个股表现
”,这是一份
图片格式的表格文件
。
这不仅要求图片 ocr 能够发挥作用,还需要识别表格信息
。
输入问题之后,方舟知识库很快
成功找到了正确答案并给出了准确的周涨跌幅。
点击“