专栏名称: CloudMan
云计算深度实践者;定期发布《每天5分钟玩转OpenStack》教程;让 OpenStack 不再难学!
目录
相关文章推荐
机器之心  ·  刚刚,OpenAI开启语音智能体时代,API ... ·  昨天  
爱可可-爱生活  ·  //@爱可可-爱生活:明天开奖,欢迎参与!- ... ·  昨天  
51好读  ›  专栏  ›  CloudMan

网文校对系统 - 新方案

CloudMan  · 公众号  · AI  · 2025-03-21 05:37

主要观点总结

本文主要描述了作者对基于知识库的校对方案的期望与失望,并探讨了知识库在问答系统和网文校对场景中的不同应用。文章详细阐述了R1提出的知识库方案,包括构建知识图谱的步骤和概念,以及与厂商知识库的对比。文章还探讨了AI在探索新领域的作用,并询问了关于无上下文窗口限制情况下知识库校对的效果。

关键观点总结

关键观点1: 知识库在问答系统和网文校对中的应用差异

知识库对于问答系统有效,但在网文校对中需要更详细的信息,需要提取关键信息构建知识图谱。

关键观点2: R1提出的知识库方案介绍

包括文本分块切割、关键信息提取和向量化存储三个步骤,其中关键信息提取是重点,主要关注实体和关系。

关键观点3: 与厂商知识库的对比

R1方案关注实体和关系的准确度和细节,与厂商知识库在信息的准确度及颗粒度大小上有所区别。

关键观点4: AI在探索新领域的作用

AI可以作为领域专家,通过提问和回答的方式帮助人们理解新概念和方案,有助于高效探索新领域。

关键观点5: 关于无上下文窗口限制的情况

理论上可行,但可能面临计算复杂度和效率挑战。


正文

坦白讲,我对上一节基于知识库的校对方案本是抱有很大期望的。想着所有的内容都在那儿了,再加上R1强大的推理能力,还不是手到擒来?

可事实是如此残酷,脸被打得啪啪响。

失望归失望,问题还是得面对。

这里要特别说明一下:

知识库肯定是有用的,特别是对于问答系统,只是不适合网文校对的场景。

我们必须找新的方案。

这又一次进入到CloudMan的知识盲区,我没有任何经验可以依赖。

但AI有经验啊!

我先把需求提交给DeepSeek R1,让它推荐方案。下面是R1的回复:

可以看出R1对需求理解得还是很准确的,知道把校对的重点放在一致性上。

不过方案的核心也是构建知识库。看到这里我就忍不住要问了:既然都是知识库,那用coze的知识库行不行?

于是我赶紧把这个问题提交给R1:

R1细数了厂商知识库的核心短板与网文需求之间的矛盾。

而且R1还给出一个例子,进一步说明厂商知识库的不足:

我已经被说服了我。R1所描述的厂商知识库的工作方式确实与咱们上一节在调试窗口看到情况一致。

既然R1对厂商知识库的缺点认识得这么深刻,那我们就不得不好好看看它提出的知识库方案了。

构建知识库有三个步骤:

  1. 文本分块切割,这个好理解。
  2. 关键信息提取,这步看上去是重点,待会儿仔细研究。
  3. 向量化存储,应该是把上一步提取的信息保存起来。

看看关键信息提取:

在跟R1的后续对话中,我了解到“实体”和“关系”是最重要的信息。按照二八原则和开发最小可行产品的思路,先搞定这两个。

对于网络小说,

实体 就是角色,物品,事件及其属性。
比如实体“萧炎”
类型“人物”
属性有“身份-斗帝”,“功法-焚决”,“伴侣-彩鳞”,“职业”等。

关系 当然就是实体之间的关系了。
比如师徒关系,归属关系等。

看到这里,不知道大家有没有这样的疑问:







请到「今天看啥」查看全文