本文主要描述了与R1讨论后逐步清晰的校对模块方案,从基于规则的校对引擎到大模型自然语言理解和推理的应用。重点介绍了实体识别和关系数据提取的重要性,以及如何利用这些知识构建校对系统。文章还提到了AI在开发中的应用和潜力,强调了AI对人们学习和发展新技能的影响。
文章描述了与R1的讨论过程中,校对模块方案如何从初步的规则设定,逐步发展到大模型的应用,以及如何利用上下文信息提高校对效果。
文章强调了在校对过程中,通过实体识别和关系数据提取获取上下文信息的必要性,这是构建有效校对系统的关键。
文章通过具体案例展示了AI在开发中的应用,如校对对新章节内容的一致性错误和创建问答系统等功能,突显了AI降低应用开发的门槛以及指导人的作用。
校对模块的方案也是在与R1的讨论中逐步清晰和完善的。
我会尽量还原这个过程,让大家体会与AI相互启发的乐趣。至于最终结伦则不是最重要了。
R1最开始提出了一个基于规则的校对引擎,其核心是用不同的规则检查不同类型的一致性错误。
这里列举了三类规则:死亡一致性(DeathConsistencyRule)、修为进度(CultivationProgressRule)和物品传承(ItemInheritanceRule)。
很显然,此方案最大的缺陷是:要保证校对效果,必须开发出尽可能多的规则。
这显然不现实!
有了前面实体识别的经验,这种语义方面的问题大模型可能更胜任。
看看R1的回复:
这个方案靠谱多了。利用大模型自然语言理解和推理能力,分析文本中的上下文关系,识别潜在的不一致。
要用大模型,除了要校对的新章节内容,还得给它上下文,即上图中R1提到的“知识快照”。虽然R1目前还没提及知识快照的实现细节,但不难判断,其内容应该是当前知识库中实体和关系的数据。
这里就有一个潜在问题了:对于上百万字的网络小说,这个知识快照的量得有多大?会不会超过大模型的上下文窗口?
对此,R1的改进方案如下:
这个改进方案就相当靠谱了。只需要从知识库中提取新章节涉及的实体和关系,按需加载就行了。由于新章节涉及的人物、物品、功法、事件有限,需提取的实体和关系只会占到整个知识库很小的一部分,而且数据量相对固定,不会随章节数的增加而膨胀。
比如要校对第100章,需要提取50个实体和关系;那么到了第300章,差不多应该还是这个量。除非第100章是两千字,第300章是一万字。即便是这样,我们也可以通过分段校对来解决。
方向定了,接下来考虑如何实现。
-
新章节涉及哪些实体?这可以通过前面实体识别的功能模块获取。
-
一旦拿到了这个实体列表,调用Mongodb和Neo4j的查询语句就能提取实体和关系数据。
-
有了实体和关系的上下文信息,就能构造提示词让大模型校对了。
最后采用的提示词结合了R1的建议和前面coze智能体的提示词:
下面咱们过一遍相关代码,并运行看看校对效果。
校对效果还是相当不错的。说到这里,我就忍不住要吐槽一下起点中文网。好歹也是腾讯旗下的公司,技术和资金都不缺,就不能开发个类似的系统减轻一下网文作者的工作量吗?
而且稍微增加个对话功能就可以变成个网文问答系统,开放给读者,提升阅读体验。比如回答些类似“哪位大神能不能做张地图啊?”,“跪求家族图谱”等问题。
总结
到这里,咱们这个AI应用开发的教程就该告一段落了。
正如教程开头说的,CloudMan的目标是通过具体案例带大家体会一下AI应用的开发思路和过程,提升大家使用AI的信心。
AI大模型大大降低了应用开发的门槛。只要有好的想法,稍微有些编程基础就能开发出优秀的应用。
退一万步,即便对应用开发没兴趣,AI也能帮助我们探索新领域,发展自身潜能。
以前学东西除了找到好的教程,更得有人指导。现在好了,AI就是那个能提供指导的人,它经验丰富、态度端正、而且24小时待命。
这是个知识平权的时代,没有什么不能学的,也没有什么学不会的。
最后,祝大家在AI时代不断精进,不断超越。
咱们有机会再见!