专栏名称: CloudMan
云计算深度实践者;定期发布《每天5分钟玩转OpenStack》教程;让 OpenStack 不再难学!
目录
相关文章推荐
51好读  ›  专栏  ›  CloudMan

网文校对系统 - 校对模块

CloudMan  · 公众号  ·  · 2025-03-28 05:37

主要观点总结

本文主要描述了与R1讨论后逐步清晰的校对模块方案,从基于规则的校对引擎到大模型自然语言理解和推理的应用。重点介绍了实体识别和关系数据提取的重要性,以及如何利用这些知识构建校对系统。文章还提到了AI在开发中的应用和潜力,强调了AI对人们学习和发展新技能的影响。

关键观点总结

关键观点1: 校对模块的方案讨论和完善过程

文章描述了与R1的讨论过程中,校对模块方案如何从初步的规则设定,逐步发展到大模型的应用,以及如何利用上下文信息提高校对效果。

关键观点2: 实体识别和关系数据提取的重要性

文章强调了在校对过程中,通过实体识别和关系数据提取获取上下文信息的必要性,这是构建有效校对系统的关键。

关键观点3: AI在开发中的应用和潜力

文章通过具体案例展示了AI在开发中的应用,如校对对新章节内容的一致性错误和创建问答系统等功能,突显了AI降低应用开发的门槛以及指导人的作用。


正文

请到「今天看啥」查看全文


校对模块的方案也是在与R1的讨论中逐步清晰和完善的。

我会尽量还原这个过程,让大家体会与AI相互启发的乐趣。至于最终结伦则不是最重要了。

R1最开始提出了一个基于规则的校对引擎,其核心是用不同的规则检查不同类型的一致性错误。

这里列举了三类规则:死亡一致性(DeathConsistencyRule)、修为进度(CultivationProgressRule)和物品传承(ItemInheritanceRule)。

很显然,此方案最大的缺陷是:要保证校对效果,必须开发出尽可能多的规则。

这显然不现实!

有了前面实体识别的经验,这种语义方面的问题大模型可能更胜任。

看看R1的回复:

这个方案靠谱多了。利用大模型自然语言理解和推理能力,分析文本中的上下文关系,识别潜在的不一致。

要用大模型,除了要校对的新章节内容,还得给它上下文,即上图中R1提到的“知识快照”。虽然R1目前还没提及知识快照的实现细节,但不难判断,其内容应该是当前知识库中实体和关系的数据。

这里就有一个潜在问题了:对于上百万字的网络小说,这个知识快照的量得有多大?会不会超过大模型的上下文窗口?

对此,R1的改进方案如下:

这个改进方案就相当靠谱了。只需要从知识库中提取新章节涉及的实体和关系,按需加载就行了。由于新章节涉及的人物、物品、功法、事件有限,需提取的实体和关系只会占到整个知识库很小的一部分,而且数据量相对固定,不会随章节数的增加而膨胀。

比如要校对第100章,需要提取50个实体和关系;那么到了第300章,差不多应该还是这个量。除非第100章是两千字,第300章是一万字。即便是这样,我们也可以通过分段校对来解决。

方向定了,接下来考虑如何实现。

  1. 新章节涉及哪些实体?这可以通过前面实体识别的功能模块获取。
  2. 一旦拿到了这个实体列表,调用Mongodb和Neo4j的查询语句就能提取实体和关系数据。
  3. 有了实体和关系的上下文信息,就能构造提示词让大模型校对了。

最后采用的提示词结合了R1的建议和前面coze智能体的提示词:

下面咱们过一遍相关代码,并运行看看校对效果。

校对效果还是相当不错的。说到这里,我就忍不住要吐槽一下起点中文网。好歹也是腾讯旗下的公司,技术和资金都不缺,就不能开发个类似的系统减轻一下网文作者的工作量吗?

而且稍微增加个对话功能就可以变成个网文问答系统,开放给读者,提升阅读体验。比如回答些类似“哪位大神能不能做张地图啊?”,“跪求家族图谱”等问题。

总结

到这里,咱们这个AI应用开发的教程就该告一段落了。

正如教程开头说的,CloudMan的目标是通过具体案例带大家体会一下AI应用的开发思路和过程,提升大家使用AI的信心。

AI大模型大大降低了应用开发的门槛。只要有好的想法,稍微有些编程基础就能开发出优秀的应用。

退一万步,即便对应用开发没兴趣,AI也能帮助我们探索新领域,发展自身潜能。

以前学东西除了找到好的教程,更得有人指导。现在好了,AI就是那个能提供指导的人,它经验丰富、态度端正、而且24小时待命。

这是个知识平权的时代,没有什么不能学的,也没有什么学不会的。

最后,祝大家在AI时代不断精进,不断超越。

咱们有机会再见!







请到「今天看啥」查看全文