网文校对系统 - 校对模块

CloudMan · 公众号 · · 2025-03-28 05:37

主要观点总结

本文主要描述了与R1讨论后逐步清晰的校对模块方案，从基于规则的校对引擎到大模型自然语言理解和推理的应用。重点介绍了实体识别和关系数据提取的重要性，以及如何利用这些知识构建校对系统。文章还提到了AI在开发中的应用和潜力，强调了AI对人们学习和发展新技能的影响。

文章描述了与R1的讨论过程中，校对模块方案如何从初步的规则设定，逐步发展到大模型的应用，以及如何利用上下文信息提高校对效果。

文章强调了在校对过程中，通过实体识别和关系数据提取获取上下文信息的必要性，这是构建有效校对系统的关键。

文章通过具体案例展示了AI在开发中的应用，如校对对新章节内容的一致性错误和创建问答系统等功能，突显了AI降低应用开发的门槛以及指导人的作用。

校对模块的方案也是在与R1的讨论中逐步清晰和完善的。

我会尽量还原这个过程，让大家体会与AI相互启发的乐趣。至于最终结伦则不是最重要了。

R1最开始提出了一个基于规则的校对引擎，其核心是用不同的规则检查不同类型的一致性错误。

这里列举了三类规则：死亡一致性（DeathConsistencyRule）、修为进度（CultivationProgressRule）和物品传承（ItemInheritanceRule）。

很显然，此方案最大的缺陷是：要保证校对效果，必须开发出尽可能多的规则。

这显然不现实！

有了前面实体识别的经验，这种语义方面的问题大模型可能更胜任。

看看R1的回复：

这个方案靠谱多了。利用大模型自然语言理解和推理能力，分析文本中的上下文关系，识别潜在的不一致。

要用大模型，除了要校对的新章节内容，还得给它上下文，即上图中R1提到的“知识快照”。虽然R1目前还没提及知识快照的实现细节，但不难判断，其内容应该是当前知识库中实体和关系的数据。

这里就有一个潜在问题了：对于上百万字的网络小说，这个知识快照的量得有多大？会不会超过大模型的上下文窗口？

对此，R1的改进方案如下：

这个改进方案就相当靠谱了。只需要从知识库中提取新章节涉及的实体和关系，按需加载就行了。由于新章节涉及的人物、物品、功法、事件有限，需提取的实体和关系只会占到整个知识库很小的一部分，而且数据量相对固定，不会随章节数的增加而膨胀。

比如要校对第100章，需要提取50个实体和关系；那么到了第300章，差不多应该还是这个量。除非第100章是两千字，第300章是一万字。即便是这样，我们也可以通过分段校对来解决。

方向定了，接下来考虑如何实现。

最后采用的提示词结合了R1的建议和前面coze智能体的提示词：

下面咱们过一遍相关代码，并运行看看校对效果。

校对效果还是相当不错的。说到这里，我就忍不住要吐槽一下起点中文网。好歹也是腾讯旗下的公司，技术和资金都不缺，就不能开发个类似的系统减轻一下网文作者的工作量吗？

而且稍微增加个对话功能就可以变成个网文问答系统，开放给读者，提升阅读体验。比如回答些类似“哪位大神能不能做张地图啊？”，“跪求家族图谱”等问题。

到这里，咱们这个AI应用开发的教程就该告一段落了。

正如教程开头说的，CloudMan的目标是通过具体案例带大家体会一下AI应用的开发思路和过程，提升大家使用AI的信心。

AI大模型大大降低了应用开发的门槛。只要有好的想法，稍微有些编程基础就能开发出优秀的应用。

退一万步，即便对应用开发没兴趣，AI也能帮助我们探索新领域，发展自身潜能。

以前学东西除了找到好的教程，更得有人指导。现在好了，AI就是那个能提供指导的人，它经验丰富、态度端正、而且24小时待命。

这是个知识平权的时代，没有什么不能学的，也没有什么学不会的。

最后，祝大家在AI时代不断精进，不断超越。

咱们有机会再见！