在数字化阅读与期刊发行的交汇点上,杂志铺(
http://www.zazhipu.com
)以其庞大的在线订阅平台和卓越的期刊发行服务,已与3000多家杂志社建立合作,提供7000多种杂志,持续为500多万读者提供阅读资源。
目前,杂志铺已经在线上、线下多渠道布局,并通过自有平台、App、官网以及各大电商平台、旗舰店等方式广泛触达读者。但在各类杂志内容深度理解和知识拓展方面,仍存在巨大的提升空间。尤其在AI技术迅猛发展的今天,如何帮助上千家杂志社快速应用AI技术,优化期刊的阅读助读和知识拓展功能,并通过智能化手段提升读者的阅读体验,帮助读者更好地理解和吸收知识,成为了杂志铺等一众期刊发行服务企业新的挑战与机遇。
构建一个SaaS系统,旨在帮助几千家杂志社快速应用AI技术,优化期刊的阅读助读和知识拓展功能,是杂志铺当前的首要工作。
该系统基于飞桨,探索利用OCR技术帮助用户识别和扫描内容,逐步实现了文章解读、作文批改、图片识别等多元化功能,这不仅极大丰富读者的阅读体验,还有效提升了知识的传播效率和广度。
通过拍照或扫描杂志内页,恢复复杂版面的阅读顺序,实际上是一项颇具挑战的任务。其关键在于攻克两大难题:
-
-
其次,还需准确识别文字内容,并在此基础上恢复出正确的阅读顺序。
这两个问题的解决对于实现高效的版面分析和文档重构至关重要。
因此在搭建杂志智能推荐系统时,我们面临着几个显著的难点:
杂志版面设计通常较为复杂,包含多种元素如文字、图片、列表和表格等,且这些元素在版面中的布局和组合方式多变,给版面预测带来了挑战。
杂志文档可能以PDF、扫描件或拍照图片等多种格式存在。这些格式在数据结构、图像质量和解析难度上都有所不同,增加了版面预测的复杂性。
不同厂家的杂志往往使用独特的版面格式,导致没有统一的标准可供参考。这种版式的多样性要求预测系统能够适应各种不同的布局和设计风格。
杂志中可能包含中文、英文等多种语言,每种语言的字符特征、排版规则和阅读习惯都有所不同,这对OCR处理能力提出了更高的要求。
杂志图片转文字时,常常遇到多栏或跨页文档,需要模型识别出各栏的边界以及判断页面的连续性,并按照实际的阅读顺序将文字内容重新排列,以确保转换后的文本内容连贯、完整。
基于上述问题,本场景依赖高精度的版面分析和OCR能力,因此非常适合选用飞桨低代码开发工具中的
文档场景信息抽取(PP-ChatOCRv2_doc)模型产线
作为解决方案。该产线融合了通用OCR技术和文本图像版面分析技术,使得其不仅能够准确识别文档中的文字,而且能深入解析文档的版面结构;结合文心大模型强大的能力,还可以完成全文摘要生成并智能推荐,打造全新的数字化阅读体验。
文档场景信息抽取产线涵盖了四大核心模块:版面分析、文本检测、文本识别和表格识别,总共集成了六个模型。为了满足不同场景和需求,文本检测和文本识别模块都分别提供了
高精度的server模型
和
注重效率与性能平衡的mobile模型
。其中杂志里通常不会出现表格,基于对任务需求的理解和模型精度的考量,我们决定采用版面分析模块配以OCR server模型作为视觉模型方案。
首先,我们通过官方在线体验页面测试了模型的效果。在上传杂志图片后,我们发现OCR识别结果的精度已经满足要求,但版面分析的结果并不准确,导致无法恢复多栏文档的正确阅读顺序。鉴于此,我们决定
微调版面分析模型
,以提升版面布局的识别效果。
本次的训练数据来自人工拍摄的杂志图片,通过数据标注工具获得1300张高质量标准数据,包含"标题、作者、正文、分割线"四个预测类别。标注工具将自动导出为 COCO 标注格式,可以直接提交到零代码产线中进行数据校验。经过数据上传和数据校验我们可以得到如下结果,包含了数据集在训练集、验证集抽样的 10 个样本带可视化标签的图像,方便校验数据标注的正确性。
在深度学习中,超参数选取对模型的训练起着至关重要的作用,星河零代码产线将模型中影响最大的超参数展示在前端页面上,方便用户快速设置,进行实验调试。在文档版面分析任务中,选择 Pico_ Det_layout 算法模型后 ,对结果精度影响最大的超参数是
学习率
和
训练轮数
,我们将选取这两个参数作为我们测试调试的选项。
为了让我们的实验尽可能可靠准确,我们使用控制变量法进行了 4 组对比实验 ,基于固定的训练轮数(100),初步选定了合适的学习率(0.1):
版面分析模型([email protected] 为 63.8%)能够检测出杂志页面的布局分类等信息,但仍然存在一些问题,针对一些插图和排版较为复杂的页面来说,仍然很难十分正确地检测出最终结果。为了让模型的精度进一步提升,我们通过badcase分析后对训练数据集进行了扩充,针对复杂场景增加了 500 张杂志版面图像,进一步提高版面分析模型的性能,复用先前训练时采取的模型超参分别训练100 epoch、200 epoch、500epoch。 最终版面分析模型最高精度为74.9%,较之前提升11%。
星河零代码产线极大地简化了模型部署流程,使得用户可以轻松选择已标记的模型权重,并通过一键操作将其部署为在线服务API。这一功能不仅允许其他联网设备轻松调用API,还提供了在线体验应用,用户可借助单图测试迅速验证模型的效果。
下图为选择自己部署的模型方案进行在线体验,通过版面分析与OCR识别的结合,可以精准地预测出文档中的多个自然段,并准确识别其中的文本内容。
若希望将模型部署到离线设备上进行更深入的代码定制,PaddleX还支持获取离线部署包。该部署包不仅包含了模型的标记权重,还配备了特定环境的示例代码。借助这些示例文档,您可以在自己的设备上轻松实现快速且准确的模型部署。
例如,本方案需要对版面分析的输出结果进行后处理(排序操作),您可以通过获取离线部署包来实现。这个部署包中包含图片中各个元素(如文本框)的坐标信息。您可以在这些坐标信息的基础上编写后处理代码,定义排序规则,并按照特定位置输出。完成这些步骤后,您可以获得更直观的可视化效果,如下所示: