专栏名称: 飞桨PaddlePaddle
源于产业实践的开源深度学习平台
目录
相关文章推荐
西安头条  ·  正式揭牌!陕西新添一家省管国企 ·  20 小时前  
西安头条  ·  正式揭牌!陕西新添一家省管国企 ·  20 小时前  
陕西高院  ·  获奖+1! ·  2 天前  
陕西高院  ·  获奖+1! ·  2 天前  
51好读  ›  专栏  ›  飞桨PaddlePaddle

PP-ChatOCRv3:通用场景精度更高,垂类微调能力更强,文本图像智能分析新飞跃!

飞桨PaddlePaddle  · 公众号  ·  · 2024-09-05 19:48

正文

文本图像智能分析技术在提升文档处理效率与准确性、促进信息可访问性与利用性、助力多行业数字化转型以及解决文档图像的多样性与复杂性挑战等方面均发挥了重要作用,在自动化办公、金融风控、医疗健康、法律行业和教育行业等领域具有广泛应用场景。
近期,在文心一言的加持下,飞桨低代码开发工具 PaddleX 发布功能更加丰富,效果更加强大的文本图像智能分析模型产线;文档场景信息抽取v3(PP-ChatOCRv3-doc),助力开发者更好的解决文档处理难题。
PP-ChatOCRv3 在线体验地址:
https://aistudio.baidu.com/community/app/182491/webUI
PP-ChatOCRv3 模型产线地址:
https://aistudio.baidu.com/pipeline/mine 
PP-ChatOCRv3 效果速览

滑动查看更多图片

PP-ChatOCRv3 核心亮点
(1) 通用模型精度更高 :大幅提升了文本图像版面解析能力,充分发挥文心一言语言理解优势,信息抽取整体效果相比于上一个版本提升6%;
(2) 垂类模型微调能力更强 :提供基于大规模数据融合的文本识别模型微调功能和高精度版面区域定位模型微调功能,垂类模型效果大幅提升。
下面将对核心亮点进行展开介绍。
通用模型精度更高
PP-ChatOCRv3 的系统流程如下图所示:首先输入预测图片,送入通用 版面分析 系统,经过版面分析后,预测图像中的文字信息和表格结构。将版面分析系统预测出的版面类别、文字、表格结构与 Query 之间进行向量检索,得到与 Query 相关的文本信息,然后送入 Prompt 生成器重新组合成,基于文心大语言模型将海量数据和知识的融合,信息抽取准确率高且应用广泛。其中版面分析系统中集成了图像矫正(可选)、版面区域定位、常规文本检测、印章文本检测、文本识别、表格识别等多个功能,可实现 CPU/GPU上的高精度实时预测。通过大小模型的融合策略,各部分得以充分展现其优势: 小模型以其高精度的图像处理能力脱颖而出,而大模型则展现出卓越的内容理解能力
在本次升级中,新增图像矫正和印章文本检测模块。 图像矫正模块 的引入,是应对复杂多变拍摄环境下文本图像褶皱、扭曲、倾斜等问题的有效解决方案。通过先进的模型,该模块能够自动检测并校正图像中的几何失真,确保文本图像以最佳状态呈现,为后续的文字识别环节提供高质量的输入。这一功能是可选的,用户若需进行矫正处理,可选择集成官方提供的矫正推理模型以满足需求。
印章文本检测模块 的加入,是对文档版面解析能力的一次重要补充。印章作为文档中的重要组成部分,往往承载着关键的认证信息。新增的印章文本检测模块,通过弯曲文本检测模型和精细后处理对弯曲区域进行矫正展开,能够精准识别并提取文档中的印章区域及其上的文字信息,为文档的验证、合同的分析提供了重要依据。
除了上述的新增功能之外,版面区域定位和表格识别模型也进行了同步升级。版面分析模型支持了图像、表格和印章三个类别的定位,相比PP-ChatOCRv2能够更加细粒度的解析文档不同区域。表格识别模型基于生成数据,对无线表,合并单元格的复杂表格的识别能力有了更好效果。
基于上述强化的版面解析能力,结合文心一言,信息抽取整体效果相比于上一个版本提升至少6%。
垂类模型微调能力更强
  • 基于大规模数据融合的文本识别模型微调
针对垂类场景数据训练中常见的通用文本识别能力退化难题,本次升级创新性地融入了OCR文本识别数据融合与微调技术。该技术核心在于其智能融合机制,能够自动且无缝地将一定比例的通用场景文本识别数据集融入垂类训练数据中。这一设计考虑了模型对垂类识别精度的深度优化与保持通用场景识别能力的需求,确保模型在专业化与泛化能力间取得平衡。
用户在进行文本识别模型训练时,仅需通过直观的参数配置界面,轻松设定数据融合比例,即可无缝接入官方预置的大规模通用文本识别数据,操作简便快捷。通过数据融合微调,实现了模型训练效果的双重提升:既增强了模型在特定垂类场景下的识别精准度,又保持了其广泛的适用性,即优秀的通用场景文本识别能力,从而达成了模型微调在精度上的均衡优化目标。 
  • 高精度版面区域定位模型微调
本次升级中,针对版面区域定位模型,一方面提供了精度更高的 RT-DETR-H_layout 模型,在某中文版面区域定位公开数据集上,相比于SOTA方案,精度提升 5% 以上。另一方面,提供了更高精度的预训练模型,使得垂类场景微调训练时精度更高、收敛更快。

精彩课程预告

为了帮助您迅速且深入地了解 文本图像智能分析PP-ChatOCRv3 模型产线,并熟练掌握实际操作技巧,百度高级研发工程师将在 9月12日(周四)19:00 ,为您详细解读文本图像智能分析场景任务以及全新开发范式。此外,我们还将开设针对 PP-ChatOCRv3任务 的零代码开发产业场景实战营,指导您一步一步体验从数据准备、数据校验、模型训练、性能优化到模型部署的完整开发流程, 报名参与实战营的开发者可享受PP-ChatOCRv3零代码产线训练评估算力限时全免费 机会难得,立即扫描下方二维码预约吧!







请到「今天看啥」查看全文