专栏名称: CSIG文档图像分析与识别专委会
文档图像分析与识别专业委员会是直属于中国图象图形学学会的文档分析与识别、文字识别领域的专业分支机构,致力于解决关键科学问题,注重学术研究、学术交流和应用发展,汇集国内学术界及企业界知名专家,推进文档图像分析与识别学科发展,提升国际影响力。
相关文章推荐
廣告狂人  ·  蜜雪冰城,不需要公关 ·  9 小时前  
品牌几何  ·  2025Pantone年度代表色「摩卡慕斯」 ... ·  昨天  
廣告狂人  ·  文淇,被品牌疯抢! ·  昨天  
51好读  ›  专栏  ›  CSIG文档图像分析与识别专委会

论文推荐|[ICFHR 2020] 基于风格GAN和联机手写样本合成的增强文本行图像改进手写OCR性能

CSIG文档图像分析与识别专委会  · 公众号  ·  · 2020-09-29 19:44

正文


一、研究背景
针对基于深度学习的手写 OCR 引擎,理想的训练集应该能够覆盖各类书写风格、背景与光影变化、所有可能出现的词汇等。然而,采集这样的一个训练集十分费时费力,在一些情况下严重制约着手写 OCR 识别精度。手写图像合成的重要性由此显现。得益于近年来对抗式生成网络的发展,不少学者提出了从文本或印刷体文本行生成手写风格文本行的方法。但是,此类方法生成的手写风格仍然不够丰富。另一个手写文本行生成的思路是将联机手写数据转为脱机图像。联机数据可以方便地由手机、书写板等设备采集得到,数据量大、风格多变,若能将其转为逼真的脱机手写图像,则能够很好的辅助手写 OCR 的训练。
本文的作者提出了图 1 所示的框架,能够利用联机数据生成逼真的脱机手写文本行图像。该框架采用了 编码器 - 解码器 的结构,并且利用风格编码器从真实手写图像提取风格特征,作为解码器的条件输入。实验表明,结合真实手写图像与该框架生成的图像,手写 OCR 引擎的识别精度能够得到较大提升。

1 本文提出的手写文本行图像合成框架
二、 方法原理简述




其中D为判别器。
在测试阶段,将联机数据转为骨架图,并挑选任意一张真实手写图像作为风格图,一起输入生成器G,即可生成十分逼真的脱机手写图像。

三、 主要实验结果
作者首先在 IAM 数据集 [4] 上进行实验。 IAM 数据集共有 6,161 条脱机手写文本行,作者将其高度归一化为 = 96 ,宽度设为 = 3 IAM 数据集联机部分共有 12,195 条文本行,作者采用文中提出的方法将其转为脱机图,其中风格图像为上述的 6,161 张脱机图像。生成的手写图像如图 2 所示,可以看到生成的图像保留了联机骨架的内容信息以及风格图像的风格信息。

2 生成的脱机手写图像示意图,风格图像来自于 IAM 数据集。
利用生成的图像和真实手写图像进行训练,结果如表 1 所示。从表 1 可以得到如下结论:一,相比于直接将联机数据打点转为脱机图,本文提出的手写图像合成方案明显更有助于 OCR 训练;二,生成的手写图像对于 OCR 训练的效果仍不及真实图像;三,采用真实图像和生成图像一起训练,识别精度有明显提升。
1 采用不同训练策略得到的 OCR 系统在 IAM 数据集上的 CER WER (%)


在表 2 中,作者验证了采用三个损失函数的有效性。

2 不同损失函数对 IAM 数据集识别结果的影响

作者接着采用了更大规模的数据集进行训练,验证手写图像合成在大规模数据集情况下仍然有助于识别精度的提升。训练集中,真实图像来自于白板以及笔记上的手写图像,共计 248K 张;联机数据为私有数据,共有 506.8K 个样本,而风格图像与上述真实图像来源相同,共计 145K 个样本。生成的手写图像如图 3 所示,从视觉效果看,与真实手写图像殊无二致。实验结果如表 3 所示,可见在大规模数据集情况下,手写图像合成仍然有助于 OCR 识别精度的提升。

3 生成的脱机手写图像示意图,风格图像来自于白板以及笔记上的手写图像
3 采用不同训练策略得到的 OCR 系统在大规模数据集上的 CER WER (%)


四、 总结
本文提出了一个 GAN 框架,能够将联机手写数据转为逼真的脱机手写图像,用于辅助 OCR 训练。实验结果表明,采用本文框架生成的手写图像能够有效提升 OCR 识别精度,对于采集和构造大规模手写数据集提供了一个可行的替代方案。本文潜在的改进空间有两点,一是可以探究更优的脱机图像骨架化操作,二是探究更优的生成器结构以及训练策略、损失函数等。
本文荣获 ICFHR2020 Best Student Paper Award

参考文献
[1] T. Karras, S. Laine, and T. Aila, “Astyle-based generator architecture for generative adversarial networks,” in Proceedings of CVPR, 2019, pp. 4401–4410.
[2] J. Johnson, A. Alahi, and L. Fei-Fei,“Perceptual losses for real-time style transfer and super-resolution,” in Proceedings of ECCV, 2016, pp. 694–711.
[3] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros,“Image-to-image translation with conditional adversarial networks,” in Proceedings of CVPR, 2017, pp. 5967–5976.
[4] U. Marti and H. Bunke, “The IAM-database: an English sentence database for offline handwriting recognition,” IJDAR, pp. 39–46, 2002.

原文作者 : Mingyang Guan, Haisong Ding, Kai Chen and Qiang Huo








请到「今天看啥」查看全文