专栏名称: 深度学习与计算机视觉
深度学习与计算机视觉碰撞出了新的火花,本公众号将坚持分享原创计算机视觉技术相关文章。主要分为实战教程、视觉领域最新咨询、国内外最新论文翻译三类。欢迎志同道合的朋友关注。
目录
相关文章推荐
文旅湖南  ·  春入湖南,带你看一路繁花 ·  14 小时前  
文旅湖南  ·  春入湖南,带你看一路繁花 ·  14 小时前  
第1眼新闻  ·  三月春雪,终于也落到了重庆🥰 ·  昨天  
新疆949交通广播  ·  3个变老表现,从睡觉开始!如果一个都不占,证 ... ·  2 天前  
新疆949交通广播  ·  又涨了!首次突破每克900元 ·  3 天前  
青岛日报  ·  青岛网友:“河南常女士,你说得dei”! ·  3 天前  
青岛日报  ·  青岛网友:“河南常女士,你说得dei”! ·  3 天前  
51好读  ›  专栏  ›  深度学习与计算机视觉

OCR的有效数据增强

深度学习与计算机视觉  · 公众号  ·  · 2024-06-24 17:33

正文

背景

我面临着需要尽可能准确识别手写金额的挑战。难点在于保持误判率低于0.01%。由于数据集中样本数量固定,因此数据增强是合乎逻辑的选择。快速搜索未发现针对光学字符识别(OCR)的现成方法。因此,我挽起袖子,亲自创建了一个数据增强例程。它在训练过程中被使用,并帮助我的模型实现了目标。继续阅读以了解详情。

通过每次训练图像时引入小的变化,模型不太可能过拟合,更容易泛化。我将其与TROCR一起使用,但任何其他模型也应该受益。

测试设置

由于无法分享来自专有数据集的图像,我原本想使用IAM手写数据库的样本,但我未收到使用权限的回复。因此,我为演示创建了一些自己的示例。

我将使用OpenCV和albumentations库进行三种类型的修改:形态学、噪声和变换。

OpenCV是一个众所周知的计算机视觉库。Albumentations是一个相对较新的Python库,用于进行简单但功能强大的图像增强。

还有一个不错的演示网站,你可以在其中尝试albumentations的功能。但由于无法使用自己的图像进行测试,因此我创建了一个Jupyter笔记本,用于在本文中渲染所有增强的图像。请随时在Colab中打开并进行实验。

我们将首先展示单独的修改,附有一些解释,然后讨论将它们结合在一起的技术。我将假设所有图像都是灰度的,并已经进行了对比度增强(例如,CLAHE)。


第一种增强技术:形态学修改

这些与结构的形状有关。简单来说:它们可用于使文本行看起来像用细或粗笔写的。它们被称为腐蚀和膨胀。不幸的是,这些目前还没有包含在albumentations库中,因此我必须借助opencv来实现。

为了产生像是使用宽线宽度笔的效果,我们可以膨胀原始图像:

另一方面,腐蚀(顺便说一下)模拟了使用细笔写的效果:

在这里要小心,最后一个参数——即迭代次数——不要设置得太高(这里设置为3),否则手写完全被去除。

cv2.dilate(img, kernel,iterations=random.randint(13))

对于我们的数据集,我们只能将其设置为1,因此这确实取决于你的数据。

第二种增强技术:引入噪声

我们可以从图像中删除黑色像素,也可以添加白色像素。有几种方法可以实现这一点。我尝试了许多方法,但这是我的简短清单:

黑色下降颜色的RandomRain非常有害。即使对我来说,仍然很难阅读文本。这就是为什么我选择将其发生的机会设置得很低的原因:

RandomShadow会用不同强度的线模糊文本:


PixelDropout轻松将随机像素变为黑色:

与黑色滴落相比,具有白色滴落颜色的RandomRain使文字解体,从而增强了训练的难度。就像当拍摄了复印一份传真的照片时看到的低质量一样。可以将此变换发生的概率设置得更高。

在较小程度上,PixelDropout到白色也会产生相同的效果。但它更多地导致图像普遍褪色:

第三种增强技术:变换

ShiftScaleRotate:在这里要小心参数。尽量避免一些文本被切断并超出原始尺寸。同时进行缩放和旋转。确保不要过度使用太大的参数。否则,第一个样本的机会更大。你可以看到它实际上将文本移出图像。通过选择较大的边界框,可以防止这种情况——有效地在文本周围添加更多的空白。

模糊。老(但金贵)可靠的技术。将以不同的强度执行。


大结局:将它们全部组合在一起:

这就是力量所在。我们可以随机组合这些效果,创建每个训练时期都包含的独特图像。需要谨慎考虑,不要做太多相同类型的方法。我们可以使用albumentation库中的OneOf函数来实现这一点。OneOf包含一系列可能的变换,正如其名称所暗示的那样,将仅以概率P执行其中的一个。因此,将做更多或更少相似的变换分组是有意义的,以避免过度使用。以下是该函数:

import random
import cv2
import numpy as np
import albumentations as A

#gets PIL image and returns augmented PIL image
def augment_img(img):
  #only augment 3/4th the images
  if random.randint(14) > 3:
      return img

  img = np.asarray(img)     #convert to numpy for opencv

  # morphological alterations
  kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE,(3,3))
  if random.randint(15






请到「今天看啥」查看全文


推荐文章
文旅湖南  ·  春入湖南,带你看一路繁花
14 小时前
文旅湖南  ·  春入湖南,带你看一路繁花
14 小时前
第1眼新闻  ·  三月春雪,终于也落到了重庆🥰
昨天
新疆949交通广播  ·  又涨了!首次突破每克900元
3 天前
不正常人类研究中心  ·  为什么你没有男朋友????
8 年前