专栏名称: CSIG文档图像分析与识别专委会

文档图像分析与识别专业委员会是直属于中国图象图形学学会的文档分析与识别、文字识别领域的专业分支机构，致力于解决关键科学问题，注重学术研究、学术交流和应用发展，汇集国内学术界及企业界知名专家，推进文档图像分析与识别学科发展，提升国际影响力。

论文推荐|[CVPR2020] SwapText: Image Based Texts Transfer in Scenes

CSIG文档图像分析与识别专委会 · 公众号 · · 2020-04-02 06:00

正文

本文简要介绍 CVPR2020 录用论文 “SwapText: Image Based Texts Transfer in Scenes” 的主要工作。该论文主要针对自然场景图片文字替换问题，提出了一个包含三个子网络的文本图像分割迁移方法，可以做到在保留场景文字风格的情况下替换文字内容，替换后的文字与背景无缝融合，在视觉上达到了十分逼真的效果。

图 1 本文方法效果图

一、研究背景

文字替换任务与许多任务和应用相关，如文字检测、文字识别、海报文字修改、图像文字翻译以及其他一些具有创意性的应用。目前对于检测和识别任务来说，难以获得大量含标注信息数据已经成为限制其性能提升的一个瓶颈。常见且简单的数据增广方法有平移、旋转、镜像等。近期也有研究 [1][2][3] 提出利用合成数据进行训练。但这些数据与真实场景中的数据还是存在较大差距。而文字替换则可以生成接近真实场景的含标注信息的数据，其对检测和识别任务而言是十分有用的数据增广方法。

二、方法原理简述

图 2 网络整体框架图

图 2 是这篇文章所提方法的整体结构，由于场景文字复杂多样，本文方法采取模块分解的思路将前景和背景分开进行处理。网络主要可以分为 3 个部分，分别是 Text Swapping Network、Background Completion Network 和 Fusion Network 。

Text Swapping Network ：该网络主要学习生成目标图像的前景部分也就是文字内容，包括文字的几何形状以及字体风格两个方面。几何形状上，一个轻量级全连接网络被用于从风格图像 I _s 的解码器中得到输入并回归出控制点（表征文字内容的几何形状），该回归过程通过 Smooth _L1 Loss 进行监督。得到控制点后对内容图像 Ic 进行 TPS 变换从而达到改变其几何形状的目的。

字体风格迁移： 几何变形后的图像 Ic 与 Is 一样经过 Encoder 和 Resnet Block 进行特征提取。得到的特征 Concat 在一起之后喂入一个自注意力（ Self-attention ）网络用来学习两者特征之间的联系。此外，这里作者还提出用一个多层次的自注意力网络来进一步利用全局信息，如图 3(b) 所示。然后通过 Decoder 输出字体风格改变后的图像 Ic ，该输出由 L2 Loss 进行监督。

图 3 (a) 自注意力网络， (b) 多层次自注意力网络

Background Completion Network： 主要负责将输入风格图片中的文字进行擦除，同时修复纹理信息，保证生成的背景图片无瑕疵、自然清晰。该网络采用 Encoder-decoder 的结构，在 Encoder 之后采用了空洞卷积（ Dilated Convolutional Layer ）以提高感受野。此外该网络还将编码器和解码器的特征图使用跳跃连接进行信息传递，同时将解码器的特征输入到随后的融合模块解码阶段，辅助融合过程，有效改善背景模糊和虚影的情况。该过程通过条件 GAN Loss 和 L1 Loss 进行监督，如公式 1 （ Background Completion Network 的损失函数）所示。

F usion Network： 负责将生成好的前景和背景进行有机融合，产生最终结果。在这个部分本文将前景图片编码后的特征结合背景填充模块解码阶段的特征，使得前景和背景能适宜、渐进地进行无缝结合。该模块的损失函数由 L1 Loss ，条件 GAN Loss 以及 VGG Loss （包含两部分）。 VGG Loss 如公式 2 所示。

整个网络利用合成数据进行端到端的训练。

三、主要实验结果及可视化结果

图 4 消融实验可视化结果

表 1 定量比较结果

表 2 模型输出图像用于文字识别的准确性比较

表 3 模型输出图像用于检测的准确性比较

图 5 在中英翻译任务的应用举例

图 6 失败样例

图 7 在 IC15 和 IC17 数据集上的替换效果

从图 4 和表 1 中的消融实验结果可以看到，文中采用的几何形状转化、空洞卷积、自注意力网络、多层次自注意力网络等策略都具有各自的有效性。此外，图 4 和表 1 还验证了文章方法优于 Pix2pixp[4] 和 SRNet[5] 。进一步的，表 2 和表 3 分别利用检测和识别效果验证文章所提出方法在生成图像的真实性方面具有比 Pix2pixp 和 SRnet 更好的效果。图 5 验证了不同语言文字间替换的有效性。更多可视化效果如图 7 中所示。此外，由于训练数据有限，此方法有时还不能很好的覆盖现实场景中文字的几何形变和字体样式空间，因此还不能很好处理图6 中所示的波浪形的文字。在 IC15 和 IC17 数据上的可视化效果如图 7 所示。

四、总结及讨论

本文提出了一种用于自然场景文本替换任务的端到端网络，它可以在保持场景文本图像原有风格的同时，替换其中的文字内容，并与原图片达到一致的可视化效果。实现这一功能主要分为三个步骤：（ 1 ） Text Swapping Network ：提取代待替换图像的前景文字的几何形状和风格特征，并将其转换到输入文本图像上；（ 2 ） Background Completion Network ：擦除风格图片中的文字并用合适的纹理修复，得到背景图像，并把 Decoder 中的权值共享给F usion Network ；（ 3 ） Fusion Network ：将被转换的文本与已擦除的背景合并。

本文的方法在主观视觉真实性和客观定量评分方面取得了优异的结果。同时，该网络还具有跨语言替换的能力，本文还

论文推荐|[CVPR2020] SwapText: Image Based Texts Transfer in Scenes

正文

请到「今天看啥」查看全文