文章链接:
https://arxiv.org/pdf/2407.17020
git链接:
https://hyangyu.github.io/EAFormer/
亮点直击
-
为了在文本边缘区域实现更好的分割性能,本文提出了边缘感知Transformer(EAFormer),该方法明确预测文本边缘,并利用这些边缘来引导后续的编码器。
-
针对COCO_TS和MLT_S数据集的标注质量较低的问题,对这些数据集进行了重新标注,以提高EAFormer在这两个数据集上的实验结果的可靠性。
-
在六个场景文本分割基准上的广泛实验表明,所提出的EAFormer能够达到最先进的性能,尤其在文本边缘区域表现更佳。
场景文本分割旨在从场景图像中裁剪文本,这通常用于帮助生成模型编辑或去除文本。现有的文本分割方法通常涉及各种文本相关的监督以获得更好的性能。然而,大多数方法忽略了文本边缘的重要性,而文本边缘对下游应用至关重要。本文提出了边缘感知Transformer(Edge-Aware Transformers),简称EAFormer,以更准确地分割文本,特别是文本的边缘。
具体而言,首先设计了一个文本边缘提取器,以检测边缘并滤除非文本区域的边缘。然后,提出了一个边缘引导编码器,使模型更加关注文本边缘。最后,采用了一个基于MLP的解码器来预测文本mask。在常用基准上进行了广泛的实验,以验证EAFormer的有效性。实验结果表明,所提出的方法在文本边缘的分割上优于以前的方法。考虑到一些基准数据集(如COCO_TS和MLT_S)的注释不够准确,无法公平评估本文的方法,重新标注了这些数据集。通过实验观察到,当使用更准确的注释进行训练时,本文的方法能够获得更高的性能提升。
方法
本节详细介绍了所提出的EAFormer。首先,介绍EAFormer的提出动机。然后,详细说明EAFormer的每个模块,包括文本边缘提取器、边缘引导编码器和文本分割解码器。最后,介绍了本文方法的损失函数。
动机
不可否认,文本边缘对场景文本分割任务至关重要,尤其是对于其下游任务如文本擦除。准确分割文本边缘可以为文本擦除模型提供更多的背景信息,以填补文本区域。如下图1所示,利用一个预训练的修复模型,输入不同类型的文本mask,以在场景图像中擦除文本。通过实验观察到,文本边界框mask过于粗糙,无法为修复模型提供更多的背景信息。此外,边缘分割不准确的文本mask使得修复模型错误地将属于文本的像素视为背景,导致擦除效果不佳。只有提供具有准确边缘分割的文本mask时,修复模型才能生成令人满意的文本擦除结果。
尽管PGTSNet已经意识到文本边缘的重要性,并使用了二元交叉熵损失来检测文本边缘的像素,但它未能明确地将易于获取的文本边缘信息作为输入信息之一。为了验证其感知文本边缘的能力,对主干网络输出的特征进行了K均值聚类,其中K设置为3,分别代表背景、文本边缘和文本中心。通过下图2中的可视化结果,观察到该方法在感知文本边缘方面仍存在一定的不足。
此外,研究者们发现传统的边缘检测算法可以获得准确的文本边缘,这可能有助于场景文本分割任务。然而,由于传统的边缘检测方法无法区分文本区域和非文本区域,因此大多数边缘都被检测到了非文本区域。如果直接将边缘检测结果作为输入来辅助文本分割,可能会使文本分割模型产生混淆,从而对其性能产生不利影响。
边缘感知Transformer(EAFormer)
如下图3所示,所提出的EAFormer由三个模块组成:文本边缘提取器、边缘引导编码器和文本分割解码器。给定输入的场景文本图像
, 文本边缘提取器用于获得文本区域的边缘
。然后, 文本图像
和检测到的文本边缘
被输入到边缘引导编码器中, 以提取边缘感知特征。最后, 文本分割解码器以编码器生成的特征作为输入, 生成相应的文本mask
。
文本边缘提取器。
由于文本边缘对场景文本分割任务至关重要, 研究者们提出了一个文本边缘提取器以获得文本区域的边缘。首先,使用传统的边缘检测算法Canny来获取整个输入图像的边缘
。如前所述,
中的非文本区域的边缘可能对文本分割产生负面影响。因此,在文本边缘提取器中引入了一个轻量级的文本检测模型来执行边缘过滤。具体而言, 首先使用类似ResNet的[16]主干网络提取多级视觉特征
,其中
表示ResNet-like主干网络第
-层的特征(有关文本检测主干网络的更多细节介绍见补充材料)。然后,采用文本检测头来预测文本区域的mask
,可以表示为
其中,
和
分别表示
卷积层和拼接操作。借助文本区域的mask
, 可以通过对文本区域mask
和检测到的边缘
进行逐像素相乘,过滤掉非文本区域的边缘。因此,文本区域的边缘
可以通过以下方式获得:
值得一提的是, 在进行乘法操作之前对
施加了软argmax操作, 因为联合优化文本检测和分割分支可以实现更好的文本检测性能。然后, 经过过滤的文本边缘
被输入到接下来的边缘引导编码器中, 以增强其区分文本边缘周围像素的能力。
边缘引导编码器。
由于SegFormer在语义分割中表现出色,采用它作为边缘引导编码器的基础框架。如前面图3所示,边缘引导编码器由四个阶段组成,过滤后的文本边缘在第一个阶段被合并。每个编码阶段包含三个子模块:重叠补丁embedding、有效自注意力和前馈网络。重叠补丁embedding用于提取每个补丁周围的局部特征。随后,这些特征被输入到自注意力层中,以挖掘像素之间的相关性。基本自注意力层的公式如下:
其中,
和
是通过对相同特征应用不同的embedding层获得的。为了减少计算成本, 遵循 [43]引入了空间降维操作来处理
和
。有关空间降维的更多细节见补充材料。最后, 对于第
阶段, 使用前馈网络生成输出特征
。与此不同的是,在第一个阶段的前馈网络之后额外引入了一个对称交叉注意力层, 以融合提取的边缘引导
。具体而言, 对称交叉注意力层包括两个交叉注意力操作, 分别在第一个阶段的特征
和边缘引导
之间进行。一方面,
被视为查询(Query),以提取边缘感知的视觉信息
, 其中
被视为键(Key)和值(Value); 另一方面,
被用作查询(Query),进一步挖掘有用的文本边缘信息
,其中
被视为键(Key)和值(Value)。
因此,第一个阶段的最终输出
可以表示为:
其中,
代表上述的自注意力操作,
表示逐像素相加。随后,
和其他阶段的输出被输入到文本分割解码器中。
文本分割解码器。
类似于之前的方法, 采用几个MLP层来融合特征并预测最终的文本mask
。首先,通过相应的MLP层统一四个阶段输出的通道维度。然后, 这些特征被上采样到相同的分辨率, 并通过一个MLP层进一步融合。最后, 融合后的特征用于预测文本mask。假设第
阶段特征的分辨率为
, 解码过程可以表示为:
其中,
表示MLP中输入特征和输出特征的通道数分别为
和
。Fuse
表示输入特征首先被拼接在一起, 然后通过MLP层在通道维度上进行降维。
损失函数
以前的文本分割方法通常引入各种损失函数来提高性能,这可能会带来选择适当超参数的困难。在所提出的EAFormer中,仅使用了两种交叉熵损失:文本检测损失
和文本分割损失
进行优化,它们可以表示为:
其中,
是用于平衡
和
的超参数;
和
分别是
和
的真实标注。请注意, 用于
的边界框级别监督可以从语义级别的标注中获得, 这意味着所提出的方法与之前的方法一样, 仅需要语义级别的标注。
实验
实施细节
所提出的方法使用PyTorch实现,所有实验都在8个NVIDIA RTX 4090 GPU上进行。采用AdamW优化器,所有实验中的初始学习率设置为
,权重衰减设为0.01。批量大小设置为4。与之前的方法 [32,41,45] 一样,在训练阶段也采用了一些数据增强操作,如随机裁剪和翻转。不同于现有方法使用预训练模型来检测文本区域或识别字符,所提出的EAFormer中的所有模块都是联合训练的。换句话说,训练EAFormer时没有使用额外的数据集。Canny边缘检测的两个阈值分别设置为100和200。为了评估所提出方法的性能,同时使用前景交并比(fgIoU)和前景像素F值。fgIoU的度量标准采用百分比格式,F值采用小数格式。
实验结果
定量比较。
为了全面评估EAFormer,研究者们在英文和双语文本分割数据集上进行了实验。下表2显示了在五个英文文本分割数据集上的实验结果。
与之前的方法相比,EAFormer在大多数基准测试中在前景交并比(fgIoU)和F值上都有明显的提升。例如,在TextSeg数据集上,EAFormer在fgIoU和F值上分别超越了之前的SOTA方法TextFormer 0.64% 和0.6%。尽管原始的COCO_TS和MLT_S数据集有粗糙的注释,所提出的EAFormer仍然能表现出更好的性能,例如在COCO_TS数据集上比 TFT 提升了7.63%的fgIoU。考虑到基于不准确注释的实验结果不够令人信服,重新标注了COCO_TS和MLT_S的训练数据集和测试数据集。基于重新标注的数据集的实验结果显示在下表3中。实验表明,当使用注释更准确的数据集进行训练和测试时,EAFormer仍然能够实现显著的性能提升。与原始数据集的结果相比,重新标注数据集上的性能似乎下降了很多。
以下两个原因可能解释了这一现象:
-
数据集中有许多模糊的文本,这确实给模型处理文本边缘带来了挑战;
-
重新标注的测试数据集更为准确,评估中没有忽略的区域。
此外,还在双语文本分割数据集BTS上进行了实验,结果显示在下表4中。尽管PGTSNet不公平地引入了一个预训练的文本检测器,EAFormer在fgIoU/F值上仍然能实现1.6%/2.8%的提升,这验证了所提出方法的有效性。由于引入了一个轻量级的文本检测头,不可避免地增加了更多参数。评估了参数数量和推理速度。与之前的SOTA方法TextFormer(85M参数和每张图像0.42秒)相比,所提出的模型有92M参数,平均每张图像需要0.47秒。虽然参数数量略有增加,但本文的方法仍能显著提升性能。
定性比较。
研究者们还通过可视化将EAFormer与之前的方法在分割质量上进行了比较。如图5所示,所提出的EAFormer在文本边缘的表现优于之前的方法,这得益于引入的边缘信息。此外,对于COCO_TS和MLT_S,比较了基于原始和修改后注释的分割结果。尽管上表3表明,当使用重新标注的数据集进行训练和测试时,本文的方法性能有所下降,但下图5中的可视化结果表明,本文的模型在重新标注的数据集上能够实现更好的分割结果。