论文: A Spitting Image: Modular Superpixel Tokenization in Vision Transformers
论文地址:
https://arxiv.org/abs/2408.07680
论文代码:
https://github.com/dsb-ifi/SPiT
Introduction
在卷积架构之后,
Vision Transformers
(
ViTs
) 已成为视觉任务的焦点。在最初的语言模型的
Transformer
中,标记化是一个至关重要的预处理步骤,旨在基于预定的熵度量最佳地分割数据。随着模型被适配于视觉任务,标记化简化为将图像分割为正方形的图像块。这种方法被证明是有效的,很快成为了标准方法,成为架构的一个重要组成部分。
尽管取得了明显的成功,论文认为基于图像块的标记化存在固有的局限性。首先,标记的尺度通过固定的图像块大小与模型架构严格绑定,忽视了原始图像中的冗余。这些局限性导致在较高分辨率下计算量显著增加,因为复杂度和内存随标记数量呈平方级增长。此外,规则的分割假设了语义内容分布的固有均匀性,从而高效地降低了空间分辨率。
随后,若干研究利用注意力图来可视化类标记的归因,以提高可解释性,这常应用于密集预测任务。然而,正方形分割产生的注意力图在图像块表示中会引起分辨率的丧失,进而无法本质上捕捉原始图像的分辨率。对于像素级粒度的密集预测,需要一个单独的解码器进行放大处理。
Motivation
论文从原始的
ViT
架构中退一步,重新评估基于图像块的标记化的作用。通过关注架构中这个被忽视的组件,将图像分割定义为一个自适应模块化标记器的角色,这是
ViTs
中未被充分利用的潜力。
与正方形分割相比,超像素提供了一个机会,通过允许尺度和形状的适应性,同时利用视觉数据中的固有冗余来缓解基于图像块的标记化的缺陷。超像素已被证明与图像中的语义结构更好地对齐,这为在视觉
Transformer
架构中的潜在用途提供了依据。论文将标准
ViTs
中的经典正方形标记化与超像素标记化模型(
SPiT
)进行比较,并使用随机
Voronoi
标记化(
RViT
)(明确定义的数学对象,用于镶嵌平面)作为对照,后者因其作为平面镶嵌的数学对象而被选中,三种标记化方案在图
1
中进行了说明。
Contributions
论文的研究引出了三个具体的问题:(
a
)对正方形图像块的严格遵守是否必要?(
b
)不规则分割对标记化表示有什么影响?(
c
)标记化方案是否可以设计为视觉模型中的一个模块化组件? 经过实验验证,论文得到了以下结论:
Generalized Framework
:超像素标记化作为模块化方案中推广到了
ViTs
,为视觉任务提供更丰富的
Transformer
空间,其中
Transformer
主干与标记化框架是独立的。
Efficient Tokenization
:提出了一种高效的在线标记化方法,该方法在训练和推理时间上具有竞争力,同时在分类任务中表现出色。
Refined Spatial Resolution
:超像素标记化提供了语义对齐的标记,具有像素级的粒度。与现有的可解释性方法相比,论文的方法得到更显著的归因,并且在无监督分割中表现出色。
Visual Tokenization
:论文的主要贡献是引入了一种新颖的方法来思考
ViTs
中的标记化问题,这是建模过程中的一个被忽视但核心的组成部分。
论文的主要目标是评估
ViTs
的标记化方案,强调不同标记化方法的内在特性。为了进行公平的比较分析,使用基础的
ViT
架构和既定的训练协议进行研究。因此,论文设计实验以确保与知名基线进行公平比较,且不进行架构优化。这种受控的比较对于将观察到的差异归因于标记化策略至关重要,并消除了特定架构或训练方案带来的混杂因素。
Methodology
为了评估和对比不同的标记化策略,需要对图像进行分割并从这些分割中提取有意义的特征。虽然可以使用多种深度架构来完成这些任务,但这些方法会给最终模型增加一层复杂性,从而使任何直接比较标记化策略的尝试失效。此外,这也会使架构之间的有效迁移学习变得复杂。基于这一原因,论文构建了一个有效的启发式超像素标记化器,并提出了一种与经典
ViT
架构一致的非侵入性特征提取方法,以便进行直接比较。
定义
表示一个空间维度为
的图像的坐标, 并让
为映射
的索引集。将一个
通道的图像视为信号
, 定义向量化操作符 vec:
, 并用
表示函数的组合。
Framework
论文通过允许模块化的标记化器和不同的特征提取方法, 来对经典 ViT 架构进行泛化。值得注意的是, 经典的 ViT 通常被呈现为一个由三部分组成的系统, 包括一个标记嵌入器
、一个由一系列注意力块组成的主干网络
, 以及一个后续的预测头
。实际上, 可以将图像块嵌入模块重写为一个由三个部分组成的模块化系统, 包含一个标记化器
、一个特征提取器
和一个嵌入器
, 使得
。
这些是原始架构中的固有组件,但在简化的标记化策略下被掩盖了。这为模型作为一个五部分系统提供了更完整的评估。
其中
表示模型的可学习参数集合。在标准的 ViT 模型中, 标记化器
将图像分割为固定大小的方形区域。这直接提供了向量化的特征, 因为这些图像块具有统一的维度和顺序, 因此在标准的 ViT 架构中,
。嵌入器
通常是一个可学习的线性层, 将特征映射到特定架构的嵌入维度。另一种做法是, 将
视为一个卷积操作, 其卷积核大小和步幅等于所需的图像块大小
。
Partitioning and Tokenization
语言任务中的标记化需要将文本分割为最优信息量的标记,这类似于超像素将空间数据分割为离散的连通区域。层级超像素是一种高度可并行化的基于图的方法,适合用于在线标记化。基于此,论文提出了一种新方法,该方法在每一步
中进行批量图片图的完全并行聚合,此外还包括对大小和紧凑性的正则化。在每一步产生不同数量的超像素,动态适应图像的复杂性。
设
表示在
下的四向邻接边。将超像素视为一个集合
, 并且如果对于
中的任意两个像素
和
,存在一个边的序列
,使得
和
,则认为
是连通的。如果对于任意两个不同的超像素
和
,它们的交集
,并且所有超像素的并集等于图像中所有像素位置的集合,即
,那么一组超像素就形成了图像的分割
。
设
表示图像的所有分割的空间,并且有一系列分割
。如果对于
中的所有超像素
,存在一个超像素
使得
,则认为分割
是另分割
的细化,用
来表示。目标是构造一个像素索引的
级层级分割
, 使得每个超像素都是连通的。
为了构造
, 通过并行边收缩(用一个顶点代替多个顶点, 被代替的点的内部边去掉, 外部边由代替的顶点继承) 的方式逐步连接顶点, 以更新分割
。通过将每个层级视为图
来实现, 其中每个顶点
是分割
中一个超像素的索引,每条边
代表在
层级中相邻的超像素。因此, 初始图像可以表示为一个网格图
, 对应于单像素分割
。
为了应用边收缩, 定义一个边权重函数
。保留图中的自环(超像素包含的节点互指, 合并后表现为超像素指向自身。这里保留自环是因为不一定每一次都需要加入新像素, 自环权重高于其它节点时则不加), 通过相对大小对自环边进行加权作为正则化器, 对区域大小的方差进行约束。对于非自环边, 使用平均特征
并应用相似性函数
作为权重。自环的权重使用在层级
时, 区域大小的特征均值
和特征标准差
进行加权。
整体权重计算如下:
紧凑性可以通过计算无穷范数密度来选择性地进行调节:
其中
是包围超像素
和
的边界栣的周长。这突出了两个相邻的超像素
和
在其边界框内的紧密程度, 从而得出了一个正则化的权重函数。
其中
作为紧凑性的超参数。
使用贪婪的并行更新规则进行边收缩, 使得每个超像素与具有最高边权重的相邻超像素连接, 包括所有
中的自环, 适用于
。设
表示在第
层中索引为
的超像素的相邻顶点的邻域, 构造一个中间边集:
然后, 传递闭包
(传递闭包是指多个二元关系存在传递性, 通过该传递性推导出更多的关系, 比如可从
和
中推导出
, 这里即是
的连通分量) 可明确地得出一个映射
,
使得
其中
表示在
中顶点
的连通分量。这个分区更新规则确保了在
层的每个分区都是一个连通区域, 因为它是通过合并具有最高边权重的相邻超像素形成的, 如图 3 中所示。
重复计算聚合映射、正则化边权重和边收缩的步骤, 直到达到所需的层级数
。在每一层, 分区变得更加粗糙, 表示图像中更大的同质区域。层级结构提供了图像的多尺度表示, 捕捉了局部和全局结构。在第
层, 即可获得一系列分区
, 其中每一层的分区在层级
时是一个连通区域,并且对所有
有
。
在经典的 ViT 分词器中, 论文尝试验证不同的
和图像块大小
分别产生的标记数量之间的关系。设
和
分别表示SPiT 分词器和 ViT 分词器的标记数量, 这种关系为
,无论图像大小如何。
Feature Extraction with Irregular Patches
虽然
ViT
架构中选择正方形图像块是出于简洁性的考虑,但这自然也反映了替代方案所带来的挑战。非规则的图像块是不对齐的,表现出不同的形状和维度,并且通常是非凸的(形状非常不规则)。这些因素使得将非规则图像块嵌入到一个共同的内积空间中变得不容易。除了保持一致性和统一的维度外,论文还提出任何此类特征需要捕捉的最小属性集;即颜色、纹理、形状、尺度和位置。
ViTs 通常为图像网格中的每个图像块使用可学习的位置嵌入。论文注意到这对应于下采样图像的位置直方图, 可以通过使用核化方法将可学习的位置嵌入扩展到处理更复杂的形状、尺度和位置,对每个
分区的超像素