哈工大深圳、鹏城实验室和昆士兰大学合作提出了一种
极性感知线性自注意力机制
(Polarity-aware Linear Attention)。
从注意力权重矩阵的两个特性(即正值性和低信息熵)入手,指出现有线性自注意力机制在保证注意力分数正值性时会忽视掉 Q,K 矩阵中的负值元素,并从理论上给出一族具有特殊性质的映射函数能够降低信息熵,解决了标准自注意力机制平方复杂度的低效性与线性自注意力机制的任务精度低的问题。
该模型可以直接替换掉 Vision Transformer 模型中的自注意力模块,并在分类、分割与检测任务上取得了精度与效率的更优平衡。
PolaFormer: Polarity-aware Linear Attention for Vision Transformers
论文链接:
https://arxiv.org/abs/2501.15061
代码链接:
https://github.com/ZacharyMeng/PolaFormer
Polarity-aware Linear Attention(PolaFormer)是一种基于矩阵元素极性的线性自注意力机制。
注意力得分矩阵需要至少满足两大特性:
正值性与低信息熵。
然而,现有方法在满足这两点的同时,存在负值忽略与信息熵过大等问题。
本工作通过分开计算 qk 对的正值与负值,在确保最终注意力得分为正的同时,使每个元素都参与计算;
与此同时,本工作提出具有特殊性质逐元素计算的函数具有降低信息熵的作
用。
凭借更完整的计算元素与更低的信息熵,我们的算法具有更准确的相似度。
现有工作缺点
1. 负值丢失。
依赖非负特征映射(如 ReLU)的线性注意力模型无法保持与原始 q,k 点积的一致性。这些特征映射仅保留了正-正交互作用,而关键的正-负和负-负交互作用则完全丢失。这种选择性表示限制了模型捕获全面关系范围的能力,导致注意力图的表达能力减弱和判别力降低。
2. 注意力分布高信息熵。
没有 softmax 的指数缩放,线性注意力会导致权重分布更加均匀且熵更低。这种均匀性削弱了模型区分强弱 q,k 对的能力,损害了其对重要特征的关注,并在需要精细细节的任务中降低了性能。
核心方法
PolaFormer 为了解决上述问题,我们的极性感知注意力机制根据 q,k 的正负值将它们分开,并分别计算它们之间的相互作用。注意力权重的计算方式如下:
PolaFormer 根据正负明确地将 q,k 对分开,按照维度的同号和异号交互作用进行内积计算。这些交互作用在两个流中处理,从而能够更准确地重建原始的 softmax 注意力权重。
为了避免不必要的复杂性,我们沿着通道维度拆分v向量,分别处理这两种类型的交互作用。然后,将输出进行拼接,并通过一个可学习的符号感知矩阵进行缩放,以确保准确重建 q,k 关系。计算规则如下:
我们重定义了未归一化的正值序列信息熵,并基于此阐明为什么先前的特征映射会提高信息熵,从而导致注意力分布过于平滑。
我们设计了可学习的幂次来捕捉每个维度的不同重要性:
最后,我们探索了各种技术来增加注意力矩阵的秩并进行了消融实验,比如 DWC 和 DCN。
首先,我们从头开始在图像分类任务上训练了模型。然后,我们在 ADE20K 数据集上对预训练模型进行微调,用于语义分割任务,还在 COCO 数据集上进行微调,用于目标检测任务。
此外,我们统计分析了两个 G 矩阵的特性,存在一个明显的负相关和价值差异。这证明了我们的可学习混合策略补偿了松弛减法操作所带来的影响。
总结
在本研究中,我们提出一种具有线性复杂度的新型高效 Transformer,PolaFormer,主要贡献如下:
1)我们解决了负值忽略的问题,以极性感知的形式计算相似度,在保证正值的同时让每个元素都参与到注意力的计算;
2)从数学角度出发,提出并证明了存在一族逐元素函数能够降低熵,并以可学习的幂函数为例按通道实现重新缩放;
3)最后,我们还使用了卷积技术来缓解由自注意力矩阵的低秩特性引起的退化解问题,并引入了极性感知系数矩阵来学习同号值和异号值之间的互补关系。