在图像超分辨率研究领域,基于Swin-transformer的模型因其全局空间建模和移位窗口自注意力机制而受到青睐。
然而,现有方法通常将自注意力限制在非重叠窗口上以节省成本,并忽视了跨通道存在的有用信息。为了解决这个问题,本文提出了一种新颖的模型,即混合注意力聚合Transformer(HAAT),旨在更好地利用特征信息。
HAAT通过将Swin-Dense-Residual-Connected Blocks(SDRCB)与混合网格注意力块(HGAB)相结合而构建。SDRCB在保持简洁架构的同时扩展了感受野,从而提高了性能。
HGAB集成了通道自注意力、稀疏自注意力和窗口自注意力,以提高非局部特征融合并实现更具有视觉吸引力的结果。实验评估表明,HAAT在基准数据集上超过了最先进的方法。
1 Introduction
单图像超分辨率(SISR)旨在从低分辨率图像中重构高质量图像。随着其广泛应用,高效超分辨率算法的研发成为计算机视觉领域的一个关键研究领域。最近的研究将自注意力机制集成到计算机视觉挑战中 [1, 2]。
CNN为基础的技术对于单图像超分辨率(SISR)的图像纹理特征修复有了显著提高。SRCNN[3]是首个使用卷积神经网络解决超分辨率问题的模型。VDSR[4]实现了残差学习,以增强学习和成功解决深度网络中的梯度消失问题。在SRGAN[5]中,Christian Ledig等人采用生成对抗网络来改进超分辨率图像生成,通过生成器将低分辨率图像转换为高分辨率图像,并通过对抗训练提高质量。ESRGAN[6]包括Residual Dense Block(RRDB)作为基本网络组件,通过利用激活前特征先验信息减少感知损失,从而生成具有更真实纹理的图像。此外,研究行人仍在建议新的结构以在超分辨率图像中逐步获取更真实的信息。基于CNN的网络表现出显著的性能效果。然而,CNN固有的归纳偏差限制了SISR模型捕捉长程关系的能力。这些限制来自卷积运算符的核大小和感受野大小在多个层上的参数相关缩放,可能忽视了图像中的非局部空间信息。
为了增强图像中不同层次结构的联合建模,研究行人利用了自注意力机制在多尺度处理和长程依赖建模方面的优势。基于Transformer的SISR模型已经出现,以克服基于CNN网络的不足,通过利用它们模拟长程依赖并提高SISR性能。例如,SwinIR[1]利用了Swin Transformer[2],在超分辨率结果方面取得了显著提升。此外,通过结合重叠交叉注意力模块、窗口自注意力和通道注意力,使用hybrid attention transformer(HAT)[7]实现了最先进的结果。
尽管基于Transformer的方法在图像恢复问题上取得了成功,但仍存在改进空间。当前的基于窗口的Transformer网络将自注意力计算限制在一个集中的区域。这种方法显然导致了受限制的感知领域,并且无法充分利用原始图像的特征信息。本研究提出了一种混合多轴聚合网络(HAAT),以解决上述问题。HAAT通过将Swin-Dense-Residual-Connected Blocks(SDRCB)[8]与混合网格注意力块(HGAB)[9]相结合而构建。HGAB借鉴了GAB[9]的设计思想,将通道注意力、稀疏注意力和窗口注意力集成在一起,利用通道注意力的全局感知能力来弥补自注意力的不足。稀疏自注意力的使用可以增强全局特征交互,同时保持计算效率。同时,为了进一步挖掘模型的潜在性能。
2 Hybrid Attention Aggregation Transformer
图1说明了HAAT的综合结构。SDRCB将Swin Transformer层和转换层集成到每个Residual Deep特征提取组(RDG)中,通过使用更少的参数和更简洁的设计来增强感受野,从而实现卓越的性能。此外,作者提出了HGAB来描述跨区域的相似性,以增强图像重建。HGAB的架构如图2所示,包括一个Mix Attention Layer(MAL)和一个Multi-Layer Perceptron(MLP)层。HGAB使用稀疏自注意力来增强全局特征交互,同时控制计算复杂性,从而促进对相似图像的联合建模,实现更强大的图像重建。此外,所采用的通道注意力机制可以帮助模型在不同的通道之间提取更有效信息。
Swin-Dense-Residual-Connected Block
作者使用 Swin-Transformer Layer(STL)[1, 2] 的位移窗口自注意力机制来捕捉长程依赖性,通过自适应感受野。STL 根据全局内容调整模型的权重,从而增强特征提取。这种技术在网络加深时保持全局细节,扩大感受野而不会降低。将 STL 与稠密残差连接相结合,可以扩大感受野并提高对关键信息的重要性,从而在需要全面、敏感处理的 SISR 任务中提高性能。RDG 中输入特征图
的 SDRCB 如下所示。
其中
表示由前层产生的多级特征图的 ConCat 。
指的是具有 LeakyReLU 激活函数的卷积层,其负斜率为 0.2。LeakyReLU 的负斜率设置为 0.2。卷积 1 是一个 1x1 卷积层,用于自适应地融合具有不同 Level [10] 的特征。
表示残差缩放因子,用于稳定训练过程 [6],其设置为 0.2。
Hybrid Grid Attention Block(HGAB)
该GAB由一个Mix Attention Layer(MAL)和一个MLP层组成。关于MAL,作者首先将输入特征
按通道分为两部分:
和
。此外,将输入传递到另一个分支,以执行通道注意力操作。接下来,作者再次将
按通道分为两部分,并分别输入到W-MSA和SW-MSA中。同时,将
输入到Grid-MSA [9]。MAL的计算过程如下: