专栏名称: 新机器视觉
最前沿的机器视觉与计算机视觉技术
目录
相关文章推荐
广州房姐  ·  广州有民办学校,开学前2天,宣布罢工... ·  21 小时前  
航空工业  ·  闹元宵猜灯谜赢惊喜! ·  22 小时前  
德善学园微讯  ·  凝聚人心,攻坚克难,开拓德善教育教学工作新局 ... ·  23 小时前  
黑马程序员  ·  喜报!应届生均薪破万,最高薪资24000元! ·  昨天  
黑马程序员  ·  喜报!应届生均薪破万,最高薪资24000元! ·  昨天  
酒醒梦已残  ·  DeepSeek ... ·  3 天前  
酒醒梦已残  ·  DeepSeek ... ·  3 天前  
51好读  ›  专栏  ›  新机器视觉

融合通道注意力的跨尺度Transformer图像超分辨率重建

新机器视觉  · 公众号  ·  · 2024-09-26 21:05

正文

作者:李焱,董仕豪 ,张家伟等
来源:《中国图象图形学报》
编辑:陈萍萍的公主@一点人工一点智能
原文:http://www.cjig.cn/zh/article/doi/10.11834/jig.240279/

目的 随着深度学习技术的发展,基于Transformer的网络架构被引入计算机视觉领域并取得了显著成效。针对在超分辨率任务中,Transformer模型存在特征提取模式单一、重建图像高频细节丢失和结构失真的问题,提出了一种融合通道注意力的跨尺度Transformer图像超分辨率重建模型。
方法 模型由四个模块组成:浅层特征提取、跨尺度深层特征提取、多级特征融合以及高质量重建模块。浅层特征提取利用卷积处理早期图像,获得更稳定的输出;跨尺度深层特征提取利用跨尺度Transformer和强化通道注意力机制,扩大感受野并通过加权筛选提取不同尺度特征以便融合;多级特征融合模块利用强化通道注意力机制,实现对不同尺度特征通道权重的动态调整,促进模型对丰富上下文信息的学习,增强模型在图像超分辨率重建任务中的能力。
结果 在Set5、Set14、BSD100、Urban100和Manga109标准数据集上的模型评估结果表明,相较于SwinIR超分辨率模型,所提模型在峰值信噪比上提高了0.06dB~0.25dB,且重建图像视觉效果更好。
结论 提出的融合通道注意力的跨尺度Transformer图像超分辨率重建模型,通过融合卷积特征与Transformer特征,并利用强化通道注意力机制减少图像中噪声和冗余信息,降低模型产生图像模糊失真的可能性,图像超分辨率性能有效提升,在多个公共实验数据集的测试结果验证了所提模型的有效性。
引言
随着社会对高质量图像需求日益增加,图像超分辨率重建技术已成为计算机视觉领域的热点研究。图像超分辨率重建(image super-resolution reconstruction,SR) 核心目标是将低分辨率(low resolution,LR)图像通过一系列算法和模型,恢复出高分辨率(high resolution,HR)的图像细节,从而提高图像视觉质量和细节表现能力(熊巍等,2023),这对于遥感成像(Zhang 等,2022;Dong 等,2020)、医学图像处理(Al-hayani 等,2023)、视频监控(Chan 等,2022;Isobe 等,2022)和压缩(Jo 等,2018;Wang 等,2019)等许多实际应用都具有重要意义。
深度学习技术的进步催生了基于该技术的图像超分辨率方法,这些方法在性能上表现出显著的优势。在2014年,Dong等人(2014)首次提出一种基于卷积神经网络的超分辨率模型(super resolution with convolutional neural network,SRCNN),该模型利用三个卷积层实现从低分辨率图像到高分辨率图像的直接映射。
尽管SRCNN模型在端到端的学习过程中展现了其潜在的能力,但由于其网络结构深度限制,该模型在特征提取方面能力不足,进而限制了其整体性能的提升。为了克服这一局限,研究人员借鉴深度残差网络(Kim 等,2016)的设计理念,通过引入多层残差块来增强图像特征的提取能力,并采用后端上采样技术来重建高分辨率图像。
这一改进不仅显著提升了SR模型的性能,同时也提高了其处理速度,使得基于深度学习的SR方法在实践中更具吸引力。例如,EDSR(enhanced deep residual network for single image super-resolution) (Lim 等,2017)通过去除与单图像超分辨率任务不相适应的批量归一化层,实现性能的显著提升。
此外,RCAN(image super-resolution using very deep residual channel attention network)(Zhang 等,2018)在注意力机制的引导下,将通道注意力与残差块结合,从而增强图像中关键通道特征的识别能力,显著提高了图像超分辨率重建性能。
进一步地,有研究通过整合通道信息和空间信息来增强注意力机制。例如,Woo等人(2018)提出卷积块注意力模块,该模块能够同时捕获通道和空间上的关键特征。尽管超分辨率重建任务在卷积神经网络(convolutional neural network,CNN)的辅助下取得了显著进步,但基于CNN的模型在处理复杂场景时仍存在局限性。目前,大多数超分辨率网络结构以单层级端到端的形式存在,这忽视了网络重建过程中的多层级特征信息,从而限制了模型的重建性能。
近期,Transformer模型在自然语言处理领域取得显著成就,激起了研究者们将其应用于计算机视觉问题的热情。Transformer的自注意力机制能够有效捕捉序列元素间的长距离依赖,在图像识别(Huang 等,2022)、目标检测(Liu 等,2019;Chu 等,2021;Carion 等,2020)以及图像分割(Cao 等,2021;Wang 等,2021;Wu 等,2020)等高级视觉任务中取得成功应用。
2020年,Dosovitskiy等人(2021)提出一种视觉Transformer(vision in Transformer,ViT)模型,第一个将Transformer架构应用于图像分类任务的模型,它证明Transformer可以有效地处理非序列数据,如图像。随后,研究者们开始将Transformer应用于更基础的视觉任务。
Liang等人(2021)受Swin Transformer(Liu 等,2021)的启发,提出SwinIR(image restoration using swin Transformer)网络,用于图像恢复。该网络通过多层Swin Transformer实现局部注意力和窗口间的交互,并利用卷积层进行特征增强。通过融合CNN和Transformer的优点,SwinIR在性能上实现了显著提升。
之后,学者们对Transformer自注意力机制进行研究,探索更符合图像超分辨率重建特性的模型。Zhang等人(2022)提出ELAN(efficient long-range attention network)模型,ELAN模型采用高效的长距离注意力机制,该机制不仅能够捕捉图像处理中的长程依赖关系,并且它通过一种新颖的注意力模块,可以在不增加过多计算负担的情况下,有效地模拟像素之间的长距离交互。这种结构设计使得模型在处理图像超分辨率时,能够更好地恢复图像的纹理细节和结构信息。
此外,Cai等人(2023)使用一种分层补丁分区的方法逐步恢复高分辨率图像。构建一个级联模型,分多个阶段处理输入图像,从使用小补丁大小的令牌开始,逐渐合并它们以形成全分辨率图像。这个分层补丁机制不仅实现了多分辨率的特征聚合,并且网络能够自适应地学习不同图像区域的补丁感知特征,从而获得更好的超分辨率结果。
目前基于Transformer的方法通过有效的长程依赖性,在图像超分辨率方面展示出显著的潜力。然而,Transformer依赖于自注意力机制进行特征提取,(Li 等,2023)研究发现,Transformer倾向于优先考虑低频信息,并且在构建高频表示方面表现出有限的能力,导致模型无法精确重建图像高频细节以及边缘信息。
针对该问题,本文提出了一种融合通道注意力机制的跨尺度Transformer图像超分辨率重建模型,在整体结构上采用CNN与Transformer相结合模型,同时建模长程依赖关系和局部特征。并且利用跨尺度Transformer获取不同尺度下特征信息,融合强化通道注意力学习丰富上下文信息并增强模型表征能力,通过提取跨尺度信息,更精细地重建图像中的细节信息,例如边缘、纹理等,同时重建更自然的图像,避免出现伪影或失真现象。如图1所示,所提模型在性能和参数之间实现了良好的平衡。
图1 不同模型的性能与模型参数之间的关系
本文的主要贡献有:
1)提出了一种新颖的跨尺度自注意力机制(cross-scale self-attention mechanisms,CSA)。通过尺度因子捕捉不同尺度上的细节和结构信息,使得模型充分利用跨尺度特征的自相似性,从而提高模型性能。
2)设计了跨尺度特征提取模块。该模块融合跨尺度Transformer结构与强化的通道注意力机制,跨尺度Transformer结构有效地扩大了模型的感受野,使其能够捕捉到更广泛的空间上下文信息;强化的通道注意力机制则通过一种精细的加权筛选方法,进一步强调关键特征的重要性,抑制了冗余信息。增强了模型对于复杂场景的理解能力的同时通过优化特征表示的方式,提高了模型的效率和性能。
3)设计了多级特征融合模块,融合过程中,通道注意力机制通过动态调整各个通道的特征权重,有效地降低了噪声和冗余信息对模型性能的影响,使得模型能够更专注于对任务更为关键的特征。通过这种方式,模型的细节捕捉能力得到了显著提升,能够在复杂多变的场景中捕捉到更多细微而重要的信息。
融合通道注意力的跨尺度
Transformer图像超分辨率重建
1.1 超分辨率重建架构
为了有效地利用图像自相似性,获取跨尺度特征信息,所提模型主要由(1)浅层特征提取、(2)跨尺度深层特征提取、(3)多级特征融合模块和(4)高质量图像重建模块组成,如图2所示。具体而言,对于给定低分辨率输入 ,首先应用卷积从低分辨率图像中获得低级别特征嵌入。为了有效利用图像自相似性,获取跨尺度特征信息,之后使用残差跨尺度Transformer块(residual cross-scale transformer block,RCSB)提取分层特征,以获取远程视图信息,并且利用强化通道注意力(enhanced channel attention,ECA)模块对特征加权筛选。然后,特征融合模块堆叠不同尺度的特征图后利用强化通道注意力机制,学习更丰富的上下文信息并抑制冗余信息,为后续高质量重建模块奠定基础。最后,在高质量图像重建模块中,利用像素混洗方法对特征重建。使用L 1 损失函数优化网络参数。
图2 所提模型总体框架
1.2 跨尺度自注意力机制
跨尺度图像块相似性在自然图像中广泛存在(Mei 等,2020),直观地说,除了非局部像素到像素匹配外,像素还可以与更大的图像块进行匹配,跨尺度特征对应关系能够直接从LR图像中搜索高频细节,从而实现更准确和高质量图像重建。现有的注意力机制只依赖于一个注意力层的静态表征感受野和统一的信息粒度,无法同时捕获不同尺度特征。
提出的跨尺度自注意力机制通过尺度因子r下 采样到不同尺度,计算跨尺度非局部注意力,增强生成的图像特征。在不同注意力层中,首先计算LR图像编码高级特征之间的非局部相似性,然后将这种相似性映射到原始LR特征,以获得重建的HR特征。实际上,相似性映射的假设是图像高级特征之间的相似性和低级特征之间的相似性密切相关。高级特征代表语义信息,低级特征代表浅层空间纹理。因此,空间非局部相似性矩阵可以在高级和低级特征之间共享。
在传统自注意力机制中,同一自注意力层中的输入向量首先通过线性变换转化为三个不同向量:查询(Q)、键(K)和值(V)。不同向量之间通过函数计算得到注意力权重。图3是提出的跨尺度自注意力机制与传统自注意力机制对比。本文提出的跨尺度自注意力机制可以探索深层特征的对应关系,并具有线性复杂度。具体而言,首先给定输入特征 和尺度因子r,通过不同卷积核的卷积层生成键K和值V,使得同一注意力层中的不同注意力头在不同尺度上获取K和V,实现了提取不同尺度的特征,以增强局部区域特征。其表达式为:
式中, , , 表示第i个注意力头的线性投影参数,MConv(g)表示跨尺度卷积操作,尺度因子 决定卷积核的大小。跨尺度自注意力计算公式为:
式中,d 是维度。由于K和V捕捉跨尺度特征,使得跨尺度自注意力能够利用图像自相似性,从而更好的重建图像。
图3 传统自注意力机制和跨尺度自注意力机制的对比
1.3 强化通道注意力机制
根据(Zhang 等,2021)的研究,提出强化通道注意力(enhanced channel attention,ECA)模块,该模块可以跨尺度的处理输入特征图的空间信息并且能够有效的建立跨尺度通道注意力间的长期依赖关系。
图4 强化通道注意力模块
如图4所示,ECA模块主要分为四个步骤,首先从深层特 征提取模块中获取多尺度特征图,对不同尺度的特征图进行通道注意力权重计算,其表达式为:
式中, ,然后整合跨尺度通道注意力权重向量,其表达式为:
为了建立长期的通道注意力依赖,并且实现跨尺度注意力之间的信息交互,进一步利用softmax函数对通道注意力信息权值重标定,其表达式为:
然后,将对应尺度的特征图 与权值重标定的注意力向量在channel-wise级别上相乘,其表达式为:
最后,将得到的跨尺度通道注意力加权后的特征图维度拼接,输出得到一个跨尺度信息更为丰富的特征图,进入下一组Transformer层,其表达式为:
1.4 跨尺度特征提取模块
给定低分辨率图像 ,首先应用3×3卷积层 提取初始浅层特征 ,其表达式为:
然后,跨尺度特征 提取,其表达式为:
式中, 表示通过级联N个RCSB构造跨尺度特征提取模块和卷积层,这有助于将卷积运算的归纳偏置引入Transformer网络。中间特征 和输出特征 表达式为:
式中, 表示第i个RCSB, 表示用于残差连接并将特征映射到原始数量通道的3×3卷积层。
1)残差跨尺度Transformer块。 如图1所示,RCSB由K个跨尺度Transformer层(cross-scale Transformer layer,CSL)、强化通道注意力(ECA)模块和卷积层的残差块组成。具体地,对于给定第i个RCSB的输入特征( ),由K个CSL提取中间特征,其表达式为:
式中, 是第i个RCSB中的第j个CSL。然后,通过1.3介绍的强化通道注意力模块,其表达式为:
式中, 表示强化通道注意力模块,通过加权筛选机制识别并提取出在当前尺度下最为显著的特征,用以替代原始特征反向传播。这种策略不仅提升了网络的效率,还增强了模型的性能。为了进一步融合经过筛选的特征,引入残差连接,将其与输入特征 结合,在此之前,通过卷积层对特征进行预处理。其表达式为:
式中, 是1×1的卷积层。
2)跨尺度Transformer层。 如图5所示,CSL是基于Transformer层的多头自注意力设计的。CSL的核心组件包括跨尺度自注意力(cross-scale self-attention,CSA)和门控Conv前馈网络(gated conv feedforward network,GCFN)。在注意力层和前馈神经网络层后应用层归一化,以稳定训练过程并提高模型性能。其表达式为:
式中, 是归一化层。
图5 跨尺度Transformer层(CSL)示意图
使用GCFN用于将空间相邻像素位置信息编码并帮助学习局部图像结构,取代传统Transformer中的前馈网络(feedforward network,FFN)。后续消融实验验证了该模块的有效性。
1.5 多级特征融合模块
为了综合利用图像中的多层次特征,增强模型对图像全局结构以及局部细节的感知,设计多级特征融合模块,如图2所示。首先将获取的不同尺度特征在通道维度进行堆叠,然后特征压缩过程通过引入特定卷积核大小的卷积层,对堆叠后的多尺度特征进行了有效的降维与融合,堆叠并压缩后的特征表达式为:
式中, 表示压缩的卷积操作, 表示堆叠过程。不同尺度特征堆叠压缩后再次利用强化通道注意力模块对这些特征进行处理,强化对任务贡献度高的特征通道,并减少对噪声或冗余信息的敏感度。通过动态调整通道权重,模型得以更加聚焦于图像中的关键信息,从而降低图像重建过程中可能出现模糊或失真的风险。
其表达式为:
最后,对于重建模块,采用像素混洗方法对融合特征上采样,通过长距离残差连接,可以将低频信息直接传输到重构模块,帮助深层特征模块聚焦高频信息。其表达式为:
实验与分析
2.1 实验设置
2.1.1 数据集和评价指标
在图像超分辨率重建研究中,DIV2K数据集(Agustsson 等,2017)提供了一组具有高分辨率和高质量的图像资源,该数据集由1000张2K分辨率的RGB图像组成,覆盖了包括动植物、自然风景在内的多样化场景。在此数据集中,800张图像被用作训练集,100张用于验证,剩余的100张构成测试集。在本研究中,遵循Liang等人(2021)的研究方法,选取了900张高分辨率(HR)图像,并通过对这些图像应用双三次下采样(下采样倍数为×2、×3和×4)来生成对应的低分辨率(LR)图像。
为了对所提出模型的性能进行全面评估,选择五个公认的数据集作为基准,分别为Set5(Bevilacqua 等,2012)、Set14(Zeyde 等,2012)、BSD100(Martin 等,2001)、Urban100(Huang 等,2015)和Manga109(Matsui 等,2017)。在评估过程中,将图像从RGB色彩空间转换到YCbCr色彩空间的Y通道上,并分别计算峰值信噪比(peak signal-to-noise ratio,PSNR)(Gao等,2009)和结构相似性指数(peak signal-to-noise ratio,PSNR)(Gao等,2009)作为量化评价指标。PSNR衡量的是超分辨率重建图像与原始高分辨率图像之间的像素差异,而SSIM则评估重建图像的结构性相似度,包括亮度、对比度和结构方面。这两个指标的得分越高,表明模型对原始图像的恢复效果越佳,保真度越高。
2.1.2 实验环境和训练参数设置
所提模型在PyTorch中实现,并使用NVIDIA RTX 3090 GPU训练,遵循常见的训练策略(Liang 等,2021),本文使用L 1 损失函数,使用Adam优化器(Loshchilov等,2019)训练模型,动量项( ,






请到「今天看啥」查看全文