专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
51好读  ›  专栏  ›  我爱计算机视觉

西工大&台湾清华&西电&港中文 3位 IEEE Fellow 提出异构窗口 Transformer 的图像去噪方法

我爱计算机视觉  · 公众号  ·  · 2024-08-23 12:04

正文




关注公众号,发现CV技术之美




本文分享论文 Heterogeneous window Transformer for image denoising ,HWformer旨在通过捕捉全局上下文信息来增强像素之间关联,提高去噪效果,并通过建立长距离和短距离建模之间联系来提高去噪性能、

  • 作者:田春伟,郑梦华、林嘉文、李志武、张大鹏
  • 单位:西北工业大学,台湾清华大学,西安电子科技大学,香港中文大学(深圳)
  • 论文链接:https://arxiv.org/abs/2407.05709
  • 代码链接:https://github.com/hellloxiaotian/HWformer

1.摘要

深度网络通常可以通过提取更多的结构信息来提高去噪效果。然而,它们可能会忽略图像中像素之间的相关性,以追求更好的去噪性能。窗口变换器(Window Transformer)可以使用长距离和短距离建模来交互像素,以解决上述问题。

为了在距离建模和去噪时间之间取得平衡,我们提出了一种 异构窗口变换器(Heterogeneous Window Transformer,简称HWformer) 用于图像去噪。HWformer首先设计了异构全局窗口来捕获全局上下文信息,以提高去噪效果。为了在长距离和短距离建模之间建立桥梁,全局窗口会进行水平和垂直的偏移,以促进多样化的信息获取,而不增加去噪时间。

为了防止独立块的信息丢失现象,稀疏思想引导前馈网络提取邻近块的局部信息。提出的HWformer在去噪时间上仅占流行Restormer的 30%


2.方法及贡献

尽管窗口变换器能够依靠短距离建模来减少去噪时间,局部窗口可能会限制上下文的交互。此外,现有的基于变换器的长距离建模会增加去噪时间。

为了在距离建模和去噪时间之间搭建桥梁,我们在图像去噪中提出了一种异构窗口变换器(HWformer)。HWformer首先设计了异构全局窗口,以尽可能保证自注意力机制的交互,从而获得更多的全局上下文信息,以提升图像去噪的性能。为了打破长距离和短距离建模交互的限制,全局窗口会水平和垂直地进行偏移,以促进多样化的信息获取,而不增加去噪时间。

为了防止独立块的原生效应,稀疏思想首次嵌入到前馈网络中,以提取更多邻近块的局部信息。此外,提出的HWformer在去噪时间上仅占流行的Restormer的30%。

论文的 贡献在于

  1. 设计了不同大小的异构全局窗口,以便于获取更丰富的全局上下文信息,克服短距离建模的缺点;
  2. 首次在全局窗口中设计了不同方向的偏移机制,以在短距离和长距离建模之间搭建桥梁,提高去噪性能而不增加去噪时间;
  3. 在前馈网络中提出了稀疏技术,以在图像去噪中捕获更多邻近块的局部信息;
  4. 提出的HWformer具有更快的去噪速度,在图像去噪方面几乎是流行的Restormer的三倍。
图 1 HWformer 的结构

3.实验及结果

3.1 实验设置

为了公平地评估我们的HWformer,采用了多个公共合成噪声和真实噪声图像数据集,如BSD500、DIV2K、Flickr2K、WED以及SIDD-Medium,来训练和评估HWformer的性能。实验设置包括将图像随机裁剪成固定大小的块以加速训练,并在具有高性能GPU的计算环境中使用Adam优化器和特定的训练参数进行模型训练。

此外,实验中还对HWformer的关键组件进行了消融研究,并采用了一系列定量指标(如PSNR、SSIM、FSIM等)和定性分析来全面评估其去噪效果和计算效率,确保了结果的公平性和全面性。

3.2实验结果

表I详细呈现了Urban100数据集上,针对15噪声水平时不同模型配置的图像去噪性能对比。各模型配置由不同ID标识,它们在全局窗口变换增强块(GTEBlock)内部,通过调整水平(Ho)、垂直(Ve)和普通(Co)Transformer的数量及其组合方式来区分。

实验结果揭示了一个趋势:随着GTEBlock中Ho、Ve、Co的组合数量增加,模型的去噪性能得到提升。以ID 1和ID 9为例,后者在GTEBlock中集成了更多种类的Transformer,并融合了稀疏技术,实现了更高的峰值信噪比(PSNR),分别为 33.72 dB 33.94 dB

特别是,ID 9相较于ID 8的改进,凸显了稀疏技术在增强局部信息提取和去噪性能方面的积极作用,PSNR从33.47 dB提升至33.94 dB。进一步比较ID 1、ID 2和ID 3,结果表明,结合不同方向的变换对于捕获图像的多维特征至关重要,这反映在它们均超越了仅采用Co的ID 1的PSNR值。

然而,增加Ho、Ve、Co的数量虽可优化性能,也可能导致模型复杂度上升。因此,设计模型时必须在性能提升和复杂度控制间寻求平衡。

综合考虑, ID 9的模型配置在维持合理的复杂度基础上,实现了最优的去噪效果,因而被视为最佳配置

图2和图3提供了在Urban100数据集上,不同去噪方法对灰度图像去噪的视觉比较。

表II提供了在BSD68数据集上,不同窗口大小对于图像去噪性能影响的实验结果。表中列出了从4×4到96×96不同尺寸的窗口,并展示了使用这些窗口大小进行去噪时的峰值信噪比(PSNR)值。随着窗口大小的增加,去噪性能通常会提高。较小的窗口(如4×4、6×6、8×8)相比于大窗口(如48×48、96×96)捕获的上下文信息较少,导致去噪性能较低。

实验结果显示, 使用96×96的窗口大小在去噪性能上取得了最佳结果(PSNR为31.99 dB) ,表明较大的窗口能够捕获更多的全局信息,从而提高去噪效果。

表III提供了在不同噪声水平下,即15、25和50,对Set12数据集中的灰度图像去噪方法的性能比较。

随着噪声水平的增加(从15到50),所有方法的去噪性能(以PSNR为衡量标准)普遍下降。这是因为更高的噪声水平意味着更多的信息丢失和干扰,使得去噪任务更加困难。表中列出了包括BM3D、TNRD、DnCNN、FFDNet、N3Net、FOCNet、RDDCNN、DGAL、CTNet、SwinIR和HWformer(本文提出的方法)在内的多种去噪方法。

对于每个噪声水平,HWformer在多个类别的图像上几乎总是展现出最佳或接近最佳的性能。特别是在噪声水平为50时,HWformer在多个图像类别上相比其他方法有显著的PSNR提升,例如在“Starfish”图像上, HWformer相比于排名第二的SwinIR方法提高了0.31dB

在多个噪声水平下,HWformer多次获得最高或并列最高分数,这表明该方法在实验设置中具有较高的一致性和优越性。

表IV提供了在BSD68和Urban100数据集上,不同噪声水平(15、25和50)对灰度图像去噪方法性能的比较。

在BSD68和Urban100数据集上,HWformer在不同噪声水平下通常展现出接近最佳或最佳性能,这表明其算法在多种噪声条件下的有效性。特别是在Urban100数据集上,噪声水平为25时,HWformer相比Restormer实现了0.15dB的性能提升,这在图像质量提升方面是一个显著的改进。

HWformer在两个数据集上的性能稳定性表明,该方法对于不同类型的图像内容都具有较好的适应性和鲁棒性。

表V展示了在McMaster和Urban100数据集上,不同噪声水平(15、25和50)对彩色图像去噪方法性能的比较。LPIPS指标衡量了去噪图像与原始无噪声图像之间的感知相似度。HWformer在某些情况下展示了较低的LPIPS值,这意味着其去噪结果在视觉上更接近原始图像。

表VI提供了在CBSD68和Kodak24数据集上,不同噪声水平(15、25和50)对彩色图像去噪方法在结构相似性指数(SSIM)和特征相似性指数(FSIM)这两个评价指标上的性能比较。HWformer与其他流行去噪方法(如DnCNN、FFDNet、DRUNet、IPT、CTNet、SwinIR和EDT-B)进行了比较,在多个噪声水平下,HWformer在SSIM和FSIM指标上通常能够获得与或优于这些方法的结果。

表VII展示了不同彩色图像去噪方法在Urban100数据集上,针对不同噪声水平(15、25和50)的峰值信噪比比率(PSBR)性能比较。HWformer在噪声水平为15和25时,在Urban100数据集上取得了最佳性能,这表明其算法在低至中等噪声水平下能够有效地恢复图像细节。

图4和图5提供了Urban100数据集上,不同去噪方法对彩色图像去噪效果的视觉比较。

随着噪声水平的增加,去噪算法面临的挑战也随之增加,这可能导致色彩差异值变大,反映出去噪后的图像与原始图像在色彩上的差异。

表VIII 展示了在McMaster数据集上,不同噪声水平(15、25和50)下,彩色图像去噪方法在色彩差异方面的表现。在McMaster数据集上,HWformer在所有测试的噪声水平下均展现出最佳或接近最佳的色彩差异性能。

特别是在噪声水平为15和25时,HWformer实现了最低的色彩差异值,表明其在保持色彩准确性方面的优势。HWformer与其他去噪方法(如DnCNN、IPT、CTNet、SwinIR、Restormer和EDT-B)相比,在多数情况下能够提供更低的色彩差异值,这意味着HWformer在去噪过程中更好地保留了原始图像的色彩信息。

SPARCS数据集通常用于评估去噪算法在处理实际遥感图像数据时的性能,这些图像可能包含更复杂的噪声特性和场景。

表IX 展示了在不同噪声水平(15、25和50)下,彩色图像去噪方法在SPARCS数据集上的平均峰值信噪比(PSNR)性能比较。与其他去噪方法(如DnCNN、DRUNet、IPT、CTNet和SwinIR)相比,HWformer在低至中等噪声水平下展现出了卓越的性能,这可能归功于其异构窗口变换器的设计,能够有效地处理不同类型的噪声。

表X 展示了在CC数据集上,不同真实噪声条件下,各种去噪方法的性能比较。CC数据集包含了不同相机(如Canon 5D、Nikon D600、Nikon D800)在不同ISO设置下拍摄的图像。

这些设置反映了实际摄影中可能遇到的不同光照和噪声条件。HWformer在多数情况下展现出了优异的去噪性能,除了在Nikon D800 ISO=1600的设置中略低于其他方法外,它在多数情况下都取得了最高的PSNR值,特别是在Nikon D600 ISO=3200和Nikon D800 ISO=3200的设置中。

图6提供了在CC数据集上,不同去噪方法对真实图像去噪效果的视觉比较。

表XI 展示了在SIDD(Sparse Diverse Denoise Dataset)数据集上,不同去噪方法对真实噪声图像的处理性能,使用峰值信噪比(PSNR)作为评价指标。







请到「今天看啥」查看全文