专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

用于泛化图像去噪的迁移CLIP模型

FightingCV · 公众号 · · 2025-01-23 09:00

正文

摘要

图像去噪是计算机视觉中的一个基本任务。虽然流行的基于深度学习的有监督和自监督方法在消除分布内噪声方面表现出色，但它们对分布外 (OOD) 噪声的敏感性仍然是一个重大挑战。最近出现的对比语言图像预训练 (CLIP) 模型在开放世界图像识别和分割方面展现出卓越的能力。然而，利用CLIP增强低层任务鲁棒性的潜力在很大程度上尚未得到探索。本文揭示了从CLIP的冻结ResNet图像编码器中提取的某些密集特征表现出与失真无关且与内容相关的特性，这对于泛化去噪非常理想。利用这些特性，我们设计了一个非对称编码器-解码器去噪网络，该网络将包括噪声图像及其来自CLIP的冻结ResNet编码器的多尺度特征在内的密集特征整合到一个可学习的图像解码器中，以实现泛化去噪。进一步提出了渐进式特征增强策略，以减轻特征过拟合并提高可学习解码器的鲁棒性。在包括合成噪声、真实世界sRGB噪声和低剂量CT图像噪声在内的各种OOD噪声中进行的大量实验和比较，证明了我们方法的优越泛化能力。

1 引言

图像去噪是计算机视觉和图像处理中的一个重要任务。当前利用强大的深度神经网络和大规模数据集的有监督去噪方法已经在合成噪声和真实世界噪声去除方面取得了优异的性能 [60, 33] 。然而，这些有监督的去噪器往往会过拟合训练数据集中存在的噪声，导致对分布外 (OOD) 噪声的泛化能力较差 [6] 。另一方面，无监督和自监督去噪方法 [26, 12, 18, 28, 44, 54] 直接关注目标噪声图像所在的领域，因此绕过了OOD泛化。然而，这些方法本质上容易受到未见噪声的影响 [7] ，并且并非总能获得目标噪声数据集。因此，增强深度去噪器的泛化能力至关重要。

OOD泛化在图像识别和分割等高级视觉任务中一直是热门研究方向 [70, 51] 。相反，对图像去噪中OOD泛化的关注有限。该领域现有的研究主要包括两个方面：跨退化等级的泛化和跨退化类型的泛化。关于前者，一些工作训练了盲去噪器 [62, 60, 18] 或无偏网络 [41, 63] 来处理不同等级的噪声。然而，这些方法仅限于特定噪声，无法泛化到未见的噪声类型。对于后者，一些工作旨在增强模型对一般OOD噪声的抵抗力。特别是，MaskDenoising [6] 将dropout单元融入模型训练中，以强制去噪器学习图像内容的重建。 DIL [32] 基于因果关系和元学习，鼓励模型学习不变形表示。 HAT [58] 设计了一种针对深度去噪器的对抗攻击，然后进行了对抗训练。

最近，通过基于超大规模数据集解决图像-文本对齐问题，对比语言-图像预训练（CLIP）模型 [48] 在后续开放世界图像识别任务中展现了显著的泛化能力。通过冻结模型 [69, 65] 、模型微调 [49] 、视觉提示 [71] 、蒸馏 [31, 19] 等等 [34] 对CLIP进行了一系列扩展，以将CLIP的泛化能力从分类转移到密集预测任务，包括开放词汇分割 [34] 和零样本深度估计 [65] 。然而，CLIP在低级任务中进行鲁棒恢复的可行性仍未探索。因此，我们提出一个问题：CLIP对图像噪声是否鲁棒，我们能否将其用于可泛化的图像去噪？

在本文中，我们发现来自CLIP中冻结的ResNet图像编码器的特定尺度上的稠密特征图表现出显著的抗噪性，这是一种通过监督学习难以获得的特性。这些干净图像及其噪声对应物的特征在余弦相似度和CKA [25] 相似度度量方面显示出显著的相似性。此外，这些特征对于具有不同内容和语义的图像保持清晰的区分。这种抗失真和与内容相关的特性对于泛化去噪是理想的，因为鲁棒且独特的特征很好地代表了潜在图像，而不管噪声测量中的损坏如何。因此，我们通过集成CLIP的冻结ResNet图像编码器和一个可学习的图像解码器，提出了一种非对称编码器-解码器去噪网络。来自冻结编码器的噪声图像的多尺度特征，以及由噪声图像表示的额外稠密特征，被逐步整合到解码器中以恢复高质量图像。通过对单一噪声类型和噪声水平进行监督训练，所提出的简洁去噪器，称为CLIPDenoising，表现出对各种OOD噪声良好的泛化能力。

通过使用冻结的图像编码器，图像去噪任务转变为从固定特征中恢复干净图像。在训练过程中，训练图像 [5] 及其各自的稠密特征的固有相似性将不可避免地影响特征多样性，导致潜在的特征过拟合。因此，我们提出了一种渐进式特征增强方法，以在更深的尺度上以增加的随机性随机扰动来自冻结CLIP的这些特征。总之，我们的贡献总结如下：

•

我们发现来自CLIP冻结ResNet编码器的稠密特征具有抗失真和与内容相关的特性。利用这一发现，我们将这些特征与噪声图像一起整合到一个可学习的图像解码器中，以构建一个泛化能力强的去噪器。
•

我们提出了渐进式特征增强策略，以进一步提高我们方法的鲁棒性。
•

据我们所知，我们是第一个将CLIP用于泛化去噪的。在各种OOD噪声（包括合成噪声、真实世界sRGB噪声和低剂量CT噪声）上的大量实验和比较证明了我们方法的优越泛化能力。

2 相关工作

2.1 基于深度学习的图像去噪

有监督去噪方法通常基于强大的深度架构（例如，CNN [62, 63] 、非局部网络 [66] 和 Transformer [35, 60, 33] ）、大规模配对数据集（例如，SIDD [1] ）和不同的优化目标（例如，L1/L2 损失 [67] 、对抗性损失 [27] 或扩散损失 [50] ），并取得了最先进的性能。然而，对配对数据集的强烈依赖和 i.i.d. 假设使其容易受到未见噪声和异常值噪声的影响 [6] 。为了规避这一限制，许多无监督和自监督去噪方法 [26, 4, 18, 12, 23, 46, 28, 44, 54] 已被引入以直接处理目标噪声图像。虽然有效，但这些方法绕过了解决泛化问题，导致深度去噪器的异常值鲁棒性改进不足。因此，在可泛化去噪方面的研究仍然存在显著差距。

2.2 图像去噪中的异常值泛化

关于可泛化图像去噪的现有研究主要包括跨退化水平的泛化和跨退化类型的泛化。前者在推理过程中处理未知水平的已知噪声类型，而后者则努力实现一般的异常值鲁棒性。关于前者，DnCNN [62] 提出训练盲去噪器，能够处理具有不同水平的特定噪声类型。 Mohan等人 [41] 发现，在有限噪声范围内训练的无偏（BF）去噪器对未见噪声水平表现出鲁棒性。因此，BF架构被应用于随后的模型，如DRUNet [63] 和Restormer [60] 。关于后者，GainTuning [42] 采用测试时训练策略来优化每个噪声输入的去噪器。 Chen等人 [7] 将潜在的干净特征与同一图像的多个损坏版本分离，以实现异常值泛化。 MaskDenoising [6] 重新审视了高级视觉任务中常用的dropout操作，并将这些单元集成到模型训练中。 DIL [32] 结合了反事实扭曲增强和基于元学习的优化，以开发一个可泛化的恢复网络。 HAT [58] 结合了对抗攻击和对抗训练，以提高深度去噪器的OOD泛化能力。尽管取得了这些进展，但在泛化能力方面仍有改进的空间。

2.3 基于CLIP的泛化

CLIP在开放世界图像识别中展现了显著的泛化能力 [48] 。后续工作，如MaskCLIP [69] 、DenseCLIP [49] 、ZegCLIP [71] 等 [34, 38] ，将CLIP扩展到密集预测任务，实现了零样本或开放词汇图像分割。也有一些研究明确地蒸馏CLIP，同时保持其零样本性能 [55, 31, 19] 。然而，由于明显的领域差异，利用CLIP的出色泛化能力进行低级视觉任务的研究仍然匮乏。这种探索的缺失是我们工作的首要动力。

2.4 用于图像恢复的基础模型

利用基础模型解决特定领域的任务已在计算机视觉中变得普遍。与高级视觉任务类似，许多工作都集成了大型预训练模型用于图像恢复。扩散模型是目前最先进的生成方法，许多论文都利用预学习的扩散先验来解决各种图像恢复任务 [22, 21, 13, 72, 9] 。关于Segment Anything模型 [24] ，一些工作已将其集成到图像去模糊 [30] 、图像去雾 [20] 和超分辨率 [56, 37] 中。 Yu等人 [59] 引入了语义金字塔自动编码器，使大型语言模型能够执行图像去模糊和修复。此外，Luo等人 [39] 利用CLIP预测高质量图像特征和退化特征，随后将其集成到图像恢复模型中，用于通用图像恢复。现有的研究主要集中于利用基础模型来增强图像恢复性能，而我们的论文旨在强调增强OOD泛化能力。

3 方法

在本节中，我们首先检查一下在超大规模图像-文本数据集上训练的CLIP是否具有一些良好的泛化去噪特性。基于 3.1 节的分析，我们在 3.2 节中提出了一种简单且具有泛化能力的去噪器，然后在 3.3 节中介绍了渐进特征增强的策略。

3.1 分析CLIP图像编码器的特征

CLIP提供了两种图像编码器的变体，即ResNet [16] 和ViT [11] 。 ResNet版本通过连续的卷积块和池化操作提取多尺度特征图，而ViT版本则将图像分解成更小的 16 × 16 图像块，然后采用标准的Transformer操作。对于基于深度学习的图像去噪，低级图像细节和纹理对于重建高质量图像至关重要 [61] 。现有方法利用单尺度管道 [35, 33] 或带有跳跃连接的编码器-解码器架构 [63, 60] 来保留空间细节。由于ViT架构直接处理过度下采样的图像特征，它放弃了空间图像细节，因此不适用于图像去噪。因此，我们将重点分析和利用ResNet进行进一步的分析和方法研究。

抗失真特性。我们检查了CLIP ResNet图像编码器中每个（平均或注意力）池化操作之前的密集特征图。（详见补充材料中的算法 1 ）。这产生了总共五个多尺度特征，表示为 𝐅 1 ∈ ℝ H 2 × W 2 × C 和 𝐅 i ∈ ℝ H 2 i × W 2 i × 2 i ⁢ C , i ∈ { 2 , ⋯ ⁢ 5 } ，其中 H × W 是输入图像的空间维度， C 是基础通道数。为评估这些特征的鲁棒性，我们从一幅干净图像 ℐ c 开始，并引入不同的独立同分布 (i.i.d.) 高斯噪声来创建相应的噪声图像 ℐ n 。请注意，本节中使用的图像强度范围为 [ 0 , 1 ] 。通过将高质量和降质图像都传入冻结的ResNet，获得干净图像特征 𝐅 c i 和噪声图像特征 𝐅 n i 。随后，在每个尺度 i 上计算 𝐅 c i 和 𝐅 n i 之间的余弦相似度。我们在图 1 中显示了结果，其中考虑了五个不同的噪声级别和五个预训练的ResNet（CLIP提供的，尺寸递增，即每个ResNet尺度内残差块数量增加）。

图2 ： ResNet50（用于图像分类的有监督训练，并非来自CLIP）和Restormer（用于盲高斯噪声去除的有监督训练）的特征相似性分析。

从图 1 中，我们观察到，在各种噪声水平下，来自RN50的初始四个特征 𝐅 n i 与其对应的 𝐅 c i 显示出显著的相似性，在更深的尺度 i 上相似性更高。另一方面，随着模型尺寸的增加，即使在较小的std=0.1下， 𝐅 c 1 和 𝐅 n 1 之间的相似性也会急剧下降。使用 CKA相似度度量 [25] 、泊松降解和其他图像的附加结果在图中给出。 9 ， 10 ， 11 参见补充材料，所有这些都表明了类似的观察结果。从这些发现中，我们得出结论，来自 CLIP 冻结 RN50 的特征 𝐅 n i , i ∈ { 1 , ⋯ ⁢ 4 } 是稳健且抗畸变的，这对于构建泛化能力强的去噪器至关重要。此外，我们将这些发现与在 ImageNet 上训练的用于监督图像分类的 ResNet50 和在 i . i . d . 高斯噪声上训练的 Restormer 与 σ ∈ [ 0 , 0.2 ] 进行盲去噪的特征分析进行了对比，并在图 2 中报告了结果。 2 。图 1 和图 2 之间的区别强调了这种抗畸变特性并非普遍存在，而是源于 CLIP。我们在第 5 节中简要讨论了为什么 CLIP 的 RN50 图像编码器具有这种吸引人的特性。

内容相关属性。然后，我们检查上述来自 CLIP 冻结 RN50 的特征是否与内容相关，即，如果具有不同内容的两张噪声图像的特征是否不同。给定 M 不同的干净图像 ℐ c m , m ∈ { 1 , ⋯ ⁢ M } ，我们从 𝒩 ⁢ ( ℐ c m , σ 2 ⁢ I ) 生成多个噪声图像 ℐ n m ，并从冻结的 RN50 中获得相应的多分辨率特征 𝐅 n i , i ∈ { 1 , ⋯ ⁢ 4 } 。然后，我们使用 t-SNE 方法 [53] 计算这些特征的二维嵌入，并在图 3 中呈现结果。我们发现，来自不同噪声图像 ℐ n m 的 𝐅 n i 的低维表示在不同的尺度 i 和噪声水平 σ 下显示出清晰的分离，这表明图像内容与其来自 CLIP RN50 的多分辨率特征之间存在很强的相关性。

3.2 构建泛化能力强的去噪器

图4 ：用于泛化图像去噪的 CLIPDenoising，它包括来自 CLIP 的冻结 RN50 编码器、一个可学习的图像解码器和 3 × 3 卷积

利用来自 CLIP 的冻结 RN50 编码器的有利属性，我们建立了一个简单、有效且可泛化的去噪器，其架构如图 4 所示。我们的模型主要由冻结的 RN50 图像编码器和一个 4 层可学习的图像解码器组成。给定噪声输入 ℐ n ∈ ℝ H × W × 3 ，首先提取来自冻结 RN50 的多尺度特征 𝐅 n i , i ∈ { 1 , ⋯ ⁢ 4 } 。解码器将 𝐅 n 4 作为输入，并逐步恢复高分辨率特征。在上采样过程中，将 𝐅 n i , i ∈ { 1 , 2 , 3 } 与解码器特征连接起来，以将多尺度特征信息融入恢复过程（第 4 层到第 2 层）。随后，第 2 层的解码器输出特征 𝐅 l ∈ ℝ H 2 × W 2 × C 。在第 1 层， 𝐅 l 然后进行上采样并与噪声输入 ℐ n 连接，在最终的卷积块之后产生 𝐅 d ∈ ℝ H × W × C 。最终，通过对 𝐅 d 应用 3 × 3 卷积运算，获得去噪图像 ℐ d 。为与 ResNet 编码器对齐而设计的可学习解码器是基于卷积的，包含多个卷积块，每个卷积块由 Conv-ReLU-Conv-ReLU 序列组成。解码器的更多细节在补充材料中给出。值得注意的是，该模型将噪声图像 ℐ n 作为附加的图像特征整合到解码器中，这很重要且合理，因为噪声图像 ℐ n 本身包含丰富的图像细节，可以被认为是一种独特的密集特征。此操作将在第 4.5 节中进一步分析。

在训练过程中，我们基于固定的噪声类型和级别从 ℐ c 合成 ℐ n ，并优化损失函数，

请注意，我们没有采用全局残差学习，因为我们的目标是从其鲁棒特征恢复高质量图像，而不是恢复残差噪声。在推理中，我们直接在 OOD 噪声上评估我们的模型。第 4.5 节中的消融实验表明，我们简单的基线，即 CLIPDenoising，已经实现了良好的泛化能力。

3.3 渐进式特征增强

通过利用冻结的 CLIP RN50 作为图像编码器，图像去噪任务转变为将不变特征映射到高质量图像。然而，由于训练数据集中的图像自然地表现出一定程度的相似性（例如，不同图像中相似的纹理），来自 CLIP RN50 的相应多尺度特征往往遵循这些相似性。这将降低特征多样性，并可能导致特征过拟合问题。为了避免这个问题并增强解码器的鲁棒性，我们借鉴 [29] ，引入了渐进式特征增强策略。在训练阶段，我们对多尺度特征 𝐅 i 应用随机扰动，如下所示

其中 ⊙ 表示逐元素乘法， 𝜶 i 与 𝐅 i 大小相同。

在公式 ( 2 ) 中， 𝜶 i 从均值为 1，标准差为 γ × i 的 i . i . d . 高斯分布中采样。对于较大的 i ，我们向 𝐅 i 注入更多随机性，因为更深层的特征倾向于捕获更多语义信息，也应该更鲁棒；对于较小的 i ，我们注入较少的噪声以保留浅层特征中包含的纹理和细节相关信息。我们注意到这种渐进式特征增强方法简单但有效。

表1 ：关于各种合成 OOD 噪声，不同方法在 CBSD68、McMaster、Kodak24 和 Urban100 数据集上的定量比较 (PSNR/SSIM)。最好的结果以粗体突出显示，第二好的结果以下划线表示。请注意，HAT 和 DIL 在训练过程中需要多个噪声级别才能实现泛化，而我们的方法只需要一个噪声级别进行训练

Noise Types	Datasets	DnCNN [62]	Restormer [60]	MaskDenoising [6]	HAT [58]	DIL [32]	Ours
Gauss σ = 50	CBSD68	19.84/0.363	19.92/0.365	20.68/0.432	20.95/0.441	26.43/0.717	26.69/0.731
	McMaster	20.18/0.312	20.47/0.312	20.63/0.379	20.79/0.364	26.61/0.669	27.43/0.727
	Kodak24	19.78/0.301	20.12/0.321	20.72/0.368	21.04/0.390	27.46/0.736	27.39/0.723
	Urban100	19.62/0.420	19.36/0.437	20.51/0.485	20.80/0.492	25.89/0.768	26.27/0.769
Spatial Gauss σ = 55	CBSD68	25.91/0.699	23.51/0.595	26.72/0.762	26.39/0.713	24.61/0.630	27.60/0.797
	McMaster	26.18/0.649	24.01/0.539	26.89/0.709	26.62/0.665	24.82/0.574	28.31/0.775
	Kodak24	25.98/0.653	22.99/0.533	27.28/0.745	26.40/0.671	24.56/0.572	28.29/0.786
	Urban100	25.55/0.727	24.13/0.660	26.10/ 0.788	26.48 /0.742	24.80/0.673	27.68/0.822
Poisson α = 3.5	CBSD68	24.37/0.627	22.20/0.559	24.24/0.638	26.61/0.733	27.64 / 0.819	27.67 / 0.818
	McMaster	25.50/0.651	21.93/0.579	25.17/0.590	27.54/0.723	28.91/0.825	28.81/0.820
	Kodak24	24.49/0.560	22.55/0.517	24.30/0.572	27.10/0.695	28.60 / 0.821	28.66 / 0.813
	Urban100	23.57/0.649	21.08/0.584	23.90/0.669	25.95/0.746	27.12 / 0.854	27.15 / 0.838
Salt&Pepper d = 0.02	CBSD68	26.53/0.746	23.59/0.679	29.74/0.843	27.55/0.782	29.45/0.822	29.81/0.844
	McMaster	25.72/0.691	23.05/0.640	29.28/0.773	26.62/0.727	29.28/0.773	29.79/0.807
	Kodak24	27.10/0.723	23.81/0.639	30.56 / 0.842	28.19/0.766	29.99/0.810	30.61 / 0.837
	Urban100	25.61/0.777	23.51/0.734	28.43/ 0.861	26.88/0.792	29.21 /0.841	29.40/0.869

4 实验

在本节中，我们首先介绍去噪各种 OOD 噪声的实验设置。然后给出我们方法的定量和定性结果，并与其他方法进行比较。消融实验最后进行。

4.1 实验设置

合成噪声。我们选择 i . i . d . 均值为 σ = 15 的高斯噪声作为分布内噪声，并考虑5种合成分布外噪声：（1） i . i . d 均值为 σ ∈ { 25 , 50 } 的高斯噪声，（2）均值为 σ ∈ { 45 , 50 , 55 } 的空间高斯噪声，（3）水平为 α ∈ { 2.5 , 3 , 3.5 } 的泊松噪声，（4）水平为 σ 2 ∈ { 0.02 , 0.03 , 0.04 } 的散斑噪声，以及（5）水平为 d ∈ { 0.012 , 0.016 , 0.02 } 的椒盐噪声。我们遵循MaskDenoising [6] 生成这些分布外噪声，并采用Kodak24 [14] 、McMaster [64] 、CBSD68 [40] 和Urban100 [17] 作为测试集。请注意，高斯噪声和空间高斯噪声是在 [ 0 , 255 ] 的强度范围内生成的，而其余噪声使用 [ 0 , 1 ] 的强度范围，以便与MaskDenoising保持一致。

关于我们方法的实现细节，我们基于CBSD432数据集 [40] ，并以在线方式使用 i . i . d . 均值为 σ = 15 的高斯噪声合成噪声图像。基于公式（ 1 ）和图 4 进行监督训练。在训练阶段，我们结合余弦退火学习率使用AdamW [36] 优化器。我们进行了30万次迭代训练，批量大小为16，学习率从初始值 3 ⁢ e − 4 下降到最终值 1 ⁢ e − 6 。训练块大小为 128 × 128 ，并对训练块应用随机几何增强。我们设置 γ = 0.025 来增强来自冻结CLIP RN50的密集特征。我们使用PyTorch [47] 和Nvidia 2080ti GPU进行所有实验。使用峰值信噪比（PSNR）和结构相似性（SSIM）指标来评估去噪质量。

真实世界sRGB噪声。对于真实世界的 sRGB 噪声，我们考虑使用 SIDD 验证数据集 [1] 、PolyU [57] 和 CC [43] 作为测试集。这些数据集包含来自智能手机和商用相机的自然噪声 sRGB 图像。在训练过程中，我们基于 DIV2K 数据集 [2] 和图像信号处理流程模拟 sRGB 噪声，遵循 CBDNet [15] 。特别地，我们在原始域中使用固定级别的泊松-高斯噪声，即 σ s = 0.04 , σ c = 0.03 ，以生成噪声图像，从而突出训练和测试数据之间的分布差异。此处的优化与合成噪声的优化相同。

低剂量 CT 图像噪声。我们利用在 i . i . d 高斯噪声上训练的 CLIPDenoising 来去除真实世界的低剂量 (LD) CT 图像噪声，众所周知，这种噪声复杂且难以建模 [12] 。我们使用 AAPM-Mayo Clinic 低剂量 CT 大型挑战赛数据集 [3] ，该数据集提供 1mm 厚度的腹部切片，包含四分之一剂量图像（噪声图像）和相应的正常剂量 (ND) 图像（真实值）。我们选择来自九位患者的 5410 幅 NDCT 图像，并结合 i . i . d 高斯噪声 σ = 5 用于训练，并使用来自患者 L506 的 526 幅 LDCT 图像用于测试。为了适应单通道 CT 图像，我们在 CLIP RN50 编码器之前插入一个可学习的 1 × 1 卷积，该卷积将单通道图像转换为三通道图像。优化细节与上述相同，只是在这种情况下，我们将总训练迭代次数设置为 40k。

4.2 合成噪声去除

对比方法。我们将我们的方法与三种具有代表性的泛化去噪工作进行比较，即 MaskDenoising [6] 、DIL [32] 和 HAT [58] 。对于 MaskDenoising，我们使用官方训练的模型。关于 DIL 和 HAT，我们遵循其源代码和实验设置，基于 i . i . d . 高斯噪声分别训练 σ ∈ { 5 , 10 , 15 , 20 } 和 σ ∈ [ 0 , 25 ] 的去噪器。请注意，这两种方法在训练阶段需要多个噪声级别才能实现泛化。我们额外评估了在 i . i . d . 高斯噪声下训练的DnCNN [62] 和Restormer [60] ，噪声参数为 σ = 15 。

图5 : 合成OOD噪声下的定性去噪结果。在训练期间，所有方法都没有遇到测试噪声类型。 PSNR/SSIM值列在其各自图像下方。放大以进行更好的比较

结果。我们在表 1 和表 9 （补充材料中）中，对各种方法在不同噪声类型、级别和数据集上的进行了全面的定量比较。如表 1 和 9 所示，我们的CLIP去噪方法表现出令人称赞的分布内性能，同时对所有考虑的OOD噪声表现出显著的鲁棒性。相比之下，对比方法仅在某些特定噪声类型中表现出色。

如表 9 的第一部分所示，Restormer在分布内噪声中取得了令人称赞的性能。但是，它在处理未见过的噪声级别和类型方面存在困难（参见表 1 和 9 ），这表明其对训练集中的噪声过拟合。与Restormer相比，DnCNN的建模能力较弱，但对OOD噪声表现出更好的鲁棒性，但这仍然远落后于专门用于泛化去噪的方法。在MaskDenoising、DIL、HAT和CLIPDenoising的比较中，DIL和我们的方法是唯一能够有效消除高噪声级别高斯噪声的方法，即 σ = 50 ，并且我们的方法在平均水平上优于DIL，如表 1 所示。关于未见过的噪声类型，MaskDenoising在空间高斯噪声方面优于HAT和DIL；反之，HAT和DIL在处理泊松噪声和散斑噪声方面表现出显著的优势，优于MaskDenoising。相反，我们的方法在所有类型的 OOD 噪声中都表现出稳定且具有竞争力的性能，这表明冻结的 CLIP ResNet 编码器优异的抗失真特性具有巨大的优势。

请注意，尽管我们的方法在处理散斑噪声时表现略低于 HAT 和 DIL（参见表 9 的中间部分），但它只使用一个噪声级别即可完成，这与这些方法在训练期间需要多个噪声级别不同。图 5 和图 14 ， 15 （在补充材料中）展示了各种方法的定性比较。这些可视化结果表明，我们的方法可以有效地去除 OOD 噪声，同时保留图像内容和细节。

图6 ：真实世界 sRGB 噪声的定性结果。 PSNR/SSIM 值列在各个图像下方。

4.3 真实世界 sRGB 噪声去除

对比方法。我们再次考虑 MaskDenoising、DIL 和 HAT 进行比较。我们使用各自的源代码和我们的方法中使用的相同合成 sRGB 数据集来训练 MaskDenoising 和 DIL。 DIL 要求训练集根据拜耳模式分为四组。至于HAT，它是基于干净的DIV2K数据集实现的， i . i . d . 高斯噪声在 σ ∈ [ 0 , 50 ] 范围内，以确保其标准功能。此外，我们还考虑了两种无监督去噪方法，即 CVF-SID [44] 和 LUD-VAE [68] ，它们需要真实世界的噪声图像进行训练。

表2 ：基于真实世界sRGB数据集（即SIDD Val、PolyU和CC）的不同方法的定量比较（PSNR/SSIM）。

Methods	SIDD Val	PolyU	CC