专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
51好读  ›  专栏  ›  小白学视觉

IEEE TPAMI | 无监督去雨:非对称对比学习与自相似性相遇

小白学视觉  · 公众号  ·  · 2025-01-05 10:30

正文

点击下方 计算机书童 ”卡片,每天获取顶刊论文解读

点击加入论 文投稿、写作、阅读分享交流群
完整版论文 中文解读PDF请加入知识星球获取

题目: Unsupervised Deraining: Where Asymmetric Contrastive Learning Meets Self-Similarity

无监督去雨:非对称对比学习与自相似性相遇

作者:Yi Chang, Yun Guo, Yuntong Ye, Changfeng Yu, Lin Zhu, Xile Zhao, Luxin Yan, Yonghong Tian
源码链接: https://owuchangyuo.github.io

摘要

大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外,现有方法主要独立利用图像或雨层的属性,很少有方法考虑它们之间的相互排斥关系。为了解决这一困境,我们探索了每层内部的内在自相似性以及两层之间的相互排斥性,并提出了一种无监督的非局部对比学习(NLCL)去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起,而雨块作为负样本则被显著地推开,反之亦然。一方面,每层正/负样本内部的内在自相似性知识有助于我们发现更紧凑的表示;另一方面,两层之间的相互排斥属性丰富了区分性分解。因此,每层内部的自我相似性(相似性)和两层之间的外部排他关系(差异性)作为通用图像先验,共同促进我们无监督地区分雨和清洁图像。我们进一步发现,非局部图像块的内在维度通常高于雨块的维度。这一洞见激励我们设计了一种非对称对比损失,精确地模拟了两层的紧凑性差异,从而提高了区分性分解。此外,认识到现有真实雨数据集的质量有限,这些数据集通常是小规模的或从互联网上获得的,我们收集了一个大规模的真实数据集,该数据集包含了在各种下雨天气下捕获的高分辨率雨图。在不同真实雨数据集上进行的广泛实验表明,所提出的方法在真实去雨方面取得了最先进的性能。

关键词

对比学习,图像去雨,非局部,无监督学习。

III. 现场采集真实雨数据集

数据集在深度学习时代扮演着重要的角色。我们在表I中总结了现有的典型合成雨和真实雨数据集。大多数现有的数据集都是基于合成的。Nayar和Garg[23]、[24]提出了第一个工作,对真实雨的外观进行了几何和光度分析。基于光度模型,Fu等人[21]使用Photoshop模仿了雨成像过程。随后,Yang等人[88]和Hu等人[30]将焦外遮挡、远距离雾化效应和近距离雨遮挡纳入了一个综合雨模型。最近,Tremblay等人[66]通过结合物理粒子模拟器和雨光度建模,提出了一种可控的物理基础渲染(PRB)方法,进行了更现实的雨模拟,其中考虑了深度和照明,以获得更真实的降雨。这些合成模型在一定程度上促进了该领域的发展。尽管这些复杂的合成模型可以模拟雨的某些效果,但它们仍然面临着合成雨和真实雨之间域移位的挑战。真实雨数据集在近年来开始出现,我们描述了所提出的雨数据集,并从以下三个方面与现有数据集进行了比较。

采集与分辨率

现有的真实雨数据集大多数是从互联网上收集的,包括来自电视/电影、卡通/艺术和监控视频的雨图像。这些图像的分辨率差异很大,从6000*3500到250*180不等。值得注意的是,大多数从互联网收集的雨图像尺寸相对较小。我们在表I中报告了每个数据集的平均分辨率。
请注意,SPA-Data没有报告原始视频的大小,我们列出了裁剪大小512*512。可以观察到,真实数据集的分辨率通常小于720p。在这项工作中,我们使用Sony ILCE-6400相机在下雨天气下收集了真实雨图像。我们经验性地将快门速度设置在[1/160, 1/60]之间,光圈为f/5.6,焦距为50毫米。空间分辨率一致为4240*2400,略大于标准4K(3840*2160),这为背景和雨提供了更详细的信息。

格式与数量

真实雨数据集的收集是困难的,因为它严重依赖于高度随机的降水。此外,雨可能对电子设备有害,使数据收集不便,甚至可能造成损坏。这些因素导致以前数据集中雨图像的数量相对较少。值得注意的是,在这项工作中,我们一致报告了每个数据集的来源数量,以便进行公平比较。我们没有报告如空间块裁剪或时间帧提取等增强数量的方法。在表I中,合成雨数据集的图像/视频数量明显大于真实雨数据集,因为生成合成数据的成本较低。构建真实雨数据集有两种常见格式:图像和视频。视频剪辑的数量通常很小,例如RIS中的154个,SPA-Data中的170个,PairedRain中的101个,以及SSID中的180个。然而,视频剪辑可以进一步提取为图像帧,尽管帧之间存在时间冗余。在这项工作中,我们收集了一个相对较大的数据集,包含4000张高分辨率的真实雨图像,涵盖了多样的场景和不同的雨模式。

亮点与局限性

合成雨数据集的优势在于可以可控地生成多样化的雨模式,并提供大量的样本。此外,合成数据集可以轻松提供成对的清洁和降级图像。这些大规模的成对合成数据集非常适合监督学习。然而,真实雨要复杂得多,导致域移位,使得在合成数据上训练的模型对真实雨的鲁棒性较差。因此,已经提出了真实雨数据集以推进真实雨去除领域的发展。SPA-Data[73]和PairedRain[1]旨在从视频中构建真实雨和清洁成对图像,为单图像真实雨去除提供了新的途径。
现有的真实数据集大多从互联网下载,存在几个限制。首先,这些下载的真实雨数据集在流式传输过程中意外地被压缩[1]、[31]、[44]。压缩的视频一方面会导致块状伪影,另一方面会削弱雨的特征。第二个问题是互联网视频中的意外水印。这些众多的水印[1]、[73]可能会导致训练过程中的学习偏差。更糟糕的是,一些真实数据集没有被很好地清洗,可能包含假图像,如卡通或肖像。第三个问题是数量和场景有限,通常少于1000个,这可能无法充分利用深度学习网络的强大表示能力。最后但同样重要的是,大多数真实数据集主要是为低级图像去雨设计的,而不是像检测这样的下游任务,除了RIS[44]。这些数据集没有面对特定应用,如典型的驾驶或监控,这限制了它们的进一步应用。
在这项工作中,我们提出了现场采集真实雨(FCRealRain)数据集,它由具有多样化雨外观的高质量图像组成。重要的是,FCRealRain专注于驾驶场景,结合了街道上的丰富对象。我们为六种典型类别提供了边界框注释:人、汽车、公共汽车、摩托车、交通灯和交通标志。因此,下游的检测可以进一步用于验证图像去雨算法的有效性。值得注意的是,大多数现有的真实数据集只包含真实雨图像而没有相应的清洁真实图像,包括FCRealRain。

IV. 非对称非局部对比分解用于图像去雨

A. 对比图像分解框架

给定一张雨图像 ,我们的目标是将雨图像分解为一个干净的背景层 和一个雨层 。退化过程可以被公式化为:
因此,图像去雨任务可以被公式化为一个不适定的逆问题,具有以下优化函数:
其中第一项是自洽数据保真度, 分别表示干净图像和雨层的先验知识。由于雨条纹在空间上的稀疏性,我们通过 约束对雨层进行正则化: ,有利于具有大不连续性的雨条纹。另一方面,对于干净图像,我们采用对抗性损失 [25] 来学习与雨图像不同的分布映射:
其中 是鉴别器, 是干净图像的生成器。所提出的基于分解的架构如图 4(a) 所示,由两个分支组成,分别恢复背景 和提取雨 。为了优化解耦的组件,我们在分解框架中引入了一个无监督损失。这使我们能够结合模型驱动优化方法的泛化能力和数据驱动学习网络的表示能力。
大多数现有的恢复方法都遵循(2)中的分解框架,使用不同的手工制作 [47] 或学习到的先验 [96],其中他们只单独考虑干净图像或雨层。也就是说,(2)主要关注信号本身的统计属性建模。然而,它忽略了干净图像 、雨层 和观测图像 之间的关系。在这项工作中,我们认为这些组件之间的对比关系可以进一步帮助它们相互区分。因此,我们引入了对比学习来模拟不同组件之间的关系,以实现更好的分解。整体目标函数包括分解约束和对比损失,被公式化为:
非对称非局部对比学习的动机:对比学习在低级图像去雾[81]和去雨[12]中已经初步研究。现有方法简单地将干净图像视为正样本,将降级的雨/雾图像视为负样本。退化与干净背景紧密纠缠在负样本中,这使得学习特征表示的区分性降低。最重要的是,图像背景总是比雨图案复杂得多。因此,对于复杂图像区域,轻微的雨不可避免地会被图像背景纹理信号淹没。在这种情况下,对于对比学习编码器来说,区分干净图像和雨图像极其困难,导致处理样本时出现错误,即过度平滑或残留结果,如图 4(c) 所示。自然而然,区分雨和图像图案(外观差异很大)比区分雨图像和干净图像(内容相似且纠缠)要容易得多。
其次,现有去雨/去雾方法中的对比学习样本总是图像级别的[12]、[14]、[81]。请注意,雨在整个图像中分布稀疏。雨的信息量远少于图像内容。如果我们将整个图像作为对比学习样本,编码器很可能会重点关注图像内容。特别是在轻雨/薄雾条件下,退化难以观察,这将导致学习雨图案的丰富表示非常困难,使得雨和图像的区分性降低。在这项工作中,我们认为采用局部块作为样本也是必要的。采样对象、采样尺度和采样策略是对比学习的关键,这将极大地决定图像去雨结果。
在图 4(d) 中,我们展示了我们非局部对比学习的概念图。与以前的方法相比,所提出的方法将估计的干净图像和雨作为正/负样本,反之亦然。解耦的图像和雨将显著降低学习难度,因为雨层和图像层具有明显不同的特征。而且,块级采样可以大大增加样本数量,有利于更好的特征学习。此外,我们利用每层内部的固有非局部自相似性,例如相似块采样策略将进一步提高对比样本的紧凑性。总体而言,解耦的样本选择和非局部采样策略将自然扩大类间样本的差异,同时增强类内样本的紧凑性,以更好地分解雨和图像。
在图 4(e) 中,我们进一步将 NLCL 扩展到其非对称版本。NLCL 在非局部对比分解中同等对待雨和图像层。然而,这并不完全正确,因为图像块包含多样化的模式,如复杂的纹理和锐利的边缘,而雨块要简单得多,具有线状条纹或遮挡。图像块空间可能位于更高维的流形上,而雨块空间可能位于低维流形上(第 IV-C 节)。这一直观的观察启发我们将雨和图像块之间的紧凑性差异线索纳入对比分解,以便更好地区分雨和图像。
所提出方法的总体架构如图 5(a) 所示。接下来,我们将首先描述我们如何构建每个组件 B、R 和 O 之间的对比关系(第 IV-B)。最后,我们将介绍正/负采样策略(第 IV-D)并详细设计编码器(第 IV-E)。

B. 联合层和位置对比

在本部分,我们介绍了如何通过联合层对比和位置对比来优化图像去雨过程。

层次对比度

首先,干净图像 和雨层 具有显著的不同特征,其中雨层通常表现为简单且具有方向性的线状图案,而自然图像则包含复杂但有意义的结构,如边缘和纹理。这两者之间的差异性可以通过对比学习(Contrastive Learning, CL)作为负样本对进行建模。同时,考虑到同一图像内的块具有相似性,我们可以将它们作为正样本。具体的采样策略和编码器将在后续小节中讨论。在图 5(b) 中,我们考虑图像和雨层作为两个等同对称的组成部分。因此,我们提出了双向对称层对比学习,其目标是将图像层和雨层作为正负样本进行区分,公式化表示如下:
其中 , , 表示尺度温度参数。第一项是图像正样本和雨负样本层对比,第二项是雨正样本和图像负样本层对比。通过将图像和雨层视为两个等同的组成部分,双向对称层对比学习有助于将一个层推向另一方,同时使每个层更加紧密地聚集。 是对比网络的编码器。特征 分别从图像块 和雨块 的非局部补丁 中提取。 分别表示正样本和负样本的数量。

位置对比

其次,我们可以观察到干净图像 和观测图像 在视觉上非常接近,因为雨条纹 简单得多。 中相同位置的块,作为同一视图,可以很好地作为正样本进行建模。因此,我们将不同位置的块设置为负样本。在图 5(c) 中,对于位置对比,由于位置对应是一一对应的,因此应该只有一个正样本。图像生成器 的编码器用于提取块特征,表示为 。因此,位置对比损失被公式化为:
其中 是负样本的数量。位置对比学习约束了恢复的背景块 在位置 上与对应的输入块 相关联(正样本),与其它随机块 相比较,以保留图像内容。总体而言,层对比学习旨在从图像层中去除雨,而位置对比学习旨在在去除雨的过程中保留图像内容。这两种对比损失相互竞争,以获得平衡。

C. 非对称层对比

尽管联合层和位置对比通过内在特征差异分解了图像和雨层,但每层的紧凑性差异并未被完全考虑。在这项工作中,我们提出将对称对比分解扩展到非对称对比分解。具体来说,我们发现图像空间的维度通常高于雨空间,这意味着大多数图像块包含更多样化和复杂的结构和模式。换句话说,雨块的紧凑性应该比图像块的紧凑性更紧密。为了利用这一细粒度的差异属性,我们提出了非对称对比分解,通过考虑图像和雨块之间的紧凑性差异,进一步改善了区分性表示。
我们选择典型的16*16块从干净图像层和雨层中,如图6(a)所示,主要包括六类:图像的平滑、纹理、边缘区域,以及雨的条纹和遮挡区域。我们首先计算每个类别块的熵,并在图6(b)中进行比较。熵是通过定义 来评估随机性(复杂度)的,其中






请到「今天看啥」查看全文