专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
实验万事屋  ·  博士生就发了25.5分的免疫学SCI顶刊!这 ... ·  8 小时前  
NaturePortfolio  ·  是时候停止“push”了!批评越狠,要求越高 ... ·  3 天前  
募格学术  ·  新校区定了!理工大学,去省会 ·  2 天前  
募格学术  ·  接入!多所高校上线满血版DeepSeek!可 ... ·  3 天前  
51好读  ›  专栏  ›  小白学视觉

【荐读IEEE TPAMI】无监督去雨:非对称对比学习与自相似性相遇

小白学视觉  · 公众号  ·  · 2024-05-13 10:05

正文

点击上方“ 计算机书童 ”,选择加" 星标 "或“ 置顶
顶会论文解读,第一时间分

题目: Unsupervised Deraining: Where Asymmetric Contrastive Learning Meets Self-Similarity

无监督去雨:非对称对比学习与自相似性相遇

作者:Yi Chang, Yun Guo, Yuntong Ye, Changfeng Yu, Lin Zhu, Xile Zhao, Luxin Yan, Yonghong Tian
源码链接: https://owuchangyuo.github.io

摘要

大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外,现有方法主要独立利用图像或雨层的属性,很少有方法考虑它们之间的相互排斥关系。为了解决这一困境,我们探索了每层内部的内在自相似性以及两层之间的相互排斥性,并提出了一种无监督的非局部对比学习(NLCL)去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起,而雨块作为负样本则被显著地推开,反之亦然。一方面,每层正/负样本内部的内在自相似性知识有助于我们发现更紧凑的表示;另一方面,两层之间的相互排斥属性丰富了区分性分解。因此,每层内部的自我相似性(相似性)和两层之间的外部排他关系(差异性)作为通用图像先验,共同促进我们无监督地区分雨和清洁图像。我们进一步发现,非局部图像块的内在维度通常高于雨块的维度。这一洞见激励我们设计了一种非对称对比损失,精确地模拟了两层的紧凑性差异,从而提高了区分性分解。此外,认识到现有真实雨数据集的质量有限,这些数据集通常是小规模的或从互联网上获得的,我们收集了一个大规模的真实数据集,该数据集包含了在各种下雨天气下捕获的高分辨率雨图。在不同真实雨数据集上进行的广泛实验表明,所提出的方法在真实去雨方面取得了最先进的性能。

关键词

对比学习,图像去雨,非局部,无监督学习。

Ⅰ. 引言

高级计算机视觉任务,如图像分割[7]和目标检测[52],在近年来取得了显著进展。不幸的是,它们在下雨天气下的性能会受到影响,导致性能下降[2]、[34]、[43]。为了减轻雨的影响,提出了许多全监督去雨方法[20]、[88]、[98]。尽管它们在模拟雨上取得了良好的结果,但由于简化的合成雨和复杂的真实雨之间的领域差距,它们通常难以很好地泛化到真实雨中[93]。
为了处理复杂的真实世界雨天图像,最初提出了基于优化的方法,这些方法结合了手工制作的先验知识,如稀疏编码[54]、低秩[5]和高斯混合模型[47]。然而,这些手工制作的先验知识在表示能力上是有限的,特别是对于高度复杂和多样化的雨天场景。为了纠正这个弱点,基于学习的CNN方法[20]、[42]、[88]取得了很大进展。研究人员从监督学习方法开始,通过使用复杂的模型(如加性模型[37]、屏幕混合模型[54]、大雨模型[88]、综合雨模型[30]、渲染模型[27]和学习到的雨模型[57]、[72]、[93]等)尽可能真实地模拟雨。
然而,真实雨受到各种因素影响,这些因素无法全面考虑。雨的外观与相机曝光时间(长度)、降雨量(密度)、雨滴大小(宽度)、风向(角度)和距离(雾/遮挡)等因素密切相关。在图1中,我们展示了从我们收集的真实雨图像中捕获的雨的代表性示例。真实雨不仅包括相对容易模拟的雨条纹,还表现出复杂的遮挡和雾化伪影。遮挡和雾化与场景深度强烈相关,这使得它们难以准确模拟。

因此,合成模型和真实退化之间存在固有的领域差距,这限制了监督方法对真实雨场景的泛化能力。为了说明这个问题,我们在图2中提供了由代表性的监督方法JORDER-E[87]在真实雨图像上获得的去雨结果。尽管JORDER-E在合成雨上取得了非常令人印象深刻的结果,但在处理复杂和多样化的真实雨时效果不佳。在图2(b)中,可以清楚地观察到过度平滑现象,主要是由于领域差距。

随后,提出了半监督去雨方法,以增强对真实雨去除的鲁棒性[32]、[53]、[78]、[80]、[92]、[93]。这些方法利用模拟标签进行初始化,并利用未标记的真实雨进行泛化。然而,它们的表现仍然依赖于减轻模拟和真实雨图像之间的分布差距。当分布显著不同时,SSIP[78]的半监督去雨结果可能不太令人满意,如图2(c)所示。无监督方法已经引起了对真实雨去除的关注,主要是基于CycleGAN的无配对图像翻译方法[14]、[35]、[80]、[101]和基于优化模型的深度先验网络[96]。图3总结了单图像去雨方法的发展。以前的方法主要关注图像或雨层的属性,而没有充分考虑它们之间的相互排斥关系。

为了克服这些问题,我们将图像去雨问题表述为一种新颖的非局部对比分解框架。目标是将雨图像分解为两个可区分的层:图4中的清洁图像层和雨层。一方面,我们不仅利用图像和雨层内部的非局部自相似性属性,这有助于我们为每层学习紧凑的表示;另一方面,我们模拟了两层之间的相互排斥关系,丰富了区分性表示。通过利用每层内部的自我相似性以及两层之间的外部排他关系,我们可以有效地区分雨水和干净图像,而无需监督。值得注意的是,我们将图像和雨层同等对待,作为正样本和负样本,并提出了双向对称对比学习方法以实现更好的分解。

据我们所知,我们是第一个将非局部自相似性纳入对比学习以进行正/负样本采样的。提出的非局部采样的优势在于两点。首先,非局部自相似性采样策略将自然确保正样本和负样本的更紧凑的聚类,从而实现有效的区分。其次,这些正的非局部补丁是从真实图像中获取的,具有多样化和可变的信息,而不是人为生成的样本,因此为对比学习提供了更可靠的信息。此外,使用补丁而不是图像级样本显著增加了样本数量,从而改善了特征表示。值得一提的是,非局部采样策略不仅有利于正样本,也有利于负样本。此外,我们提供了设计适合对比学习的高效编码器的指导。
这项工作是我们在CVPR 2022[94]早期出版物的扩展,有三个主要改进。首先,我们进一步分析了图像和雨非局部聚类的内在维度差异。与之前版本中我们将图像和雨样本平等对待的分解不同,我们现在设计了一种非对称对比损失,以精确捕捉两层的紧凑性差异,从而实现改进的区分性分解。其次,我们通过实地收集创建了一个大规模的高质量真实雨图像数据集,该数据集具有多样化的雨外观。这很重要,因为现有的真实雨数据集通常质量较差或场景覆盖有限,因为它们来自互联网。第三,我们进行了更多的定性和定量实验,包括评估非局部采样的好处和对下游检测任务的推广。我们证明了ANLCL是一个通用先验,可以应用于其他恶劣天气任务,并且可以集成到现有方法中,取得足够的改进。总的来说,我们的贡献可以总结如下:
  • 我们提出了一种非监督非局部对比学习(NLCL)去噪方法,该方法在对比分解框架内形成单图像去雨。该方法同时探索了每一层内部的内在相似性和两层之间的相互排斥性。值得注意的是,NLCL首次明确地考虑了学习网络中雨水和图像之间的排他性关系。
  • 我们在对比学习和非局部自相似性之间建立了联系。与传统的实例/图像级采样不同,我们证明了非局部补丁级采样策略自然地赋予正/负样本更紧凑和不歧视的表示,以实现更好的分解。
  • 此外,我们还为设计有效的编码器以更好地嵌入提供了指导。Wediscover在图像和降雨空间内的一个不对称性质:非局部图像斑块的内在维数通常高于降雨斑块的内在维度。为了利用这种不对称性,我们通过设计一个不对称的对比损失来捕捉这种差异,将对称NLCL扩展到不对称版本。
  • 我们展示了这种不对称性质如何允许捕捉维度差异,并改进判别表示以更好地分解。我们贡献了一个大规模的高质量真实降雨图像数据集,该数据集收集了具有丰富交通元素注释的各种降雨天气城市道路。该数据集将作为一个有价值的试验台,特别是对于无监督的去噪方法。我们在合成和真实世界的降雨数据集上进行了广泛的实验,并表明ANLCLout在真实图像去噪方面的性能避免了现有方法的不足。

III. 现场采集真实雨数据集

数据集在深度学习时代扮演着重要的角色。我们在表I中总结了现有的典型合成雨和真实雨数据集。大多数现有的数据集都是基于合成的。Nayar和Garg[23]、[24]提出了第一个工作,对真实雨的外观进行了几何和光度分析。基于光度模型,Fu等人[21]使用Photoshop模仿了雨成像过程。随后,Yang等人[88]和Hu等人[30]将焦外遮挡、远距离雾化效应和近距离雨遮挡纳入了一个综合雨模型。最近,Tremblay等人[66]通过结合物理粒子模拟器和雨光度建模,提出了一种可控的物理基础渲染(PRB)方法,进行了更现实的雨模拟,其中考虑了深度和照明,以获得更真实的降雨。这些合成模型在一定程度上促进了该领域的发展。尽管这些复杂的合成模型可以模拟雨的某些效果,但它们仍然面临着合成雨和真实雨之间域移位的挑战。真实雨数据集在近年来开始出现,我们描述了所提出的雨数据集,并从以下三个方面与现有数据集进行了比较。

采集与分辨率

现有的真实雨数据集大多数是从互联网上收集的,包括来自电视/电影、卡通/艺术和监控视频的雨图像。这些图像的分辨率差异很大,从6000*3500到250*180不等。值得注意的是,大多数从互联网收集的雨图像尺寸相对较小。我们在表I中报告了每个数据集的平均分辨率。

请注意,SPA-Data没有报告原始视频的大小,我们列出了裁剪大小512*512。可以观察到,真实数据集的分辨率通常小于720p。在这项工作中,我们使用Sony ILCE-6400相机在下雨天气下收集了真实雨图像。我们经验性地将快门速度设置在[1/160, 1/60]之间,光圈为f/5.6,焦距为50毫米。空间分辨率一致为4240*2400,略大于标准4K(3840*2160),这为背景和雨提供了更详细的信息。

格式与数量

真实雨数据集的收集是困难的,因为它严重依赖于高度随机的降水。此外,雨可能对电子设备有害,使数据收集不便,甚至可能造成损坏。这些因素导致以前数据集中雨图像的数量相对较少。值得注意的是,在这项工作中,我们一致报告了每个数据集的来源数量,以便进行公平比较。我们没有报告如空间块裁剪或时间帧提取等增强数量的方法。在表I中,合成雨数据集的图像/视频数量明显大于真实雨数据集,因为生成合成数据的成本较低。构建真实雨数据集有两种常见格式:图像和视频。视频剪辑的数量通常很小,例如RIS中的154个,SPA-Data中的170个,PairedRain中的101个,以及SSID中的180个。然而,视频剪辑可以进一步提取为图像帧,尽管帧之间存在时间冗余。在这项工作中,我们收集了一个相对较大的数据集,包含4000张高分辨率的真实雨图像,涵盖了多样的场景和不同的雨模式。

亮点与局限性

合成雨数据集的优势在于可以可控地生成多样化的雨模式,并提供大量的样本。此外,合成数据集可以轻松提供成对的清洁和降级图像。这些大规模的成对合成数据集非常适合监督学习。然而,真实雨要复杂得多,导致域移位,使得在合成数据上训练的模型对真实雨的鲁棒性较差。因此,已经提出了真实雨数据集以推进真实雨去除领域的发展。SPA-Data[73]和PairedRain[1]旨在从视频中构建真实雨和清洁成对图像,为单图像真实雨去除提供了新的途径。
现有的真实数据集大多从互联网下载,存在几个限制。首先,这些下载的真实雨数据集在流式传输过程中意外地被压缩[1]、[31]、[44]。压缩的视频一方面会导致块状伪影,另一方面会削弱雨的特征。第二个问题是互联网视频中的意外水印。这些众多的水印[1]、[73]可能会导致训练过程中的学习偏差。更糟糕的是,一些真实数据集没有被很好地清洗,可能包含假图像,如卡通或肖像。第三个问题是数量和场景有限,通常少于1000个,这可能无法充分利用深度学习网络的强大表示能力。最后但同样重要的是,大多数真实数据集主要是为低级图像去雨设计的,而不是像检测这样的下游任务,除了RIS[44]。这些数据集没有面对特定应用,如典型的驾驶或监控,这限制了它们的进一步应用。
在这项工作中,我们提出了现场采集真实雨(FCRealRain)数据集,它由具有多样化雨外观的高质量图像组成。重要的是,FCRealRain专注于驾驶场景,结合了街道上的丰富对象。我们为六种典型类别提供了边界框注释:人、汽车、公共汽车、摩托车、交通灯和交通标志。因此,下游的检测可以进一步用于验证图像去雨算法的有效性。值得注意的是,大多数现有的真实数据集只包含真实雨图像而没有相应的清洁真实图像,包括FCRealRain。

IV. 非对称非局部对比分解用于图像去雨

A. 对比图像分解框架

给定一张雨图像 ,我们的目标是将雨图像分解为一个干净的背景层 和一个雨层 。退化过程可以被公式化为:
因此,图像去雨任务可以被公式化为一个不适定的逆问题,具有以下优化函数:
其中第一项是自洽数据保真度, 分别表示干净图像和雨层的先验知识。由于雨条纹在空间上的稀疏性,我们通过 约束对雨层进行正则化: ,有利于具有大不连续性的雨条纹。另一方面,对于干净图像,我们采用对抗性损失 [25] 来学习与雨图像不同的分布映射:
其中 是鉴别器, 是干净图像的生成器。所提出的基于分解的架构如图 4(a) 所示,由两个分支组成,分别恢复背景 和提取雨 。为了优化解耦的组件,我们在分解框架中引入了一个无监督损失。这使我们能够结合模型驱动优化方法的泛化能力和数据驱动学习网络的表示能力。
大多数现有的恢复方法都遵循(2)中的分解框架,使用不同的手工制作 [47] 或学习到的先验 [96],其中他们只单独考虑干净图像或雨层。也就是说,(2)主要关注信号本身的统计属性建模。然而,它忽略了干净图像 、雨层 和观测图像 之间的关系。在这项工作中,我们认为这些组件之间的对比关系可以进一步帮助它们相互区分。因此,我们引入了对比学习来模拟不同组件之间的关系,以实现更好的分解。整体目标函数包括分解约束和对比损失,被公式化为:
非对称非局部对比学习的动机:对比学习在低级图像去雾[81]和去雨[12]中已经初步研究。现有方法简单地将干净图像视为正样本,将降级的雨/雾图像视为负样本。退化与干净背景紧密纠缠在负样本中,这使得学习特征表示的区分性降低。最重要的是,图像背景总是比雨图案复杂得多。因此,对于复杂图像区域,轻微的雨不可避免地会被图像背景纹理信号淹没。在这种情况下,对于对比学习编码器来说,区分干净图像和雨图像极其困难,导致处理样本时出现错误,即过度平滑或残留结果,如图 4(c) 所示。自然而然,区分雨和图像图案(外观差异很大)比区分雨图像和干净图像(内容相似且纠缠)要容易得多。
其次,现有去雨/去雾方法中的对比学习样本总是图像级别的[12]、[14]、[81]。请注意,雨在整个图像中分布稀疏。雨的信息量远少于图像内容。如果我们将整个图像作为对比学习样本,编码器很可能会重点关注图像内容。特别是在轻雨/薄雾条件下,退化难以观察,这将导致学习雨图案的丰富表示非常困难,使得雨和图像的区分性降低。在这项工作中,我们认为采用局部块作为样本也是必要的。采样对象、采样尺度和采样策略是对比学习的关键,这将极大地决定图像去雨结果。
在图 4(d) 中,我们展示了我们非局部对比学习的概念图。与以前的方法相比,所提出的方法将估计的干净图像和雨作为正/负样本,反之亦然。解耦的图像和雨将显著降低学习难度,因为雨层和图像层具有明显不同的特征。而且,块级采样可以大大增加样本数量,有利于更好的特征学习。此外,我们利用每层内部的固有非局部自相似性,例如相似块采样策略将进一步提高对比样本的紧凑性。总体而言,解耦的样本选择和非局部采样策略将自然扩大类间样本的差异,同时增强类内样本的紧凑性,以更好地分解雨和图像。
在图 4(e) 中,我们进一步将 NLCL 扩展到其非对称版本。NLCL 在非局部对比分解中同等对待雨和图像层。然而,这并不完全正确,因为图像块包含多样化的模式,如复杂的纹理和锐利的边缘,而雨块要简单得多,具有线状条纹或遮挡。图像块空间可能位于更高维的流形上,而雨块空间可能位于低维流形上(第 IV-C 节)。这一直观的观察启发我们将雨和图像块之间的紧凑性差异线索纳入对比分解,以便更好地区分雨和图像。
所提出方法的总体架构如图 5(a) 所示。接下来,我们将首先描述我们如何构建每个组件 B、R 和 O 之间的对比关系(第 IV-B)。最后,我们将介绍正/负采样策略(第 IV-D)并详细设计编码器(第 IV-E)。

B. 联合层和位置对比

在本部分,我们介绍了如何通过联合层对比和位置对比来优化图像去雨过程。

层次对比度

首先,干净图像 和雨层 具有显著的不同特征,其中雨层通常表现为简单且具有方向性的线状图案,而自然图像则包含复杂但有意义的结构,如边缘和纹理。这两者之间的差异性可以通过对比学习(Contrastive Learning, CL)作为负样本对进行建模。同时,考虑到同一图像内的块具有相似性,我们可以将它们作为正样本。具体的采样策略和编码器将在后续小节中讨论。在图 5(b) 中,我们考虑图像和雨层作为两个等同对称的组成部分。因此,我们提出了双向对称层对比学习,其目标是将图像层和雨层作为正负样本进行区分,公式化表示如下:
其中 , , 表示尺度温度参数。第一项是图像正样本和雨负样本层对比,第二项是雨正样本和图像负样本层对比。通过将图像和雨层视为两个等同的组成部分,双向对称层对比学习有助于将一个层推向另一方,同时使每个层更加紧密地聚集。 是对比网络的编码器。特征 分别从图像块 和雨块 的非局部补丁 中提取。 分别表示正样本和负样本的数量。

位置对比

其次,我们可以观察到干净图像 和观测图像 在视觉上非常接近,因为雨条纹 简单得多。 中相同位置的块,作为同一视图,可以很好地作为正样本进行建模。因此,我们将不同位置的块设置为负样本。在图 5(c) 中,对于位置对比,由于位置对应是一一对应的,因此应该只有一个正样本。图像生成器 的编码器用于提取块特征,表示为 。因此,位置对比损失被公式化为:
其中 是负样本的数量。位置对比学习约束了恢复的背景块 在位置 上与对应的输入块 相关联(正样本),与其它随机块 相比较,以保留图像内容。总体而言,层对比学习旨在从图像层中去除雨,而位置对比学习旨在在去除雨的过程中保留图像内容。这两种对比损失相互竞争,以获得平衡。

C. 非对称层对比

尽管联合层和位置对比通过内在特征差异分解了图像和雨层,但每层的紧凑性差异并未被完全考虑。在这项工作中,我们提出将对称对比分解扩展到非对称对比分解。具体来说,我们发现图像空间的维度通常高于雨空间,这意味着大多数图像块包含更多样化和复杂的结构和模式。换句话说,雨块的紧凑性应该比图像块的紧凑性更紧密。为了利用这一细粒度的差异属性,我们提出了非对称对比分解,通过考虑图像和雨块之间的紧凑性差异,进一步改善了区分性表示。

我们选择典型的16*16块从干净图像层和雨层中,如图6(a)所示,主要包括六类:图像的平滑、纹理、边缘区域,以及雨的条纹和遮挡区域。我们首先计算每个类别块的熵,并在图6(b)中进行比较。熵是通过定义 来评估随机性(复杂度)的,其中 是归一化直方图计数的概率。我们可以发现,图像的边缘和纹理块的熵通常高于雨的条纹和遮挡块。然而,对于图像的平滑块,现象相反,其熵甚至低于雨块。
我们还对每个类别的补丁集进行了奇异值分解(SVD)和 T-SNE 可视化,其中低秩曲线可以很好地反映每个类别补丁的相似性。在图 6(c) 中,我们展示了每个类别的 SVD 曲线略有不同。此外,每个类别的低秩性与熵成正比。也就是说,补丁越复杂(熵越高),补丁之间的相似性越低。在图 6(d) 中,我们执行 T-SNE 来可视化这些不同补丁的二维分布。
这激发了我们利用图像和雨之间的细粒度差异属性,通过非对称对比分解来更好地区分它们。为了实现这一点,我们引入了边际损失来正则化图像和雨块之间的距离:
其中 表示标准铰链损失, 是预定义的边际,通常设置为 1。 用于指示采样图像块的熵是否大于采样雨块的熵。我们可以简单地预先计算非局部采样图像和雨块的熵,以确定 的选择。边际损失的物理意义是使雨块之间的距离保持在图像块之间距离的较大边际之上。
为了与对称对比损失兼容,我们将边际损失(7)转换为非对称对比损失:
其中(8)中的参数和函数与(5)中的含义相同。注意,对称对比损失(5)的目标是平等地最小化雨/像空间内的距离,同时增大雨和像空间之间的距离,而非对称对比损失(8)的目标是根据不同内容调节每个空间内的距离。非对称对比损失将进一步捕获细粒度的紧凑性差异,改进两层之间的区分性表示。

D. 非局部采样策略

在对比学习中,负样本是通过学习到的表征进行区分的样本,而正样本则是高度相关并在学习到的表征中具有不变性的样本。以往的方法通常使用增强来构建单个实例的正样本,并随机采样作为负样本 [8]。值得注意的是,自相似性是一种通用且强大的先验知识。在本工作中,我们引入非局部自相似性来自动选择单个图像内的正负样本。我们采用块匹配 [4] 与 L2 欧几里得距离来度量图像空间中的不相似性/相似性:
其中






请到「今天看啥」查看全文