专栏名称: 小白学视觉
本公众号主要介绍机器视觉基础知识和新闻,以及在学习机器视觉时遇到的各种纠结和坑的心路历程。
目录
相关文章推荐
十点读书会  ·  第一批上四休三的人,开始“抗议”了 ·  20 小时前  
十点读书  ·  寒假低成本带孩子见世面的5种方式 ·  3 天前  
51好读  ›  专栏  ›  小白学视觉

TPAMI 2024 | 夜晚拍照看不见女朋友?无监督光照适应低光视觉帮你解决

小白学视觉  · 公众号  ·  · 2024-09-17 11:55

正文

点击上方 小白学视觉 ”,选择加" 星标 "或“ 置顶

重磅干货,第一时间送达


点击加入论 文投稿、写作、阅读分享交流群

题目:Unsupervised Illumination Adaptation for Low-Light Vision

无监督光照适应低光视觉

作者:Wenjing Wang; Rundong Luo; Wenhan Yang; Jiaying Liu


摘要

光照不足对人类和机器视觉分析都带来了挑战。现有的低光增强方法主要关注人类视觉感知,往往忽略了机器视觉和高层语义。在本文中,我们首次构建了一个面向高层视觉的光照增强模型。借鉴相机响应函数的灵感,我们的模型可以从机器视觉的角度增强图像,尽管其架构轻量、公式简单。我们还引入了两种方法,利用基础增强曲线的知识和自监督预任务来训练不同的从正常光到低光的适应场景。我们提出的框架克服了现有算法的局限性,无需在低光条件下获取标注数据。它能够更有效地恢复光照和对齐特征,显著提高下游任务的性能,并可以即插即用。该研究推进了低光机器分析领域,广泛适用于分类、面部检测、光流估计和视频动作识别等多种高层视觉任务。

关键词

  • 领域适应

  • 高层视觉

  • 光照增强

  • 低光

  • 自监督学习

I. 引言

光照不足是由恶劣环境、设备故障或不当拍摄设置导致的常见图像退化问题。它会损害图像的视觉质量,导致细节丢失、可见度下降和美感失真。此外,随着深度学习的进步,视觉分析在众多应用中变得越来越重要。低光条件也会对机器分析提出挑战,使高层视觉任务(如夜间监控视频分析和自动驾驶)变得更加困难。

自数字成像诞生以来,低光图像的恢复得到了广泛关注。许多工作有效地提高了低光图像的人类视觉质量,从早期手动设计的算法到最近的基于学习的模型。然而,大多数现有的低光增强方法旨在改善图像的视觉质量,却忽略了机器视觉的需求,从而误导了下游高层视觉模型。一些方法尝试嵌入语义感知进行视觉重建,但仍无法保证下游高层视觉任务的性能。

为了进一步提高机器视觉在黑暗中的表现,一个直观的想法是直接在标注的低光数据上训练模型。尽管在某些任务上表现良好,标注要求却严重限制了它们的应用范围。因此,无监督的正常光到低光领域适应成为一个有前景的研究方向,这种方法消除了标注的需求。在这个领域中,一些方法提出通过图像翻译合成目标领域标注,而另一些则采用自监督学习或手工操作符。然而,现有算法要么依赖多个源域,要么采用繁琐的多阶段和多级过程,或在更暗的情况下失效。此外,大多数适应方法集中于机器分析模型的高维特征,而忽略了输入图像本身的特性。

与上述方法相比,我们充分利用了光照调整的潜力。我们提出了一种基于曲线的增强模型和两种自监督训练策略,以从机器视觉的角度增强图像,从而提升模型在下游高层任务中的表现。首先,受韦伯-费希纳定律和相机统计数据的启发,我们通过“凹性”约束我们的增强函数,该函数通过预测非正二阶导数并应用离散积分来高效实现。此设计使得增强模型能够生成自然逼真的图像,并提高其对多个下游任务的适应性。随后,我们设计了两种自监督策略,将此模型训练为无监督适应。当任务相关信息可用时,我们提出汇集预定义的基础增强曲线的知识。该过程通过汇总这些曲线增强图像上的模型预测结果为伪标签来实现。尽管公式简单,但汇集基础曲线能够为后续的自我训练带来可靠的监督。



III. 架构:深凹曲线

A. 动机:从CRF到凹曲线

相机响应函数(CRF)定义了场景光照强度与相机捕获的像素值(强度)之间的关系。光照与辐照度线性相关,但与强度有着复杂的非线性关系。基于此,一些低光增强工作利用了辐照度的线性关系。他们首先将图像强度转换为辐照度,线性调整辐照度,然后将辐照度映射回强度。



B. 公式和实现

我们的光照增强函数应满足两个基本特征:递增单调性和凹性。因此,我们称我们的增强模型为“深凹曲线”。

给定输入的低光图像 ,我们使用神经网络 预测调整函数 可以表示为颜色空间中 个数值的向量 (例如,8位图像中 )。具体来说,对于输入图像中值为 的像素,其新值将是 的第 个元素。
其中 是上三角矩阵:
最后,我们将 归一化为 以适应映射到 的范围。

C. 网络架构

给定输入的低光图像 ,我们为每个颜色通道分别预测一个独立的 ,即RGB图像中的 。在实现方面,我们将 并排放置,并进行一维卷积积分,输出通道数为256,核大小为1。卷积权重设为 ,在三个通道间共享。
我们在图3中描绘了整体架构。在训练和推理期间,我们将输入图像下采样至 的分辨率,以增强感受野和效率。曲线预测器 包含浅U-Net、两层卷积、全局平均池化和一个全连接层。输出维度为8位RGB图像的765。在获得模型预测后,我们将其重塑为 ,然后通过1D卷积进行积分得到 。最后,我们将 归一化得到 并应用回

IV. 训练策略:自对齐适应

A. 曲线集成学习

首先,我们讨论任务信息(如任务头)可用的情况。利用任务信息可以直接优化我们的增强模型,避免被与光照无关的特征误导,这些特征对下游任务并不重要。
然而,关键问题在于标签的缺失,最直接的想法是依赖伪标签,即自我训练。自我训练是半监督学习和领域适应的常见方法。具体而言,它利用在源域上预训练的模型为未标注的目标域数据生成伪标签。之后,模型在带有伪标签的目标域数据集上重新训练。

B. 预任务学习

当任务信息可用时,我们可以利用伪标签减少光照无关因素的影响。然而,对于许多下游任务,任务头包含非可微模块,如非极大值抑制。在这种情况下,直接使用模型的预测进行后续的自我训练是不合适的。
训练流程包括两个步骤。我们首先固定特征提取器 并在正常光数据集 上训练拼图头 ,该数据集包含正常光图像及其真实旋转拼图排列
然后,我们固定 ,并在低光数据集 上训练我们的深凹曲线:

V. 方法设计分析

A. 模型架构的合理性

以下是对所提出的光照增强模型(即深凹曲线)的实证论证。分析基于分类数据集CODaN [8]、面部检测数据集DARK FACE [62]和WIDER FACE [62]。我们的目标是在低光条件下提升正常光预训练模型的性能。正常光预训练模型为用于分类的ResNet-18 [63]和用于检测的DSFD [64]。更多细节见第VI节。对于训练策略,如果没有明确说明,我们分别采用SACC-CE和SACC-PT。为了提高效率,我们在本节评估期间采用DSFD [64]的快速推理模式。
首先,我们将我们的方法与其他低光增强网络架构进行比较。我们探索了两个具有代表性的增强模型:EnlightenGAN [16],其通过U-net [55]直接执行图像到图像翻译;Zero-DCE [18],其通过迭代二次曲线逐像素进行调整。所有增强模型都使用与我们相同的策略进行训练,以便我们可以单独评估网络架构的效果。
如表II的主观结果所示,EnlightenGAN和Zero-DCE均不如我们提出的深凹曲线。
如图6所示,我们在由EnlightenGAN和Zero-DCE生成的增强图像上观察到了奇怪的伪影。在图6(a)中,两种方法都引起了不连续的颜色变化。在图6(b)中,边缘出现了异常纹理。相比之下,我们的深凹曲线在图像分类和面部检测中均表现出更好的视觉效果和下游性能。这些结果表明,我们的空间共享、单调递增和凹性约束可以有效地对模型进行正则化,避免模型在图像上刻画欺骗符号或暗示(即伪影)。
此外,我们测试了伽玛校正 作为替代的基于曲线的增强方法,并使用浅卷积网络预测 。如表II所示,其性能有限。我们将其归因于我们的曲线具有高度自由度,因为我们为每个输入像素值预测一个独立的目标值。而伽玛校正仅有全局调整参数
最后,我们探讨了对曲线预测网络施加约束的适当强度。如图7和表II所示,设置曲线为无约束将导致异常的增强结果。同时,仅有 的曲线看似不连续。我们的SACC在我们要求曲线满足 时达到了最佳效果。注意在图7中,红、蓝、绿三条曲线形状各异,表明我们的模型可以根据输入图像进行通道感知的增强,即纠正色偏。我们还尝试了 ,发现这会降低整体性能,并生成部分过曝的图像。这是因为三次迭代积分会使权重矩阵的值呈指数级增长,从而导致梯度消失并使训练过程复杂化。

B. 训练策略的合理性

接下来,我们讨论深凹曲线的合适训练策略。我们将提出的训练策略(SACC-CE和SACC-PT)与其他主流范式进行比较,包括差异度量[38]、[65]、[66]、对抗学习[67]和自监督学习[58]、[59]、[60]。定量结果见表III。
差异度量、中央矩差(CMD)[65]、最大均值差异(MMD)[66]和深度CORAL [38]最初是为处理一般领域适应而设计的,在弥合正常/低光域差距方面效果不佳。对抗学习[67]也带来了不满意的结果,因为区分正常/低光模式非常容易,破坏了特征提取器和判别器之间的平衡。此外,对抗学习由于架构复杂性而遭遇不稳定的训练动态。
对于自监督学习,我们考虑了基于对比学习[58]和基于预任务的方法[59]、[60]。尽管对比学习在模型预训练上具有优势,但它考虑的是全局特征,因此不适合训练我们的增强曲线。传统预任务,包括旋转预测和拼图排列,由于表达性有限,表现不佳。
对于提出的SACC-CE和SACC-PT,前者在分类任务上表现较好,而在面部检测上表现较差。我们将这归因于分类输出的离散性和易于比较的性质,这提高了曲线集成的准确性。相反,当应用于面部检测时,集成预测的准确性降低。由于需要专门设计的合并操作来处理边界框预测,直接像分类那样组合会导致伪标签不准确或数量不足,从而导致次优训练结果。设计适当的标签合并策略可能是一个解决方案,但为每个下游任务开发策略是不可行的。因此,我们提出基于特征操作的预任务型SACC-PT。SACC-PT在分类任务上的表现不如SACC-CE,因为它无法利用任务信息,但在面向非分类下游任务时更通用。总的来说,对于需要汇集完整图像信息以进行决策的应用,如图像分类,可使用SACC-CE;对于需要更细粒度局部信息进行推理的应用,可使用SACC-PT。

C. SACC+:图像去噪还是模型微调?

最后,我们验证了SACC+的设计。由于深凹曲线是全局操作,它会保留噪声,这是低光图像的主要特征。因此,去噪增强图像可能进一步提高性能。为了测试这一假设,我们考虑了两种方法:非学习方法BM3D [69]和基于学习的Neighbor2Neighbor [68]。
尽管它们在人类视觉体验上取得了成功,但去噪会模糊对高层语义至关重要的细节。结果如表IV所示,模型的分类和面部检测性能显著下降。相比之下,我们的微调方法SACC+通过表示学习本质上解决了噪声问题,同时不损害图像信息。此外,在微调过程中采用非对称增强有助于弥合正常光域和增强低光域之间的差距,有效提升了模型的整体表现。

VI. 实验







请到「今天看啥」查看全文