论文链接:
https://arxiv.org/pdf/2407.08939
git链接:
https://github.com/JianghaiSCU/LightenDiffusion
亮点直击
-
提出了一种基于扩散的框架,
LightenDiffusion
,结合了Retinex理论的优势和扩散模型的生成能力,用于无监督低光图像增强。进一步提出了自我约束的一致性损失,以改善视觉质量。
-
提出了一个内容传输分解网络,在潜空间中执行分解,旨在获取富含内容的反射率图和无内容的照明图,以促进无监督恢复。
-
大量实验证明,
LightenDiffusion
在超越现有的无监督竞争对手的同时,与监督方法相比具有更好的泛化能力。
本文提出了一种基于扩散的无监督框架,将可解释的Retinex理论与低光图像增强的扩散模型相结合,命名为
LightenDiffusion
。具体而言,提出了一种内容传输分解网络,在潜空间而非图像空间中执行Retinex分解,使得未配对的低光和正常光图像的编码特征能够被分解成富含内容的反射率图和无内容的照明图。随后,将低光图像的反射率图和正常光图像的照明图作为输入,通过扩散模型进行无监督恢复,以低光特征为指导,进一步提出了自我约束的一致性损失,以消除正常光内容对恢复结果的干扰,从而提高整体视觉质量。在公开的真实世界基准数据集上进行了大量实验表明,
LightenDiffusion在超越现有无监督竞争对手的同时,与监督方法相媲美,并且更具通用性,适用于各种场景
。
方法
概述
本文提出的框架的整体流程如下图2所示。给定一个未配对的低光图像
和正常光图像
, 首先使用一个编码器
, 它由
个级联的残差块组成, 每个块使用最大池化层将输入按比例降采样 2 倍, 将输入图像转换为潜空间表示, 表示为
和
。然后, 设计了一个内容传输分解网络 (CTDN), 将这些特征分解为富含内容的反射率图
和
, 以及无内容的照明图
和
。随后,
和
作为扩散模型的输入, 结合低光特征的指导, 生成恢复的特征
。最后, 恢复的特征将送入解码器
进行重建,生成最终的恢复图像
。
内容传输分解网络
根据Retinex理论,图像
可以分解为反射率图
和照明图
, 即:
在上述情况下,符号 ⊙ 表示Hadamard乘积运算。其中,R代表应在各种照明条件下保持一致的固有内容信息,而L表示应该是局部平滑的对比度和亮度信息。然而,现有方法通常在图像空间内执行分解以获取上述组件,这导致内容信息未能完全分解到反射率图中,部分保留在照明图中,如下图3(a)所示。
为了缓解这个问题,引入了一个内容传输分解网络(CTDN),它在潜空间内执行分解。通过在这个潜空间中编码内容信息,CTDN促进了生成包含丰富内容相关细节的反射率图,并保持不受内容相关影响的照明图。如下图4所示,首先按照[14]的方法估计初始的反射率和照明图为:
当处理每个像素
时, 其中
是一个小常数, 用于避免零分母。估计的地图通过两个分支进行了细化。首先, 使用多个卷积块来获取嵌入特征, 即
。随后, 利用交叉注意力(CA)模块
来加强反射图中的内容信息。此外, 还采用了自注意力 (SA) 模块
来进一步提取光照图中的内容信息, 并将其补充到反射图中。最终输出的反射图
和光照图
可以表示为
和
。
如上图3(b) 所示,CTDN能够生成内容丰富的反射地图,充分展示图像的内在信息,并生成只显示光照条件的光照地图。
Latent-Retinex 扩散模型
一种直接获得理想情况下增强特征的简单方法是将低光特征的反射图(R_{low})与正常光图像的照明图(L_{high})相乘,即
。然而,上述方法存在两个挑战:
-
-
恢复的图像可能会呈现出现象,因为参考正常光图像的照明图仍包含顽固的内容信息。
虽然CTDN在大多数场景中通常是有效的,但在一些挑战性情况下,估计的照明图的准确性可能会受到影响。为解决这些问题,提出了一种
Latent-Retinex
扩散模型(LRDM),利用扩散模型的生成能力来补偿内容损失并消除潜在的意外现象。方法遵循标准的扩散模型,进行前向扩散和反向去噪过程以生成恢复的结果。
前向扩散。
鉴于未配对图像的分解组件, 将低光图像的反射图
和正常光图像的照明图
视为输入, 表示为
, 进行前向扩散过程。使用预定义的方差进度
, 逐步将
转化为服从高斯噪声
, 经过 T 步骤, 可以表述为:
在这里,
表示时间步
的噪声数据。通过参数重整化, 可以将多个高斯分布合并并优化, 从而直接从输入
得到
, 并将方程 (4) 简化为闭合形式:
其中
,
, 且
。
逆去噪
. 通过利用条件扩散模型提供的编辑和数据合成能力,旨在在低光图像的编码特征
的指导下, 逐渐将随机抽样的高斯噪声
逆向去噪到一个清晰的结果
,从而保证恢复的结果与以
为条件的分布具有高保真度。反向去噪过程可以表述为:
其中,
是方差, 而
是均值。
在训练阶段, 扩散模型的目标是优化网络的参数
, 使得估计的噪声向量
接近高斯噪声, 具体表述为:
在推理过程中, 通过隐式采样策略从扩散模型学习的分布中获得经过逆向去噪处理的恢复特征
,随后将其送入解码器生成最终结果
。然而, 正如上文所述, 如果估计的照明图仍包含内容信息,输入
可能会呈现出伪影, 这可能影响所学习的分布, 导致
受到干扰。
因此, 本文提出了一个自约束一致性损失
, 以使恢复的特征能够与输入的低光图像共享相同的内在信息。具体而言, 在训练阶段, 首先执行反去噪过程, 按照
的方法生成恢复的特征, 并根据传统的Gamma校正方法从低光图像的分解结果构建伪标签
作为参考, 其中
, 这里
是光照校正因子。因此,
的目标是约束特征的相似性, 以促使扩散模型重建
, 如下所示:
总体而言,低光图像恢复扩散模型(LRDM)的训练策略总结如下面算法 1 所示,用于优化的目标函数重写为