专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

CVPR Oral 2024｜基于CLIP的全像素双核（DP）图像去模糊算法

极市平台 · 公众号 · · 2024-04-07 22:00

正文

↑ 点击蓝字关注极市平台

编辑丨极市平台

极市导读

在本文中，作者利用来自CLIP的模糊相关先验知识，研究了DP图像的端到端散焦去模糊算法。首先使用模糊感知和DP感知策略的集成来估计模糊图，然后在恢复DP图像之前使用估计的模糊图作为去模糊核。作者还提出了模糊感知和模糊加权损失，通过从CLIP中提取模糊知识，在训练过程中对DP图像的恢复进行正则化约束。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

论文链接： https://arxiv.org/abs/2307.09815

Code： https://github.com/noxsine/LDP

0 背景

全像素双核(dual-pixel, DP)传感器最初被用于促进相机自动对焦。这种传感器的工作原理是将传统的图像传感器的每个像素一分为二，因而能够从一次拍摄中捕获两幅带有微小基线的图像对（DP pair），即左视图和右视图。这种图像对在对焦平面的左右视图几乎不存在视差，而离焦平面的左右视图存在视差，该视差又称为离焦视差。由于 DP传感器所产生的离焦视差与散焦模糊量直接相关，因此DP传感器受到了学术界的关注。研究人员使用DP传感器采集的图像来进行深度估计、图像去反射和图像散焦模糊去除等。

DP图像对的视差由其点扩展函数产生，与模糊量相对应。因此DP图像对可用于估计反映模糊量的模糊图(散焦图或视差图)，从而能够促进网络更好的去除图像中非均匀的散焦模糊。然而现有的全像素双核图像模糊图估计方法要么使用额外的合成数据作为监督信号，要么需要预校准的模糊核，这限制了模型在估计模糊图方面的泛化能力，使得散焦模糊图像中的非均匀模糊不能很好的去除。

最近，对比语言图像预训练框架(CLIP)在语义分割、目标检测和3D点云理解等视觉任务上大获成功。因此，一个问题自然产生了，我们是否可以避免收集数据和设计模型的成本，使用CLIP来无监督地估计模糊图？然而，使用来自CLIP的语义知识来处理低级视觉任务尚未得到充分的探索。

因此，在本文中，我们提出了第一个引入对比语言图像预训练框架(CLIP)用于散焦模糊去除的方法，以准确地从DP图像对中无监督地估计模糊图。由于CLIP是使用超过4亿对的图像-文本对训练的，因此使用CLIP进行模糊图估计能够获得更好的泛化能力。在获得准确的散焦模糊图后，我们进而获得了更高质量的去模糊图像。

1 主要贡献

探索了CLIP在low-level-vision任务中的潜力，我们提出了一个语言驱动的DP (LDP)离焦去模糊框架。据我们所知，我们是第一个提出引入对比语言图像预训练框架(CLIP)的框架，以准确地从DP图像对中无监督地估计模糊图，然后使用该模糊图促进非均匀散焦模糊的去除。进一步，我们也验证了更多图像复原任务中，本框架的可用性。

基于DP对的模糊和视差之间的几何关系，我们设计了一种用于模糊图估计的图像-文本格式。具体来说，我们提出使用DP图像对生成一个新的图像，并将图像的“模糊”描述转换为测量新形成图像的“对称性”，这是基于DP图像的成像过程的。

我们提出了模糊先验注意块，模糊加权损失和模糊感知损失，以促进DP图像对的清晰恢复。模糊先验注意块通过估计的模糊图来改变注意力图，该模糊图提供了去模糊核的先验知识。模糊加权损失利用模糊估计模块生成的模糊图，对图像中不同的区域采用不同的损失权重，这使得我们的网络能够专注于修复模糊更严重的区域。模糊感知损失使用模糊估计模块检测去模糊图像中的残留模糊，这能够进一步的提升输出的去模糊图像的质量。

2 网络结构图

更多细节请参阅论文原文。

3 实验结果

在DPD-blur、DDD-syn、RDPD数据集上的结果表明，我们的方法获得了最先进的性能。

4 模糊图估计可视化

我们在DPD-blur上可视化了我们的方法所生成的模糊图，可以看到我们使用ensemble-format的方式生成的模糊图能够正确的反映模糊区域和清晰区域。

5 结论

在本文中，我们利用来自CLIP的模糊相关先验知识，研究了DP图像的端到端散焦去模糊算法。我们首先使用模糊感知和DP感知策略的集成来估计模糊图，然后在恢复DP图像之前使用估计的模糊图作为去模糊核。我们还提出了模糊感知和模糊加权损失，通过从CLIP中提取模糊知识，在训练过程中对DP图像的恢复进行正则化约束。在大量的实验中，我们的方法在定量和定性恢复性能上都大大优于过去的方法。在未来，我们希望提出的模糊图估计策略能激励更多将CLIP应用和扩展到各种zero-shot的视觉任务。

恭喜实验室一年级博士生Hao和三年级博士生Yang！欢迎有志于视觉与语言、机器学习、人工智能研究的同学们加入北京理工大学计算机学院SSLab (bitsslab.github.io)。

公众号后台回复“ 数据集 ”获取100+深度学习各方向资源整理

极市干货