专栏名称: 小白学视觉

本公众号主要介绍机器视觉基础知识和新闻，以及在学习机器视觉时遇到的各种纠结和坑的心路历程。

IJCV 2024 | 基于多尺度可分离网络的快速超高清视频去模糊

小白学视觉 · 公众号 · · 2024-07-08 10:05

正文

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ”

重磅干货，第一时间送达

Fast Ultra High-Definition Video Deblurring via Multi-scale Separable

基于多尺度可分离网络的快速超高清视频去模糊

Wenqi Ren；Senyou Deng；Kaihao Zhang；Fenglong Song；Xiaochun Cao；Ming-Hsuan Yang

摘要

尽管在图像和视频去模糊方面取得了显著进展，但对处理超高清晰度（UHD）视频（例如4K分辨率）的关注却相对较少。在这项工作中，我们提出了一种新颖的深度模型，用于快速准确的UHD视频去模糊（UHDVD）。所提出的UHDVD通过深度可分离的块结构实现，该结构采用多尺度集成方案，在不增加通用卷积层和核的数量的情况下实现大的感受野。此外，我们采用了时间特征注意力模块，以有效利用视频帧之间的时间相关性，获得更清晰的恢复图像。我们设计了一个不对称的编码器-解码器架构，带有残差通道空间注意力块，以提高准确性并适当减少网络的深度。因此，所提出的UHDVD在4K视频上实现了每秒30帧的实时性能。为了训练所提出的模型，我们使用三种不同的智能手机构建了一个新的数据集，包括4K模糊视频和相应的清晰帧。广泛的实验结果表明，我们的网络在所提出的4K数据集以及现有的720p和2K基准测试中，在准确性、速度和模型大小方面都优于现有的最先进方法。

I. 引言

超高清晰度（UHD，即1200万像素或4K）视频在过去几年已成为一种趋势。最近的消费电子设备（例如智能手机和DSLR相机）通常支持4K视频。不幸的是，不规则的相机抖动和高速运动经常在捕获的UHD视频中产生不希望的模糊。低质量的模糊视频使得下游视觉任务更具挑战性。已经提出了许多图像和视频去模糊方法，以从未模糊的视频中恢复清晰的帧。传统的去模糊方法通常对运动模糊、场景结构和潜在帧做出某些假设，以减轻病态问题的本质。在这些方法中，运动模糊通常被建模为均匀核或非均匀核。虽然清晰的帧通常受到手工制作的图像先验的约束以规范解空间，但这些假设通常不适用于实际情况，从而导致模糊核的估计不准确和图像恢复质量低下。

近年来，基于深度卷积神经网络（CNN）的方法已经被开发出来，以从模糊输入中显式学习特征并回归模糊核或直接恢复清晰的图像。有两种常见的策略，“多尺度”和“多块”，分别利用不同处理级别和区域的去模糊线索。这些算法可以消除由相机抖动和物体运动引起的模糊效果，并在图像去模糊任务上实现最先进的结果。然而，现有的基于CNN的方法有两个主要限制。首先，计算和内存成本对于某些应用来说是高得令人望而却步的，特别是当需要处理高分辨率图像时。例如，最近的CDVD-TSP视频去模糊方法需要大约四秒和一分钟来分别去模糊来自HD（720p）和UHD（4K）视频的单个帧。其次，多块网络忽略了特征的尺度变化属性，这对于每个尺度的相应恢复至关重要。因此，从未模糊的图像中生成详细的纹理仍然是一个具有挑战性的问题。

此外，有效地利用帧之间的时间信息对于视频去模糊至关重要。基于深度学习的方法最近在视频去模糊方面取得了显著进步。一些基于CNN的方法通过简单地将邻近帧与当前帧堆叠作为输入来获得去模糊帧。基于RNN的方案采用循环神经网络架构，在帧之间传递视觉信息进行推理。因此，这些模型要么通过连接邻近帧而涉及高计算成本，要么在有效传递时间信息方面的能力有限。

在这项工作中，我们提出了一种新颖的UHDVD网络，具有高效率、低内存消耗和高质量的去模糊性能。我们的方法受到块分层图像去模糊方法的启发，其中多块层次结构被输入到网络中。这些方案能够很好地去模糊720p的图像。然而，多块层次结构在不同层次上具有相同的空间分辨率，并且需要布局补丁和拼接，这限制了重建图像的质量和降低了运行时性能。此外，处理高分辨率或超高分辨率图像更具挑战性。因此，我们提出了一个可分离的补丁模型，结合多尺度集成方案，捕获全局结构并同时处理每个尺度的多个补丁。虽然大多数现有的去模糊算法采用级联网络来帮助恢复潜在帧，但简单地堆叠相同网络以构建更深层次的模型可能无法很好地恢复图像。在这项工作中，我们提出了一个级联残差通道和空间注意力（RCSA）模块和一个时间特征注意力（TFA）模块，以提高去模糊性能，而不会牺牲运行时性能。所提出的RCSA能够自适应地学习有用的通道特征，并强调特征图上最有信息量的区域。同时，TFA模块可以提取邻近帧之间的相关特征。

主要贡献

我们提出了一种新颖的UHDVD网络，使用可分离的补丁架构结合多尺度集成方案。所提出的模型是首个能够通过并行多个补丁实现实时去模糊4K视频的深度视频去模糊模型。
我们引入了一个时间特征注意力（TFA）模块，以提高视频帧之间相关性的利用。
我们设计了一个级联RCSA模块，以提高特征表示能力和区分能力，确保高去模糊性能。
我们构建了一个4K去模糊数据集（4KRD），包括合成和真实捕获的视频。在所提出的和现有的基准数据集上的广泛实验结果表明，我们的模型与现有的最先进方法相比表现良好。

初步结果已在Deng等人中发表。在本文中，我们在几个方面扩展了我们之前的工作。首先，为了充分利用帧之间的时间特征，我们在改进的模型中提出了一个时间特征注意力模块。有了这个模块，我们获得了比Deng等人中直接连接先前去模糊帧更丰富的帧间特征。此外，我们使用深度可分离卷积来减小UHDVD模型的大小和FLOPS。其次，除了4KRD去模糊数据集外，我们还在新的2K分辨率数据集[Slow-Flow ]和真实的720p测试数据集[DVD 和REDS]上进行了更多实验。第三，我们分析了所提出的网络和其他最先进方法的模型大小和FLOPS，我们的模型实现了比最先进方法快16倍的运行时间。

II. 相关工作

为了解决去模糊问题的病态特性，许多方法利用了场景的不同先验和假设，包括总变分、稀疏图像先验、梯度分布、块先验和l0-范数正则化器。这些基于先验的方法的一个限制是，假设或先验并不总是适用于包含深度变化和移动对象的动态场景。随着深度学习的进步，也提出了基于CNN的方法进行图像去模糊。这些模型的主要思想是使用CNN学习模糊输入和相应清晰图像之间的映射函数。此外，生成对抗网络（GANs）也被用于图像去模糊。由于这些模型通常涉及大量的模型参数并需要沉重的计算负载，因此将这些方法应用于实时去模糊任务，特别是对于UHD视频，是不可行的。

多尺度和多块网络。粗到细（即多尺度）模型已在传统方法和最近的深度模型中广泛用于去模糊。Nah等人提出了一个基于多尺度CNN的去模糊网络，该网络从模糊输入的粗糙尺度开始，然后逐步在更高尺度上去模糊输入，直到恢复全分辨率潜在图像。Tao等人引入了一个尺度递归网络，通过跨尺度训练共享参数。该方法可以根据递归网络在先前的粗糙尺度上保留图像结构和运动信息。Gao等人通过选择性地在每个尺度上共享参数和模块来改进多尺度CNN。然而，这些多尺度网络通常在推理阶段体积庞大且计算成本高昂。为了解决这些问题，提出了一个分层多块模型，通过在多个补丁上进行特征聚合来利用不同尺度上的运动信息。Suin等人结合了多块层次结构和全局注意力机制，而没有使用级联卷积层。最近，Zamir等人在多阶段架构中使用类似的方案以计算负载的代价获得更好的结果。虽然这些多块网络可以在实时中很好地去模糊720p图像，但现有的方法并未设计用于处理全高清（FHD，1920×1080分辨率）输入或UHD视频（例如4K分辨率）。

FHD and UHD 图像提升

一些方法已被提出，通过学习双边正则化器或3D查找表从FHD或UHD降级输入中恢复清晰图像。然而，所有这些方法都是通过从下采样版本进行复杂的插值技术来重建最终输出。与这些方法不同，我们的网络直接在最细尺度上对全分辨率输入进行去模糊，并且是首个以35fps实时去模糊4K视频的模型。

III. 算法

所提出的模型的核心思想是适当地整合多尺度和多块方案，我们引入了一种可分离的补丁策略，以显著加速参考实现。我们UHDVD的整体架构如图2所示。给定一个模糊的视频，将先前去模糊的帧与当前模糊帧在通道维度上进行拼接作为我们网络的输入。然后，将拼接的输入在四个不同的尺度上进行有序的半下采样，并在每个尺度上恢复相应的清晰图像。由于时间信息可以改善视频去模糊结果，我们提出了一个基于RNN的时间特征注意力（TFA）模块，以在第一尺度提取时间特征。我们首先同时获取当前模糊帧和先前去模糊帧的时间特征和。先前模糊/去模糊帧的初始时间状态将通过整个视频片段在TFA模块中传递。我们还在融合模块中另外添加了两个先前去模糊帧的时间特征和，以进一步增强时间关系。

3.1 时间特征注意力

使用视频帧之间的时间特征对于视频去模糊任务至关重要，可以改善去模糊结果。在本文中，我们采用了一个基于RNN的时间特征注意力模块，由几个残差密集块（RDBs）组成。主要目标是在不进行耗时的空间编码计算的情况下提取邻近帧的时间特征。TFA的结构和详细配置如图3所示。首先，当前模糊帧和先前去模糊帧将通过RDB和卷积层并行下采样，然后分别与先前的时间状态和进行拼接。通过一系列RDBs和密集卷积层处理后，我们获得了当前模糊帧和先前去模糊帧的中间时间特征，分别表示为和。接下来，我们将另外两个先前去模糊的中间时间特征和作为融合模块的输入。最后，一个密集卷积层将这些中间时间特征融合起来，生成当前帧的时间特征。整个过程可以表示为：

其中表示训练参数，是中间时间特征。最后，将通过时间状态生成函数更新，该函数由RDB和卷积层组成。有了从TFA和融合模块提取的时间特征，尺度1的处理过程可以表示为：

其中表示网络参数。指的是尺度2的中间空间特征。

3.2 不对称编码-解码架构

对称的编码器-解码器结构由于其在扩展感受野方面的有效性而被广泛用于视觉任务。在处理4K分辨率引起的特征区域和计算需求增加的挑战时，我们提出了一种基于超分辨率框架的新型不对称编码器-解码器结构，旨在在不牺牲性能的同时减少计算。在我们的架构中，不对称主要是通过编码器和解码器分支中模块的差异选择来实现的。具体来说，在解码器分支中，我们在每个标准反卷积之前采用三个轻量级残差模块，有效地减少了参数和FLOPS。每个残差模块由两个深度可分离卷积（DSC）组成，中间有一个ReLU激活函数。这种优化显著提高了计算速度，而不影响质量。相比之下，在编码器分支中，我们在RCSA模块中使用常规卷积层，而不是解码器分支中的深度可分离卷积。我们还在编码器分支引入了时间空间注意力机制，以进一步增强我们模型的能力。此外，为了适应编码器和解码器分支的特定要求，我们不对称地调整了卷积和反卷积操作的通道维度。

3.3 分离补丁加速结构

为了进一步提高UHDVD模型的推理速度，我们设计了可分离的补丁加速架构（SPAA），以同时处理多个补丁或特征图。如图5所示，多个补丁（例如，）在开始时作为一个新的张量在通道维度上连接在一起，其大小为 [batch_size, n×cin, h, w]。然后，通过设置参数组 = n，张量由后续的卷积层处理。新张量的计算负载为

，而它等于n个原始张量。好处是我们可以将这些n个串行计算改为并行计算，显著减少计算时间。在残差模块的计算之后，我们将张量重塑为大小 [batch_size × n, cout, h, w] ，以便它可以在通道注意力模块和空间注意力模块中分别同步计算。输出将作为下一个RCSA模块的输入，这种加速将继续进行，直到我们获得尺度的中间特征图或恢复图像。通过这种架构的加速，我们的处理速度是原始版本的两倍。

3.4 残差通道-空间注意力

我们提出了一个新的RCSA模块，它在去模糊网络中包含一个通道注意力模块和一个空间注意力模块。RCSA的架构如图4b所示。RCSA的主要构建块是通道注意力和空间注意力，它计算通道和空间维度的响应。通道注意力模块（CAM）包括两个自适应池化计算：平均池化和最大池化。每个池化层后面跟着一个标准卷积层。输出通道是输入通道的1/8，内核大小为1×1，偏置为false。然后，有一个ReLU激活函数，以及另一个输入和输出通道与前面卷积完全相反的相同卷积。最后，两个处理过的池化结果作为sigmoid函数的输入相加。空间注意力模块（SAM）只有一个卷积层，输入通道为2，输出通道为1，内核大小为3×3，填充大小为1，偏置为false。输入数据首先分别通过平均和最大计算处理，然后在通道维度上连接在一起。RCSA模块的输出通过以下方式计算：

其中和分别是CAM模块的输入和输出特征，表示SAM模块，操作符“×”表示逐点乘法。

3.5 损失函数

粗到细的方法要求每个中间输出是相应尺度的去模糊图像。因此，所提出的UHDVD网络的训练损失是网络输出和每个尺度的地面真实际帧之间的MSE损失，计算如下：

其中和分别是尺度的去模糊图像和地面真在帧上，是多尺度图像的维度；是每个尺度的权重。我们经验性地设置