专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
分享迷  ·  神器再度来袭,安卓iOS均可用 ·  3 天前  
分享迷  ·  神器再度来袭,安卓iOS均可用 ·  3 天前  
深圳大件事  ·  清透感十足!用它打造宛若天生好肌肤 ·  5 天前  
深圳大件事  ·  注意!深圳2区发布最新通告 ·  1 周前  
深圳大件事  ·  仿佛天生奶油肌!通透无瑕,一见倾心 ·  1 周前  
51好读  ›  专栏  ›  极市平台

IJCV 2024|EfficientSCI++:高效的视频单曝光压缩成像重建框架

极市平台  · 公众号  ·  · 2024-05-30 17:03

正文

↑ 点击蓝字 关注极市平台
作者丨曹淼
编辑丨极市平台

极市导读

 

来自浙江大学和西湖大学的研究人员提出了一种基于CNN-Transformer架构的高效、大尺度视频单曝光压缩成像重建算法EfficientSCI++。 >>加入极市CV技术交流群,走在计算机视觉的最前沿

背景介绍

在之前的工作中,人们通常使用高速相机采集高速运动场景,但是这样就会带来较高的硬件成本和数据传输带宽。受到压缩感知技术的启发,视频单曝光压缩成像系统提供了一种低成本、低带宽的解决方案用于高速运动场景的采集。

如图1所示,视频单曝光压缩成像系统由硬件编码器和软件解码器组成:硬件编码器采用多张不同的调制编码来调制高速运动场景,之后通过一个低速相机在其单个曝光时间内采集一系列单曝光压缩测量值;软件解码器将单曝光压缩测量值和相应的调制编码输入到视频单曝光压缩成像重建算法中恢复出高速运动场景的图像序列。

图1. 视频单曝光压缩成像系统的工作原理

一方面,视频单曝光压缩成像硬件系统已经比较成熟。另一方面,基于深度学习的重建算法也取得了不错的重建效果。但是,当前仍然面临以下挑战:1)目前的重建算法往往具有较高的计算复杂度;2)现有的重建算法无法重建大尺度、高压缩比的场景;3)之前的工作没有深入研究重建算法对于不同压缩比的灵活性。针对以上问题,来自浙江大学和西湖大学的研究人员提出了一种基于CNN-Transformer架构的高效、大尺度视频单曝光压缩成像重建算法EfficientSCI++。

EfficientSCI++算法详解

EfficientSCI++算法的网络结构如图2所示,其主要包括:1)初始化模块(给定压缩测量值和调制编码,生成模糊的视频帧);2)特征提取模块(由卷积核为3×3×3和1×3×3的两个3D卷积层以及对应的LeakyReLU激活函数组成,将输入图片序列映射到高维特征空间);3)ResHNet模块(由3个ResHNet单元组成,用于高效地构建时空关联性)。其中,每个ResHNet单元由多个ResHNet块堆叠而成;4)视频重建模块(由PixelShuffle操作和卷积核为1×1×1,3×3×3的两个3D卷积层组成,将高维特征映射到图片序列得到最终的重建结果)。

图2. EfficientSCI++网络结构图

现在,我们重点讲解一下EfficientSCI++的核心网络设计:基于特征通道划分机制的ResHNet块。如图2.c所示,我们首先将输入特征沿着特征维度分成多份。然后,我们利用CFormer块高效地构建时空连接。最后,我们将所有CFormer块的输出特征沿着特征通道维度连接到一起,随后通过一个1×1×1卷积层更好地融合特征信息。不难看出,CFormer块在ResHNet块中起到至关重要的作用。如图3所示, CFormer块基于时空分解机制和CNN-Transformer架构,其主要包括:1)空间域卷积分支(2个卷积核为3×3的2D卷积层可以很好地提取局部空间特征,同时算法复杂度和内存占用也会大大降低);2)时间域自注意力分支(在每一个像素点位置,沿着时间维度使用自注意力机制,这么做可以很好地建立长时序特征关联);3)基于门控机制的前馈神经网络(Gating mechanism based Feed Forward Network,简称GFFN)。和之前的前馈神经网络相比,GFFN可以更好地控制网络中的信息流从而抑制网络中的无用信息,只让有用信息在网络中传递。此外,我们在GFFN的第一个线性转换层后面加入一系列零填充大小为1的3×3×3卷积操作实现了动态位置编码。因此,在压缩比变化时,EfficientSCI++仍然可以给出很高的重建质量。

图3. CFormer块结构图

EfficientSCI++性能分析

在实验部分,我们在六个灰度仿真测试数据(256×256×8)、六个中等尺度彩色仿真测试数据(512×512×3×8)和四个大尺度彩色仿真测试数据上进行测试。然后,为了验证重建算法在真实测试数据上对于不同压缩比的灵活性,我们制作了一个压缩比从10到50逐渐变化的灰度和彩色真实测试数据集。最后,我们在另外两组真实测试数据上进一步验证EfficientSCI++在实际系统中的性能。由于篇幅限制,这里只给出部分实验结果。其中:1)如图4所示, EfficientSCI++可以取得和之前的重建算法相当的重建质量,但是测试时间大大缩短;2)如图5所示,压缩比从8变化到48时,EfficientSCI++能够更好地保证重建质量;3)从表1可以看出,EfficientSCI++ 第一次在1644×3480×3,压缩比为40的大尺度彩色仿真测试数据上给出34dB以上的重建质量;4)针对快速运行的场景,EfficientSCI++也可以给出精确的重建结果,如图6所示。

图4. 不同算法的测试时间&重建质量对比
图5. 压缩比变化时,不同算法的表现
表1. EfficientSCI++在大尺度彩色测试数据上的性能,其中算法结果中每一格从左到右依次列出了PSNR,SSIM和测试时间
图6. EfficientSCI++重建的高速运动场景(压缩比为10,相机的曝光时间为20ms)

结论

基于CNN-Transformer架构,本文提出一种高效、大尺度的视频单曝光压缩成像重建算法EfficientSCI++。大量的实验数据表明:相比于之前的视频单曝光压缩成像重建算法,EfficientSCI++可以给出相当的重建质量,然而计算复杂度大大降低。此外,为了验证视频单曝光压缩成像重建算法对于不同压缩比的灵活性,我们构建了一套压缩从10到50连续变化的灰度和彩色真实测试数据集。

文章链接:https://link.springer.com/article/10.1007/s11263-024-02101-y

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏:多模态大模型超详细解读专栏搞懂Tranformer系列ICCV2023论文解读极市直播
极视角动态欢迎高校师生申报极视角2023年教育部产学合作协同育人项目新视野+智慧脑,「无人机+AI」成为道路智能巡检好帮手!
技术综述:四万字详解Neural ODE:用神经网络去刻画非离散的状态变化transformer的细节到底是怎么样的?Transformer 连环18问!

点击阅读原文进入CV社区

收获更多技术干货