图鸭科技获CVPR 2018图像压缩挑战赛单项冠军，技术解读端到端图像压缩框架_机器之心的专栏文章_微信文章

CHALLENGE ON LEARNED IMAGE COMPRESSION 挑战赛由 Google、Twitter、Amazon 等公司联合赞助，是第一个由计算机视觉领域的会议发起的图像压缩挑战赛，旨在将神经网络、深度学习等一些新的方式引入到图像压缩领域。据 CVPR 大会官方介绍，此次挑战赛分别从 PSNR 和主观评价两个方面去评估参赛团队的表现。

不久之前，CLIC 挑战赛比赛结果公布：在不同基准下，来自国内创业公司图鸭科技的团队 TucodecTNGcnn4p 在 MOS 和 MS-SSIMM 得分上获得第一名，腾讯音视频实验室和武汉大学陈震中教授联合团队 iipTiramisu 在 PSNR（Peak Signal-to-Noise Ratio，峰值信噪比）指标上占据领先优势，位列第一。xvc，评分较高的团队中，xvc 的解码速度最快。

比赛结果： www.compression.cc/results/

在这篇文章中，我们对第一名图鸭科技的解决方案进行了编译介绍，内容采自论文《Variational Autoencoder for Low Bit-rate Image Compression》。

论文：Variational Autoencoder for Low Bit-rate Image Compression

地址： openaccess.thecvf.com/CVPR2018_wo…

摘要：我们展示了一种用于低码率图像压缩的端到端可训练图像压缩框架。我们的方法基于变分自编码器，包含一个非线性编码器变换、均匀量化器、非线性解码器变换和后处理模块。压缩表征的先验概率通过使用超先验自编码器的拉普拉斯分布来建模，并与变换自编码器进行联合训练。为了去除低码率图像的压缩失真和模糊，我们提出了一种基于卷积的高效后处理模块。最终，考虑到 CLIC 挑战赛对码率的限制，我们使用一个码率控制算法来对每一个图像自适应性地分配码率。在验证集和测试集上的实验结果证明，使用感知损失训练出的该优化框架能够实现最优的 MS-SSIM 性能。结果还表明该后处理模块可以提高基于深度学习的方法和传统方法的压缩性能，在码率为 0.15 时最高 PSNR 达到 32.09。

1. 引言

近期，机器学习方法被应用于有损图像压缩，并利用自编码器取得了很有潜力的结果。基于典型神经网络的图像压缩框架由多个模块构成，例如自编码器、量化器（quantization）、先验分布模型、码率评估和率失真优化。自编码器用于将图像像素 x 转换为编码空间 y 中的数据，编码空间由编码器和解码器构成。图像的像素值通过编码器转换到编码空间。之后，利用量化函数处理表征 y，得到离散值向量。然后使用诸如算术编码 [8] 这样的熵编码方法来无损压缩，并生成用于传输的码流。在接收到码流之后，经过熵解码的量化后的表征使用解码器被转换回图像空间。

很明显，表征的先验概率模型（也称为熵模型）对于算术编码很关键。的真实边际概率（依赖于图像分布）是未知的。因此我们通过先验分布对它进行估计。先验概率可以通过参数化模型形式化，并通过参数学习来拟合数据。给定熵模型，码率的下界由的离散先验分布的熵决定。由恰当设计的熵编码得到的真实率仅稍微大于熵：。

率失真优化的作用是在编码长度 R 和原始图像 x、重构图像之间的失真 D 进行权衡。D 可以用均方误差（MSE）建模：D= ，或感知失真的度量例如 MS-SSIM [13]。很明显，如果更加集中，则熵 R 更小，但网络的表征能力将退化，并且 D 可能会增加。因此我们以端到端的方式优化率和失真的加权和 R+λD。我们可以断定先验模型和量化的联合优化在高效的压缩系统中是最重要的技术。一方面，对量化后的表征的先验分布的准确估计有利于约束和 R 的真实边际分布。另一方面，准确的先验模型可以使适应性算术编码在编码和解码过程中更加高效。

图鸭科技获CVPR 2018图像压缩挑战赛单项冠军，技术解读端到端图像压缩框架

正文

图鸭科技获CVPR 2018图像压缩挑战赛单项冠军，技术解读端到端图像压缩框架

请到「今天看啥」查看全文