正文
发布人:软件工程师 Hossein Talebi、机器感知研究员 Peyman Milanfar
图像质量和美观性的量化一直是图像处理和计算机视觉领域长期存在的问题。技术质量评估测量的是图像在像素级别的损坏,例如噪声、模糊和压缩伪影等,而美观性评估是为了捕捉图像中的情感和美感在语义级别的特征。最近,使用人类标记数据训练的深度
卷积神经网络
(CNN) 已被用于解决特殊图像(例如景观)的
图像质量主观性
。不过,由于这些方法通常只是简单地将图像分为低质量和高质量两类,它们的适用范围比较狭窄。我们提出的方法可以预测评分的发布。这样可以得到更准确的图像质量预测,更接近真实评分,也更适用于一般图像。
在“
NIMA:Neural Image Assessment
”这篇论文中,我们引入了一个深度
CNN,通过训练,它可以判断一般用户会认为哪些图像看上去不错(技术性),哪些图像有吸引力(美观性)。得益于最先进的深度
物体识别
网络的成功,NIMA 可以理解一般类别的物体,而不管有多少变化。我们提出的网络不仅能为图像打一个接近人类感知水平的可靠分数,同时还能用于各种需要大量劳动力的任务和主观任务,例如智能照片编辑、优化视觉质量以提高用户参与度,或者在成像通道中最大程度减少感知的视觉错误。
背景
一般来说,图像质量评估可分为全参考和无参考两种方法。如果存在可以作为参考的“理想”图像,就可以使用
PSNR
、
SSIM
等图像质量指标。当参考图像不可用时,“盲目”(或无参考)方法则依靠统计模型来预测图像质量。这两种方法的主要目标是预测一个与人类感知非常接近的质量分数。在利用深度
CNN 进行图像质量评估时,权重通过在与物体分类相关的数据集(例如
ImageNet
)上进行训练得到初始化,然后在带注解的数据上针对感知质量评估任务进行微调。
NIMA
典型的美观性预测方法仅将图像分为低质量/高质量。这忽略了一个事实,即训练数据中的每个图像都与人类评分的直方图相关联,而非简单的二值评分。评分直方图是图像整体质量的指标,也是所有打分者的平均数。在我们的方法中,NIMA
模型不是简单地将图像分为低/高质量,或者进行回归得到平均分,而是为任意给定的图像生成评分分布 - 分数范围为 1 到 10,NIMA 会向每个可能的分数分配可能性值。这也与训练数据通常的捕获方式更加一致,并且与其他方法对比时,我们的方法可以更好地预测人类偏好(如需了解更多详细信息,请参阅我们的
论文
)。
随后,可以使用 NIMA 矢量分数的各个函数(例如平均值)对照片的美观性进行排名。下面所示为
NIMA 对一些测试照片的排名,这些照片来自美学视觉分析 (
AVA
) 数据集的大规模数据库。在
摄影比赛
中,每个 AVA 照片平均由 200 人评分。训练结束后,NIMA 对这些照片的美观性排名与人类打分者的平均分非常接近。我们发现,NIMA 在其他数据集上的表现同样很出色,预测的质量分数接近人类评分。
|
使用 NIMA 对
AVA
数据集中一些带“风景”标签的照片进行排名。每个图像下方显示了预测的 NIMA(和真实)分数。
|
NIMA 分数也可用于比较主题相同、进行了各种变形的图像的质量。以下示例中显示的图像是
TID2013
测试集的一部分,包含各种类型和级别的变形。
|
使用 NIMA 对
TID2013
数据集中的一些示例进行排名。每个图像下方显示了预测的 NIMA 分数。
|
感知图像增强
正如我们在近期的另一篇
论文
中提到的一样,质量和美观性分数也可以用来调整感知图像增强运算符。换句话说,作为损失函数的一部分尽可能提高 NIMA 分数可以提升增强图像感知质量的可能性。下面的示例表明,可以将 NIMA 用作训练损失来调整色调增强算法。我们发现,基线美观性评分可以通过由 NIMA 分数指导的对比度调整得到改善。因此,我们的模型能够指导深度 CNN 滤波器找到其参数在美观性上接近最佳水平的设置,例如亮度、高光和阴影。
|
可以将 NIMA 用作训练损失来增强图像。在此示例中,训练深度 CNN 并将 NIMA 用作其损失,图像的局部色调和对比度得到增强。测试图像从
MIT-Adobe FiveK 数据集
获取。
|
展望未来
我们的 NIMA 研究工作表明,基于机器学习的质量评估模型可能具有很多有用的功能。例如,我们可以让用户轻松找出最好的照片,甚至通过向用户提供实时反馈来提高照片拍摄能力。在后期处理方面,这些模型可以用来指导增强运算符生成更出色的感知结果。简单地说,NIMA 网络以及其他类似网络可以满足人类对图像甚至视频的审美,尽管还不够完美,但已经比较可行了。我们非常高兴分享这些成果,不过我们也深知,要在理解质量和美观性的意义方面做得更好将是一项长期挑战 - 需要对我们的模型进行持续的重复训练和测试。