视频质量评估(VQA)一直是个很活跃的研究领域,原因其一是业内一直缺少一种统一且准确的评估标准,其二是影响视频质量的因素过多,且包含很多主观因素,难以客观、定量地评价。经过这么多年的研究,已经诞生了非常多的视频质量评估方法,本文将简单地对它们进行分类及介绍。
相关阅读推荐
《 视频直播:Windows中各类画面源的截取和合成方法总结 》
客观质量评估方法分类
首先,视频质量评估方法可分为主观测试和客观测试两大类。主观测试即通过人类肉眼观察的手段来评分,可以说是最能体现观众对视频质量感受的方法,也是其他客观评价方法的终极目标。但主观测试极端耗费人力和时间,是无法直接在工业领域应用的。
而客观评估方法,按照国际电信联盟(ITU)的建议,可以根据输入的数据类型被分为5大类:媒体层(Media-layer)模型、参数集层(Parametric packet-layer)模型、参数规划(Parametric planning)模型、码流层(Bitstream-layer)模型、混合(Hybrid)模型。其中媒体层模型直接使用媒体信息进行运算分析给出评价结果,而其他类型的评估方法则是根据编码参数或网络信道状态等等外部变量来评估质量。
媒体层模型的方法可以依据是否需要输入编码前的原始视频数据进一步划分为全参考(FR,Full-Reference)、部分参考(RR,Reduced-Reference)和无参考(NR,No-Reference)三类。故名思议,全参考使用完整的原始视频信号作为对比数据,而部分参考则使用经过提取的部分视频特征作为对比数据,无参考则仅使用用户得到的实际数据来评价视频质量。这三类方法的准确度和适用场合均大有不同。
Figure1 FR,RR,NR视频质量评估的差异
全参考视频质量评估
显然的,在这三类方法中,有完整的原始数据作为对比源的全参考质量评估方法结果会更加准确。但是也正因为其需要使用原始数据,实际应用时会存在较大的限制,所以一般仅在非实时的评估系统中会被使用。例如在开发过程中配置编码参数或比较不同编码器的性能时,大多会采用这类方法。
早期的全参考评估方法,一般直接使用像素差值作为衡量依据,比如均方差(MSE)、峰值信噪比(PSNR)等。这类方法计算简单,且能够一定程度反应图像的失真程度,所以至今仍然有很多应用在使用它们。
但是毕竟人类主观上不光只是依靠单个像素的差异来评价视频质量的。且不说视频中包含的大量运动信息,即便只考虑静态图像,同样的像素差值以不同的分布规律分布在不同的位置上时,对视频质量的影响也是不一样的。为了更好的评价视频质量,研究人员根据人类自然视觉上的特性,提出了许多新的评价方法。例如基于结构相似度的VSSIM,以及综合统计了多种影响因子的VQM等。它们的评价结果相对前一类方法都更为接近人眼主观感受。这里借用一下出自K.Seshadrinathan, A. C. Bovik的文献“Motion Tuned Spatio-Temporal Quality Assessmentof Natural Videos”里的图来展示一下PSNR,VSSIM,VQM的区别。下方三张图横坐标为客观测试分数,纵坐标则为主观测试分数。可以看到PSNR的结果与主观分数差异较大,VSSIM则存在不同类型的视频评价准确度不一的问题,VQM相对来说结果最好。
Figure2 PSNR,VSSIM,VQM客观评测分数与主观评测分数对比
后来,研究人员引入了基于人类视觉系统(HVS)的感知模型,进一步提升了视频质量评估的准确性。这其中比较有代表性的是MOVIE(MOtion-based Video IntegrityEvalution)。这种方法会计算视频中物体的运动矢量,联合时域和空域的失真信息,最终得到一个符合主观感受的失真评价分数。在众多全参考视频质量评估方法中,MOVIE属于结果较为优秀的一种。但是同时,MOVIE的运算复杂度也要远高于前面提及的几种算法。下图横坐标为MOVIE应用在视频质量专家组(VQEG)数据库提供的测试序列上得到的客观评分,纵坐标为主观测试得分。