客观视频质量指标的解读

客观视频质量指标的解读

10月26日, 2022

 

每个用户的竞争日益激烈,要求流媒体平台、广播公司和运营商努力在所有类型的设备上实现最高的视频质量。为了实现这一目标,他们中的许多人使用基于客观指标的各种质量控制系统。PSNR、SSIM 和 VMAF 被证明是使用最广泛和最需要的指标,这在视频质量控制中与客户的丰富沟通经验表明了这一点。

视频流在从版权所有者到最终观看者的途中经历了许多转码阶段(图 1)。压缩的每个阶段都会导致数据丢失和质量降低,而实现低比特率的持续努力会导致出现不需要的压缩伪影。因此,视频质量控制工具被广泛用于最大限度地减少这些负面影响。

 

图1.从源到查看者的流路径

通常,指标用于比较编码器/转码器、选择最佳转码设置或提供对广播流质量的监控。任何客观指标都基于编码视频序列和参考视频序列之间的定量差异的计算。换句话说,结果值仅反映与源视频的定量差异,而不评估观看者感知的主观视频质量。它提供了客观性,但是,它使结果的解释更具挑战性和复杂性。本文对指标的定量值进行了定性解释。

方法论

测试配置

进行了主观质量测试,以确定指标值的定性范围。该试验基于双重刺激损伤量表(DSIS)[1]。向受访者展示了视频对:参考视频图像和测试视频图像。每对视频进行两次演示,之后要求受访者评估第二张视频图像与第一张视频图像的比较,而不知道演示视频的指标值。会话的持续时间不超过 30 分钟。评估测试的算法如图2所示。

图2.双刺激与减值量表(DSIS)方法

主观评级基于五分减值量表,受访者的意见映射到值1至5,其中5表示减值难以察觉,4-减值明显但不烦人,3-减值有点烦人,2-减值令人讨厌,1-减值非常烦人。然后将每个测试视频的主观评分平均到平均意见得分(MOS)中。还计算了标准差和置信区间。

测试材料

测试样本包括 19 个 YUV 视频序列,具有 8 位色深、4:2:0 颜色子采样、1920x1080 像素分辨率。源视频文件是从 Xiph.org 和 Ultravideo.fi 下载的[2,3]。该样本包括动态级别(动态、中等动态、静态场景)和运动复杂性(旋转运动、水运动等)的视频材料。(图3)。

图3.YUV视频序列示例

每个视频都使用 15 种质量设置进行压缩。为了进行测试,总共准备了285个AVC / H.264视频序列。视频规格:8 位色深、4:2:0 彩色子采样、1920x1080 像素分辨率、每秒 25 帧帧速率、逐行扫描和 10 秒持续时间。为每个视频计算了以下指标:PSNR,SSIM,VMAF,VQM,Delta,MSAD,MSE,NQI和APSNR,使用视频质量估算器工具 - Elecard StreamEye Studio 的一部分 [4,5]。

刺激显示

使用具有1920x 1080分辨率的典型40英寸三星UE40J6200AU电视来演示视频序列。使用标准亮度和对比度设置。有意禁用图像改善功能。电视柜和受访者之间的最小距离为1.7米。

受 访 者

30名Elecard员工作为受访者参加了质量测试。其中60%是男性,40%是女性。未经培训的观察员与专家的比例为50%至50%。

研究结果

PSNR — 峰值信噪比。PSNR 确定压缩失真水平,并包括均方误差 (MSE) 计算。接受值的范围为 0 到 100。PSNR 使用分贝刻度表示为对数量。该值越高,压缩后视频序列中保留的细节就越多,因此质量越高。PSNR是一个众所周知的简单指标,不需要复杂的计算,然而,各种研究表明,指标值与生理人类感知之间的相关性较低[6]。

PSNR 在物理上客观地指示哪些测试视频具有更多保持不变的细节和更少的噪点。因此,PSNR 通常用于执行与选择最佳工作转码设置或优化和比较编码器/转码器相关的任务。它非常适合快速确定哪个编码器/转码器提供更高的编码质量,或者哪组编码器/转码器设置提供视频序列中剩余的更多详细信息。

视频质量PSNR 值
非常好38 或更多
35-38
公平33-35
30-33
30 以下

SSIM 是基于三个标准评估图像质量的指标:亮度,对比度和结构[7]。可能的值范围从 0 到 1,其中值越高,图像失真越低,质量越高。与PSNR相比,SSIM需要更多的计算资源。

SSIM是第一个最接近人类对图像感知的成功指标之一,这得到了各种研究测试的证实。因此,SSIM 用于评估感知质量,例如,验证流视频质量是否令人满意等。除PSNR外,还使用SSIM。

视频质量SSIM 值
非常好0,93 以上
0,88-0,93
公平0,84-0,88
0,78-0,84
Bad0,78 以下

VMAF 视频多方法评估融合 [8] 或视频多方法评估融合 [8] 是评估图像感知质量的指标。它于 2016 年发布,结合了几个不同的指标来估计视觉信息、附加失真和运动的准确性。VMAF算法是使用机器学习模型开发的。已经制作了几种模型,重点是不同的分辨率和与物体的距离(例如,在分析为移动电话编码的图像时),包括单独的“VMAF手机”模型。

VMAF显示了经研究证明的度量与人类对图像的感知之间的高度相关性。但是,指标计算是相当消耗资源的过程。VMAF 计算时间可以比 PSNR 计算时间高出 6-12 倍。

视频质量VMAF 值
非常好90 或更多
74-90
公平58-74
38-58
38 以下

VQM 是视频失真效果的度量。该指标与观众给出的主观评分的相关性存在很大争议。该算法对 DCT 余弦变换系数执行运算。值 0 对应于视频序列的完整标识和最高的视频质量。指标的值越高,差异越大,质量越差。

视频质量VQM 值
非常好0-1,23
1,23-1,74
公平1,74-2,3
2,33-3,03
3,03 以下

DELTA - 度量值反映了色度分量的差异。该指标用于测试编解码器和筛选器。DELTA在质量评估中的代表性较低,它更适合检测亮度差异的目的。对于 8 位视频序列,值范围为 -255 到 255,而指标值越高,差异越大。值 0 对应于视频序列的完整标识。

视频质量增量值
非常好0 - 0,144
0,144 - 0,236
公平0,236 - 0,3
0,3 - 0,369
0,369 以下

MSAD 的计算方式与 DELTA 相同,但有一个例外,即差值是绝对值(模数)。值 0 对应于视频序列的完整标识,而最大差值对应于 8 位视频序列的值 255。

视频质量MSAD 值
非常好0 - 2,05
2,05 - 2,67
公平2,67 - 3,22
3,22 - 3,96
3,96 or more

MSE 是衡量估计值与实际值(均方误差)之间的平均差值的最简单指标。值 0 表示视频序列完全相同,而最大差异对应于 8 位色深的值 65025。

视频质量MSE 值
非常好0 - 15,5
15,5 - 28,9
公平28,9 - 47,7
47,7 - 83,2
83,2 以上

NQI 是一个指标,旨在通过组合三个组件来评估视频质量:相关损失、亮度和对比度失真。值范围为 0 到 1。值越低,质量越差。

视频质量NQI 值
非常好0,43 以上
0,33 - 0,43
公平0,28 - 0,33
0,21 - 0,28
0 - 0,21

结论

应该注意的是,没有一个普遍适用的客观指标适合解决所有可能的视频质量估计挑战。任何指标的有效性及其与用户质量感知的相关性取决于视频内容的动态、压缩场景的复杂性以及参考视频序列的质量。研究材料的选择方式是为了确保指标值的解释与不同版本的视频流的质量相匹配。

所有这些指标都可以使用Elecard StreamEye Studio中包含的工具进行计算。

获得 StreamEye Studio 演示版

引用

  1. ITU-R BT.500-14 (10/2019) Recommendation. Techniques for the subjective assessment of TV image quality https://www.itu.int/dms_pubrec/itu-r/rec/bt/R-REC-BT.500-14-201910-I!!PDF-R.pdf 
  2. Xiph.org V视频测试媒体 https://media.xiph.org/video/derf/
  3. 3. 超视频组数据集 http://ultravideo.fi/#testsequences
  4. Elecard StreamEye Studio一组应用程序,用于在编码流中进行专业视频质量分析和错误检测,以进一步优化视频压缩并验证是否符合标准。
  5. Elecard Video Quality Estimator— 使用客观指标进行视频质量分析的专业应用程序
  6. Janusz Klink,  Tadeus Uhl “视频质量评估:对选定客观指标的一些评论” https://ieeexplore.ieee.org/document/9238303
  7. Zhou Wang, Alan Conrad Bovik, Hamid Rahim Sheikh, Eero P. Simoncelli “图像质量评估:从误差可见性到结构相似性” IEEE 图像处理学报,第 13 卷,第 4 期,2004 年 4 月
  8. 8. 迈向实用的感知视频质量指标,Netflix 技术博客 https://netflixtechblog.com/toward-a-practical-perceptual-video-quality-metric-653f208b9652

 

 


作者

Alexander Kruglov

Alexander Kruglov 是Elecard的首席工程师。自2018年以来,他一直从事视频分析工作。亚历山大负责支持Elecard的最大客户,如Netflix,思科,华特迪士尼工作室等。