【技术文章】

图像质量的测量方法
张琦
本文作者张琦女士,北京广播学院教授
关键词:主观评价 客观测量 块结构 相关系数 质量模型
一 前言
  在数字电视信号的存储和传输中,通常采用压缩技术,压缩率较高时经过解压后的图像质量都有所下降,下降的程度与编码方法、压缩率及图像内容有关。
  现在,相对准确的图像质量评价和测试方法是主观评价,但是人力和物力投入大,为时较长,并且会发生主观上的差错,更不能进行实时监测。而现在的节目传输及编解码设备检验和调试都要求快速、简便的实时测量方法。
  1997年后,图像质量客观测量方法和仪器问世,不仅减少了对人力、物力的需求,而且测量时间大大缩短,其结果与主观评价较吻合,甚至可做到实时监测。
二 电视系统的测量
  现在的电视系统由模拟部分、全带宽不压缩数字部分和数据压缩的数字部分组成。
  模拟信号的测量技术经过多年考验,成熟可靠。在电视图像信号中插入测试行信号,对整个系统的各个部分都能进行可靠的监测。全带宽不压缩数字信号测量技术也不再有新的挑战,但是在数字系统中对数据协议的检验更为重要。
  电视系统的测试分为检查信号波形、检查捆绑在数字和数据流中的协议、检查传输通路的质量和检查图像质量。
  1. 信号波形检查
  对于模拟系统,视频信号波形的检查无疑是关键部分。信号电平、波形失真、噪声等都是要检查的内容。
  对非压缩数字系统,信号波形检查包括D/A变换后的模拟信号质量。此外,还可选用眼图直接监测数字信号波形,分析信号结构,检查同步定时信息、抖动,用特定信号检查时钟提取是否可靠等。这主要是检查接口协议是否符合规定。检查要有相应的示波器、波形监视器和视频测量平台。
  2. 协议检查
  在数据压缩系统中通常用传输流的形式传送视音频信号,并插入子标题、识别信息、图文数据等。对压缩系统的测试,协议分析是主要的,在MPEG-2系统中必须保证遵守传输协议。
  3. 传输通路的检查
  传输通路的质量检查也包含波形检查。噪声和波形失真也是模拟传输通路的主要参数。在非压缩数字系统内,通路检查包括:眼图分析(开口度、上升和下降时间)、抖动、反射损耗和负荷能力测量。这些测量可以确定当前系统的工作状态离数字“峭壁”(崩溃点)还有多远。
  在压缩数字系统内对传输通路的检查与非压缩数字系统相似,要求系统提供无失真的传输环境,可以检查传输通路的工作边界状态(所允许的最高工作频率或最大电缆长度),而不必测量误码率。
  从安全和稳定性考虑,还应测量电磁辐射量和外界辐射干扰容限。
  4. 图像质量评价
  模拟系统利用场逆程插入测试行信号,在所测量的信号波形上确定一组k系数,从中计算出一个代表传输质量的k系数;测量波形的非线性、亮度和色度的延时差。以上参数能代表图像质量。
  非压缩数字系统是一个透明的传输系统,图像质量无损伤。
  压缩系统建立在满足人眼最低要求的基础上。MPEG-2压缩编码基于DCT变换,存在的问题是:可见的块结构;景物纹理丢失;可见的GOP结构。典型表现是:半秒一次的图像“颤动”;DCT结构的可见性;在运动场景中快速移动区域的碎裂。
三 视频压缩可能引起的图像质量损伤
  为了降低视频数据存储和传输的要求,视频素材经过压缩处理而使信号发生变化,而且有些变化是不可逆的。几乎所有压缩编码都采用了DCT变换和DCT系数量化。其中,量化处理就是不可逆的。
  另外,压缩数据在传输过程中会产生误差(也许不可校正),或者编、解码器或复用、解复用等中间电路发生功能错误,都会使解码后的图像质量下降。
  1. 编码引起的质量下降
  MPEG视频编码的影响与所选数据率、编码算法和编码素材本身的特性有关。当数据率为2Mb/s时,图像的细节结构与原始图像有显著差别。由于DCT变换按块进行,每个像块又是单独编码,变换后又对DCT系数进行非线性量化。量化结果按四舍五入的原则进行取舍,对接近零的高频系数都定为零,这使大部分系数受到限制,并使许多细节从块中消失,许多图像块的内容仅由几个低频DCT图案组成。这样会导致直流和低频流系数越过相邻量化级的判决门限,使相邻块的平均亮度差别加大,在块边界造成亮度突变,使重构图像上出现明显的块结构。在块边界出现的信号跳变,破坏了图像边缘的连续性,这些跳变产生有规律的几何排列,使重构图像边缘呈锯齿状。块结构和锯齿状都是重构图像的噪声。这两种噪声见图1。
  编码引起图像变化的另一原因是时间预测,是在P帧和B帧编码引入的。
  用于预测的图像内容来自经编码又解码的I帧或P帧(参考帧);其图像变化又在预测图像中重复。参考帧中的块边界信号跳变又在预测图像的块上出现,使P帧和B帧的块效应更加严重。
  2. 编码信号通过传输引起的图像质量下降
  压缩编码的视频信号经过传输后可能会透明地到达解码器。DVB标准规定了有效的误差校正,在出现传输误差时一般都能重建原始图像。但是在不利的传输条件下也有可能没有完全纠正比特误差,这时重构图像质量还会下降。
  受复杂的MPEG视频流句法限制,在数据流中一个比特误差可能有非常不同的影响。几个不重要的比特改变,对解码过程几乎没有影响。但在DCT系数或运动矢量中的一个比特误差可能引起大面积的可见错误。由于采用了可变长编码,所以一个比特错误会使后面一系列信息失去作用。传输误差引起的图像干扰受编码方法约束,大多数都遵循编码的块结构,可能出现的干扰形式如下:块上重叠附加的DCT基本图案;块内填充个别的DCT基本图案;块推移。
在数据流受到很大干扰时,可能会中断一个图像的全部或一部分、或多个图像的解码。在这种情况下,解码器会重复给出图像存储器中的内容,也可能得一个正确的解码图像,或得到一个多次显示的残缺图像的组合。
四 主观评价和客观测量
  对于数据压缩视频信号的传输通路的测量,传统的测试行技术已经不再适用。现在最可信的图像质量测量方法是主观评价。但是主观评价方法复杂,对评价分数处理计算后才能获得测量结果。
  客观测量方法速度快,甚至可以实时监测,测量结果可重复。但是其测量结果必须与主观评价结果相符合。目前用于对机顶盒生产、MPEG设备比较和传输通路质量监测已能满足要求,能够对以下内容进行测量:怎样比较MPEG编解码器的质量?比特率增加时,图像质量提高多少?两个或多个相同或不同型号的编解码器级联使用时有什么后果?DVB广播质量的实时监测。
  图像质量评价方法主要有:
  1. 主观评价法
  主观评价时,将待评价的素材序列播放给评论者观看,并记录他们的打分,然后对所有评论者的打分进行统计,得出平均分(MOS)作为评价结果。国际电信联盟(ITU)在主观评价方面制定了两种标准方法(见ITU-R BT.500-7):
  (1)双刺激连续质量等级法(DSCQS)。将已处理的图像序列和相应的基准图像序列交替播放给评论者看,每个图像持续10s(典型时间),按此播放顺序在处理图像的前后都有一个直接的质量比较。每个图像之后有2s灰画面间隔,可在此期间打分。对每个序列给一个平均分作为测试值。
  (2)单刺激连续质量评价方法(SSCQE)。这种方法只把被评价的序列播放给评论者看。评价时间长达30min,评论者在观看的同时通过调节一个滑板的位置给出评分。计算机每秒钟扫描滑板2次。
  2. 客观测试法
  客观测试方法由ITU-R视频质量专家组(ITU-R VQEG)推荐。VQEG规定了两个简单的技术参数:峰值信噪比(PSNR)和均方差(MSE)。此外,还有许多图像质量模型,这些模型在测量图像质量时都基于人眼视觉特性。现有两种典型图像质量模型。
  (1)基于解码图像与基准图像差值的质量模型。如图2所示,该模型的输入是原始信号和待测的解码信号,输出是两个输入图像上各象素幅值之差的和。在整个处理过程中考虑了人眼对图像差别的主观感觉特性,以使测量结果与主观评价所得结果相吻合。模型中的估算考虑了人眼的非线性、视觉滤波器、人眼的屏敝效应、差值求和。为了使客观测量与主观评价结果一致,还要使最后所得的数值范围和等级描述与主观测试相对应,对客观测量的数值进行线性转换。这个任务在与主观评价匹配这一级完成。
  (2)块效应统计指示模型(SBI)。其特点是:只要输入需编解码处理的图像信号,即可测得图像质量。分析编解码的图像内容可知,通过MPEG编码,在各编码块内的图像内容一般都被简化了,相邻像点的幅值差别减小了,高频损失了。相反,跨越块边界的相邻像点的幅值差别统计增大。当这个现象不明显时,表现为清晰度损失;反之,表现出成块。SBI模型利用这种现象,分别计算块内相邻象素间幅度差的平均值(AD)和块边界各相邻象素间幅度差的平均值,计算方法如图3所示。
  对原始图像计算结果是块内和块边界的AD几乎相同;对压缩编码又解码的图像计算结果是,块内的AD减小(高频损失),宏块边界和块边界的AD明显增大。压缩率越高,块边界的AD与块内的AD差别越大。这个差别可作为评价图像质量的尺度。
  在该模型的计算中同样要考虑人眼的视觉特性。为了使上述计算值与主观评价值匹配,最后通过线性换算产生一个与主观评价尺度匹配的客观质量尺度范围。在计算中还要模仿在主观评价时观看者的反映时间影响,通常用一个平滑滤波器与人眼的延时匹配。对标准测试图像序列“花园”,数据率为2Mb/s的MPEG-2编解码信号计算结果为:14个块内AD(i)的值几乎相同,但绝对值比原始图像的降低了1~2个增量,对于8b量化,最大增量为235-15= 220。宏块边界的AD(0)和块边界的AD(8)增量接近5。两个边界AD值与14个块内AD平均值之差达6~7,图像质量损伤较大。对25帧长图像序列的测量结果表明:图像质量随时间变化较大,这种变化与编码的GOP结构及帧类型I、P、B有关。
实验证明,此模型给出的测量结果与主观测量结果较匹配,而且不需要基准图像,计算速度可达到实时测量要求。它适合于传输系统的监测和生产有关设备时进行图像质量预测。
五 结束语
  研究证明客观质量测试与主观评价结果的相关系数已达到90%左右。这表明:客观质量估算完全能提供一个相对简单的质量尺度,能很好地预测主观评价的图像质量。另外,客观测试模型的质量尺度比经常使用的MSE和PSNR尺度要准确得多(一般MSE的相关性为r=0.8039;PSNR的相关性为r=0.6141),但在客观图像质量测量方面仍需进行一些研究,以使客观测量结果达到与主观评价结果同样的可信度
 
  来源:《世界广播电视》