当前位置:文档之家› 高清晰度电视图像质量的主观评价方法

高清晰度电视图像质量的主观评价方法

高清晰度电视图像质量的主观评价方法
李若霜
本文作者李若霜女士,国家广播电影电视总局广播科学研究院高级工程师。

一前言
近年来,随着微电子、大规模集成电路技术的迅速发展和图像压缩技术的不断进步,在电视广播领域正在发生由模拟向数字、由标准清晰度电视(SDTV)向高清晰度电视(HDTV)过渡的一场变革。

由于数字传输高新技术的应用,不仅使以往只能传送一套模拟电视节目的常规电视通道可以传送多套SDTV或一套HDTV节目,使有限的频高清晰度电视图像质量的主观评价方法节目质量也有很大改善,同时也为提供多种节目形式创造了有利条件。

因此,数字电视广播具有很好的发展前景。

HDTV由于具有清晰度高、画面尺寸大、幅形宽、色彩鲜艳和临场感强等特点,其图像质量可与35mm电影相媲美,因此它是当前数字电视最高级的业务形式。

预计HDTV广播将成为下世纪的主要传媒。

为实现在一个常规电视通道带宽内传送信息量相当于4~5倍SDTV信息量的HDTV节目,数字HDTV系统主要环节采用了与常规模拟电视系统完全不同的电路技术,即图像压缩的信源编码技术和纠错保护的信道编码及高数码率的调制技术等。

由此可能引入的失真机理和表现,与常规电视也有很大差别。

所以,传统模拟电视的评价测量方法及测试图像和信号,已经不能完全或正确反映观众对数字电视特有失真的主观感觉。

迄今为止,由于有效的测试信号和测量方法尚在研究和发展中,而系统性能的优劣最终要靠图像的主观质量来判定,因此,主观评价是当前数字电视最有效的检测方法。

二主观评价的一般要求
主观评价是直接利用观察者对被测系统图像的主观反应来确定系统性能的一种测试。

主观评价通常包括两种类型:一种是在最佳(即理想收看)条件下确定系统的性能,一般称质量评价;另一种是在非最佳条件下,即结合发送和传输条件确定系统保持质量性能的评价,一般称损伤评价。

主观评价的关键在于所使用的方法能否产生稳定、有效的结果。

因此,采用合适的评价方法和测试图像对系统进行有效的评价,非常重要。

由于主观评价结果不仅与被测系统的性能有关,而且与评价观看条件、信号源、测试图像、观看员、评分方法和评分标度、数据统计方法和结果表达方式等因素有关。

为使评价结果的可变因素仅限于被测系统的性能,在主观评价中必须对上述因素作严格的规定。

1. 观看条件
由于图像的主观质量与图像大小、亮度、对比度和观看距离等有关,因此,主观评价的观看条件中规定了评价用显示器的显示尺寸、峰值亮度、对比度和环境照明,以及观看距离和观看位置等。

根据HDTV的特点,主观评价应该在表1给出的观看条件下进行。

2. 评价实验系统
主观评价系统原理方框图如图1所示。

评价观看员从评价监视器上看到的是经过定时开关给出的图像。

到定时开关的图像信号或直接来自信号源的输出,或是经过被测系统的输出,也可以是来自灰场信号发生器。

3. 信号源
信号源一方面直接提供评价的基准图像信号,另一方面作为被测系统的输入。

对于所使用的电视标准,信号源(包括评价用监视器)应该具有最佳的质量,因为基准图像无缺陷是获得稳定结果的关键。

4. 测试图像
测试图像是主观评价的基础,它对评价结果有重大影响,因此,选择合适的
测试图像素材是至关重要的。

为了全面评价数字HDTV系统的性能,需要建立一套HDTV主观评价标准测试图像。

一套测试图像通常包含一定数目的静止图像和含运动物体的图像序列,每个序列大约持续10~15s。

选择测试素材的一般准则认为,测试素材应该是“严格的,但又不过份”。

判断什么是严格的,需要全面了解HDTV系统是如何工作的以及所提供业务的要求;“不过份”即意味着可以包含正常的HDTV节目内容。

因此,HDTV主观评价测试图像不仅应该包括对各种评价因素,如静态空间分辨率、动态空间分辨率、亮度、色彩以及运动等再现具有比较敏感特点的那些图像素材,同时还应包含能代表正常节目的内容。

5. 观看员
观看员即应邀参加主观评价的评分员。

观看员一般分专业和非专业两类。

一般都由非专业观看员进行主观评价,当需要作精确判断时,可由受过专业训练的专业观看员进行评价和分析。

由于观看员直接影响评分结果,因此,对于非专业观看员应该慎重挑选。

通常他们应该具有代表性,包括不同性别、年龄、文化层次的观众;具有正常的视力(含校正视力)和色觉;有一定的分析判断能力,能较快地接受和掌握评分方法和要求。

主观评价所需观看员的数目一般不少于15人,在数据处理结果中要说明观看员的类型和人数。

6. 评价测试阶段
在每个测试阶段开始时,应该向观看员详细、正确地介绍评分方法和评分标度、存在的质量因素或损伤类型,并进行评分示范。

示范显示应该使用正式测试的图像或序列以外的图像或序列,但应与正式测试中使用的图像或序列具有可比性。

一个测试阶段(包括示范说明在内)一般不超过30min。

在正式测试开始前需要引入3~5个“样本显示”来稳定观看员的判断力,其结果数据不纳入测试结果的统计中。

从一个显示评分到下一个显示评分均匀地进行。

为了检测相关性,有些测试可以重复进行,但要避免相同测试图像相继出现。

测试阶段的显示流程如图2所示。

7. 数据处理和结果表达
对于在评价中采集的大量评分数据,需要根据统计学的基本理论和技术进行处理,得出以图形或数据的结果形式概括被测系统的性能,给出每个测试图像评分统计分布的平均值和95%置信区间。

平均分U =∑=N i i u
N 11
标准偏差S =∑=−−N
i i N u U 12
)1()( 置信度区间为[U -δ, U+δ]
其中:δ= 1.96N S
u i ——观看员i 的评分
N ——观看员的数目
结果还必须包含以下信息:
a. 测试条件的情况
b. 测试图像的情况
c. 图像源类型和显示监视器型号
d. 观看员的人数和类型
e. 使用的基准图像
f. 测试的总平均分
三 评分方法和评分标度
实验心理学的传统结果表明,当测试感觉时,相对判断比绝对判断更加稳定、准确。

在国际电联(ITU-R)BT.500建议的众多评价方法中,由于双刺激方法采用了基准图像,其结果比单刺激方法具有更高的灵敏度和稳定性,特别适合于对高
质量电视系统或设备性能的主观评价。

因此,在ITU-R BT.710 (HDTV图像质量的主观评价方法)建议将双刺激连续质量标度法和双刺激损伤标度法作为HDTV 图像质量和发射系统损伤的主观评价方法,并分别以HDTV演播室图像和未损伤的发射图像作基准。

1. 双刺激连续质量标度法
在双刺激连续质量标度方法(DSCQS)中,需要对每个测试图像的两种状态进行评分。

其中一个是来自信号源的图像,即基准图像;另一个可能是经过被测系统输出的图像,即被测图像。

基准和被测图像交替显示两次或多次之后进行评分。

不同测试图像的一连串显示评分过程中,基准和被测图像呈现的先后次序以伪随机方式变动(观看员事先并不知道哪一个是基准图像),要求观看员只简单地对每对图像的总体质量进行评分,并在评分表上作出标记。

评分表由若干对纵向标度线组成,以适应对每个测试图像两种状态的评分。

为避免量化误差,标度线提供连续标度,且被分成5个等级,相当于标准的5级质量标度范围。

在表的左边标有与不同等级相对应的质量术语,即优、良、中、差、劣作为观看员评分的一般指导,如图3所示。

2. 双刺激损伤标度法
在双刺激损伤标度方法(DSIS)中,首先显示来自信号源无损伤的图像,即基准图像;然后显示可能是经过被测系统输出的图像,即被测图像。

基准和被测图像交替显示一次或两次之后,要求观看员根据无损伤的基准图像,对被测图像质量的受损情况进行评分,并在评分表上作出标记。

在被测图像或序列中也包括无损伤的图像或序列。

双刺激损伤标度方法使用5级损伤评分标度。

其评分等级和对应的损伤术语如表2所示,要求观看员根据被测图像质量的受损情况,选用适当的评分等级评分。

四结束语
虽说主观评价是当前数字电视最有效的检测方法,但是,从上述评价方法及
基本要求我们不难看出,进行主观评价不仅要具备严格的观看条件和组织一定数量的观看员参加评分,而且整个进行过程及大量的评分数据统计需要耗费大量的时间和人力。

因此,我们在研究数字视频压缩质量主观评价的同时,希望通过研究建立起与主观质量损伤相关的客观测量,以便在主观条件不具备时,能借助测量仪器获得定量的物理参数值表达系统的性能。

所以,如何利用从观察者易于觉察的视频压缩损伤中提出对应的一组性能参数,以及如何与主观评价结果相结合来设计客观测量系统,并且通过客观测量来优化视频压缩系统的设计,是当前数字电视测试领域重要的研究课题。

从泰克公司1997(11月)测量技术研讨会上获悉,该公司和Sarnoff研究所已经联合开发出一种具有人眼视觉模型的测量仪器——PQA200图像质量分析仪。

据说这种仪器可替代主观评价,并能重复、定量地度量压缩图像的差异和损伤,这正是我们测试工作者所期望实现的测试手段。

(全文完)
来源:《世界广播电视》
出版日期:1998年9月。

相关主题