通常,人既是语音的发送主体,也是语音的接收主体。
语音所具备的自然属性和社会属性决定了人对语音的感知涉及到语音信号的物理特征、听觉器官对语音的听觉表征及听觉心理等诸多方面,因此难以对语音质量这个概念做出全面、精确的定义。
一般说来,语音质量至少包括三个方面内容:清晰度、可懂度和自然度。
清晰度是指语音中语言单元为意义不连贯的(如音素、声母、韵母等)单元的清晰程度;可懂度是指语音中有意义的语言单元(如单词、单句等)内容的可识别程度;自然度则与语音的保真性密切相关。
目前对语音可懂度、清晰度的主观评测己有国际和国内标准,对语音自然度还缺乏公认的评价准则。
语音质量受到个人区别、可理解性、语音特征、周围环境、背景噪声传输、网络状况和人的期望等复杂的因素影响.用于评价输出语音质量的方法分为主观评价和客观评价两种1 主观评价法主观评价方法以人为主体在某种预设原则的基础上对语音的质量作出主观的等级意见或者作出某种比较结果,它反映听评者对语音质量好坏的主观印象。
不同的主观评价方法对语音质量考察的侧重点不同,常见的主观评价方法有平均意见分(Mean Opinion Score,MOS)方法、判断韵字测试(Diagnostic Rhyme Test,DRT)方法、失真平均意见分(Degradation Mean Opinion Score,DMOS)、判断满意度测试(Dignostic Acceptability Measure,DAM)方法和汉语清晰度测试。
ITU-T推荐用于传输性能的主观评价有以下几种[14]:1.绝对等级评价(Absolute Category Rating,ACR)ACR主要通过平均意见分(MOS)对音质进行主观评价。
这种情况下没有参考语音,听音人只听失真语音,然后对该语音作出1-5分的评价。
ACR评价方法不需要参考音,比较灵活,然而由于人对不同声音的喜好不同,这种灵活性会导致一定的不公平性。
2.失真等级评价(Degradation Category Rating,DCR)DCR主要通过失真平均意见分(DMOS)来实现音质的主观评价。
这种评价方法要求听音人在给失真语音打分前,先熟悉原始语音(参考语音),再将失真语音与原始语音的差异按一定标准来描述。
DCR常用于评价诸如汽车噪声、街道噪声或其他说话人干扰等为背景噪声情况下的音质。
噪声的类型和数量将直接影响评定的失真等级。
3.相对等级评价(Comparison Category Rating,CCR)CCR方法主要采用相对平均意见分(CMOS)对音质进行主观评价。
CCR类似于DCR,不同的是,在CCR方法中,原始语音和失真语音的播放次序是随机的,听音人不知道哪是原始音、哪是失真音。
听音人只是在上一个音的基础上,评定出当前音相对于上一音的好坏。
CCR方法允许对处理后语音(失真语音)的评价高于原始音的评价,因此,它可以用来评价具有噪声抑制和语音增强功能的编码器,也可以用来比较两种未知编码器的性能优劣。
MOS得分方法是由CCITT推荐的主观评价方法,现已广泛作为不同系统之间的MOS评分中质量优表示重建语音和原始语音只有很少的细节差异,且若不进行对照听比就觉察不出这种差异质量良表示重建语音的畸变或失真不明显,不注意听感觉不到;质量一般表示重建语音有比较明显可感知的畸变成失真,但语音自然度和清晰度仍很好,且听起来没有疲劳感;质量差表示重建语音有较强的畸变或失真,听起来已有疲劳感;质量极差表示重建语音的质量极差,听觉无法忍受。
在数字语音通信中,通常认为MOS分为4.04.5为高质量数字化语音,达到长途电话网的质量要求,接近于透明信道编码,也常称之为网络质量。
MOS分为3.5分左右称为通信质量,这时能感到重建话音质量有所下降,但不妨碍正常通话,可以满足多数语音通信系统使用要求。
MOS分3.0以下常称为合成语音质量,指一些声码器合成的语音所能达到的质量。
它虽然有较高的可懂度,但自然度较差MOS得分法的优点是:由于编码系统的质量是按数值大小等级排列,所以不同失真类型的编码系统就可以相互比较;评测者只需实现进行简单训练,就可直接参与评测,因而容易完成.其缺点是:它把不同种类的失真混为一谈,没有指出失真的原因,不利于算法的改进。
另外,测试条件的选择及其他一些因素会影响MOS方法的结果判断韵字测试(DRT)判断韵字测试是反映语音清晰度或可懂度的一种测试方法,它主要用于低速率语音编码的质量测试,因为这时可懂度已成为主要问题。
这种测试方法使用若干对(通常是96对)同韵母进行测试,例如中文的“为”和“费”,英文的’fast’和’vast’等。
让受试者每次听到一对韵字中的某个音,然后让他判断所听到的音是哪一个字,全体实验者判断正确的百分比就是DRT得分,通常认为DRT为95%以上时清晰度为优,85%-94%为良,75%-84%为中,65%-75%为差而65%以下为不可接受。
在实际通话中,清晰度为50%时,整句的可懂度大约为80%,这是因为整句中具有较高的冗余度,即使个别字听不清楚,人们也能理解整句话的意思。
当清晰度为90%时,整句话的可懂度已接近100%,所以对于低速率语音编码,一般要求其清晰度能达到90%或以上诊断满意度测量(Diagnostic Acceptability Measure)DAM是对语音质量的综全评估,它是在多种条件下对话音质量的接受程度的一种度量。
这种评分体系相当全面,也相当复杂主观评价的优点在于直接、易于理解,真实反映语音质量的实际情况。
然而,主观评价不但对听评条件、听评流程有严格要求,为了避免个别听评者的感知偏差,还需要对大量的听评者的评价结果做统计,因此主观评价费时费力,成本高,灵活性差,重复性不好,难以应用于实时性场合。
2 客观评价法音质的客观评价是指用机器自动判别语音质量,按是否需要使用输入语音的角度可分为两类:基于输入—输出方式的客观评价和基于输出方式的客观评价。
基于输入—输出的客观评价比较输出和输入语音之间的差异(失真)程度,将差异量值作为语音质量的衡量依据;基于输出的客观评价则仅由输出语音就可对语音的质量做出评估。
在应用中,输入语音也常称为原始语音或者参考语音,通过系统的输出语音常称为失真语音。
以往的音质客观评价研究大多集中于输入—输出方式,随着技术发展、对通信服务质量的关注等,基于输出的音质评价技术正得到越来越多的关注。
客观评价不受人为主观因素的影响,成本低廉,灵活性好,效率高,具有可重复性,且可实时使用,例如对VoIP网络中语音传输质量的实时监控和用于指导系统中设备参数调整等。
尽管科学家对人类的感官感知和神经信息处理机制做了大量的研究并取得一定的成果,但人们对人类感知的机理和大脑活动的运作方法仍处在一知半解的初级阶段,因此我们还无法建立一个能完全模仿人类音质感知过程的客观评价系统,只能根据所获得的信息作出尽可能正确的评价,所建立的客观评价系统也与人类所具有的感知评价能力相差甚远。
因此,客观评价并不能完全取代主观评价。
在实际应用中,通常将主观评价和客观评价结合使用。
客观评价常用于系统的设计、调整以及现场实时监控阶段,主观评价作为实际效果的最终检验,两者相辅相成,用于不同的场合。
其次,客观评价系统的优劣取决于由它得到的客观评价结果与主观评价结果是否具有统计意义上高相关性以及小的偏差,因此客观评价系统的设计必须以主观评价为基础,并借鉴主观评价主体的感知功能和智能特性。
合格的客观评价系统可在一定使用范围内中代替主观评价对语音质量做出基本正确的判断。
3 客观评价原理基于输入—输出的客观评价是在信号特征表示的基础上对失真语音和原始语音进行比较。
下图为基于输入—输出的客观评价的模块原理图,从流程上分为预处理、语音信号特征提取、客观失真量计算和质量等级映射四大模块。
原始语音失真语音通信系统预处理预处理特征提取特征提取客观失真量计算映射模块预处理包括输入—输出语音信号的同步处理、电平规整、分帧等处理步骤。
同步处理是为了保证所比较的输入和输出语音单元之间有正确的对应关系,否则将对客观评价结果产生巨大的偏差;为了消除语音信号幅度差异对主观听觉的影响,必须通过电平规整保证输入和输出语音的声压级基本相同;虽然语音是时变的非平稳信号,但是在一个短时间范围内(1Oms-30ms),其特性相对稳定,因此可以将连续语音信号分割为短时间范围的时间片序列以便于后续的特征参数分析。
这样,对于整体的语音信号,通过预处理环节后,语音信号被分割为以帧为单位、加窗处理过的短时信号。
语音信号分析是语音信号处理的前提和基础,分析的目的是提取需要的信息,获取特征表示参数。
曾有语音处理专家在论文中表示:语音信号的表示是人类近代科学研究中很少碰到的难题之一[18]。
虽然语音信号是一维波形信号,但仅从时域上描述其特性是远远不够的,特别是在音质评价中,两个时域波形差别很大的语音信号的主观音质感觉可能基本相同,因此需要使用频域分析及其它信号分析方法表示语音信号的特征。
对于语音帧序列,语音信号特征提取模块使用适当的分析方法,得到表示语音信号的特征参数。
特征参数对音质评价效果有极其重要的影响,音质评价的特殊性对所使用的语音特征参数有着独特的要求。
客观失真量计算模块用于计算失真量。
所谓失真量是指原始语音和输出语音特征参数之间的总体差异量,该量值反映语音通过系统后的质量变化,即输出语音对于原始语音的失真程度。
由于尚不清楚人类听觉系统、感知神经系统以及大脑思维在判断语音质量过程中的相互作用,无法建立人类感知语音失真程度的真,范数形式计算客观失真量。
实数学模型,因此常采用Lp为了与主观评价等级一致,通常将客观评价所得到的失真量映射为主观评价的尺度表示,如MOS的5级表示,映射模块即完成此功能。
映射模块可按二次或者三次多项式函数拟合形式建立客观失真量与主观等级分之间的对应关系。
使用基于输入—输出的客观评价时要求原始语音和失真语音之间做到严格同步,而在实际应用中,严格同步的要求并不容易得到满足,同时在某些应用场合中难以或者不便于采集到原始语音材料,这就要求发展基于输出语音的客观评价方法。
基于输出的客观评价方法仅对输出语音进行处理,因此在预处理中不再需要端点同步处理步骤,其他处理模块的功能等同于基于输入—输出的客观评价方法,但在模块具体实现中,如特征提取等,必须使用适合基于输出评价方式的方法和技术手段。
下图为基于输出方式的客观评价的模块原理图。
原始语音失真语音通信系统预处理特征提取客观失真量计算映射模块。