当前位置:文档之家› 语音信号特征参数提取方法

语音信号特征参数提取方法

语音信号特征参数提取方法阮雄飞微电子学与固体电子学摘要:在语音技术的发展过程中使用了大量的语音信号特征参数, 好的语音信号特征参数能对语音识别起至关重要的作用。

本文对语音信号特征参数提取方法以及国内外研究现状进行了介绍,最后介绍了Hilbert-Huang 这一新兴理论成果以及在特征提取中的应用。

关键词:语音技术特征提取HHT1 引言语音信号是一种短时平稳信号,即时变的,十分复杂,携带很多有用的信息,这些信息包括语义、个人特征等,其特征参数的准确性和唯一性将直接影响语音识别率的高低,并且这也是语音识别的基础[1]。

特征参数应该能够比较准确地表达语音信号的特征具有一定的唯一性。

上世纪40年代,potter等人提出了“visiblespeech”的概念,指出语谱图对语音信号有很强的描述能力,并且试着用语谱信息进行语音识别,这就形成了最早的语音特征,直到现在仍有很多的人用语谱特征来进行语音识别[2]。

后来,人们发现利用语音信号的时域特征可以从语音波形中提取某些反映语音特性的参数,比如:幅度、短时帧平均能量、短时帧过零率、短时自相关系数、平均幅度差函数等。

这些参数不但能减小模板数目运算量及存储量而且还可以滤除语音信号中无用的冗余信息。

语音信号特征参数是分帧提取的, 每帧特征参数一般构成一个矢量, 所以语音信号特征是一个矢量序列。

我们将语音信号切成一帧一帧, 每帧大小大约是20-30ms。

帧太大就不能得到语音信号随时间变化的特性, 帧太小就不能提取出语音信号的特征, 每帧语音信号中包含数个语音信号的基本周期。

有时希望相邻帧之间的变化不是太大, 帧之间就要有重叠, 帧叠往往是帧长的1/2或1/3。

帧叠大, 相应的计算量也大[3]。

随着语音识别技术的不断发展时域特征参数的种种不足逐渐暴露出来,如这些特征参数缺乏较好稳定性且区分能力不好。

于是频域参数开始作为语音信号的特征比如频谱共振峰等。

经典的特征提取方法主要有LPCC(线性预测倒谱系数)、MFCC(美尔频率倒谱系数)、HMM(隐马尔科夫模型)、DTW(动态时间规整)等。

2 语音信号特征参数提取方法对语音信号的大量分析表明,语音信号中包含着持续的准谐波成分和瞬变的迁越成分[4],即语音信号是一种多分量、非线性、非平稳信号。

诸如声门、声道以及辐射等影响因素很多,使得语音信号特征参数的准确提取和修正较为困难。

这就需要一种精确的时频表示方法[5,6],来准确表现语音信号的各种特征。

传统的语音信号处理都是基于语音信号的两个基本假设[7],即人的发声系统是线性的及语音信号是短时平稳的。

这两个假定导出了各种“短时”处理方法,如:短时傅里叶变换、倒谱分析和线性预测分析等。

这些“短时”处理方法虽然引入了时频局部化思想,但它们的“短时窗口”大小是固定不变的[8],不能敏感地反映信号的突变,从而忽略了语音信号的时变特征,所以提取出来的参数往往不够精确。

随着小波分析理论[9]的发展,小波分析也逐渐应用于语音信号的分析和处理。

虽然小波分析具有可调的时频窗口,但是也存在一定的局限性,主要表现在以下几个方面[9,10]:⑴难以选择的小波基。

在小波分析中,可以根据不同的要求构造不同的小波基。

但是对某一信号,依据什么原则、用什么判据选择小波基在理论上和实际应用中还是一个难点。

⑵固定的基函数。

小波基一旦选定就不能再更改,而小波基的选择往往是根据特定的语音信号特征,所以它不具有自适应性。

⑶恒定的多分辨率。

小波变换的多尺度特性使小波具有“数学显微镜”的特性和多分辨率分析功能。

然而,一旦选择了小波基函数和变换尺度,分辨率的大小也就确定了,并不会随信号的改变而改变,因此小波变换可以实现多分辨率分析,但其分辨率是恒定的。

LPCC是基于声道模型,它是目前应用最多的一种倒谱特征提取方法。

线性预测系数LPC用线性预测法分析语音信号相邻样值之间的关系,得到一组相关的参数。

由此语音特派生的声学特征还有线谱对LSP、PARCOR系数(反射系数)、对数面积比系数等。

LPCC为LPC的倒谱参数,它的原理和计算都较为简单,容易实现。

算的快速有效使得现在的很多商用化的语音识别系统都是用LPCC作为特征提取方法的。

基于人类听觉模型的MFCC,它所采用的mel频率是人耳听到声音的高低和实际频率的非线性映射得到的一个频率尺度。

MFCC是继LPCC之后语音识别领域中又一大创新理论,计算过程如图1。

相比于LPCC 它的识别性能有明显的改进,只是算量大于LPCC,用C语言在算机上做模拟时其运算时间是LPCC的近十倍。

由于它是一种基于听觉模型的特征提取方法,在有信道噪声和频谱失真的情况下, 仍具有较高的识别精度,特别是对噪声情况下的识别具有定的鲁棒性。

更随着 DSP 技术的发展以及它对FFT 算的支持,使得MFCC 的参数提取速度也很快。

结合LPC 与MFC 的后来提出的一种特征提取的方法PLP (感知线性预测参数),用 durbin 法计算LPC 参数,而在算自相关时用类似MFC 的方法。

PLP 性能类似MFCC ,甚至在某些特征提取结果上要好于MFCC [11]。

王彪[12]提出了一种改进的语音信号特征参数提取算法,即在MFCC 参数的基础上加入了语音信号的短时能量和短时平均过零率信息,结果如表1,说明此改进的MFCC 方法是有效的。

图1 MFCC 计算过程1998年,由美籍华人黄锷(N.E.Huang)等人提出的 Hilbert-Huang 变换(Hilbert-Huang Transform,HHT)[13,14]具有精确的时频表示,它不仅适合于非平稳信号也适合于非线性信号。

它通过经验模态分解(Empirical Mode Decomposition, EMD)把信号分解成一族固有模态函数 (intrinsic mode function ,IMF),然后将每个固有模态函数与它的 Hilbert 变换构成一个复解析函数,并由此导出作为时域函数的瞬时幅度(能量) 和瞬时频率,从而给出被分析信号幅度(能量) 的时间-频率分布,称为信号的Hilbert 谱( Hilbert spectrum)。

这种Hilbert 谱具有精确的时频表示[15]。

3 语音特征提取的研究现状概述3.1 基音检测和共振峰提取研究现状概述语音信号的特征参数[7]主要指的是语音信号的基音频率和共振峰频率,语音特征参数的提取也主要是指语音信号的基音检测和共振峰提取。

(一) 基音检测预处理加窗 离散余弦变换傅里叶变换 滤波器组能量语音输入 x(n) X(m) Θ(M k ) MFCC 输出自从进行语音分析研究以来,基音检测一直是一个重点研究的问题,很多方法已被提出,然而这些方法都有它们的局限性。

迄今为止,尚未找到一个完善的可以适用于不同说话人、不同环境要求的基音检测方法。

其原因主要有以下几个方面[16]:(a)基音周期受声道易变性、说话人的情感、声调等因素的影响;(b)基音周期变化范围很大;(c)受说话人的发音习惯的影响。

基音周期的提取方法一般可以分为两个大类[17]:基于分段的方法和基于事件的方法。

基于分段的提取方法一般都先将语音信号分成长度一定的语音帧,然后对每一帧语音数据求取平均基音周期。

这些方法主要有:⑴自相关法;⑵倒谱法;⑶平均幅度差法;⑷简化逆滤波器法[18,19]等。

它们的共同优点是计算简单。

然而,由于它们都是建立在语音信号是线性和短时平稳的假设上,因此,从本质上说,这些方法都无法检测帧内基音周期的非平稳变化,检测精度不高。

相比而言,基于事件[20]的基音周期提取方法并不多见。

己有的几种方法都是通过定位声门关闭(声门的一次关闭称为一个事件)的瞬时时间,然后确定两个相邻的事件的时间间隔来确定基音周期。

显然,确定声门关闭的瞬时时间是决定被提取的基音周期精度高低的关键所在。

文献[21]通过计算给定信号的自协方差矩阵行列式的极大值来确定事件发生的时刻。

该方法对部分元音有很好的检测精度,但它不适合所有元音,也不适合基音周期发生非平稳性变化时的情况,并且,计算十分复杂。

文献[22, 23]利用声门关闭时声门气流的导数不连续这一性质来确定事件发生的时刻,获得了比较满意的检测精度。

但是,它们对噪声太敏感,不适合用于带噪语音数据基音周期的提取。

文献[24]将最大似然关键点判别技术用于检测声门关闭事件,结果表明,该方法对大部分元音、带噪语音都有很高的检测精度,但不适合用于高音调语音基音周期的提取。

文献[25,26]用小波方法来检测声门关闭引起的语音信号的导数不连续事件,实验表明它们能适应于很宽的基音周期变化,并且也具有较好的抗噪能力。

这些方法有一个共同的假设是在声门关闭的瞬时声门激励是瞬时中断的,由此将导致语音信号在这一时刻其导数不连续。

显然,对于声门关闭很好的元音它们会有很好的结果,但是对于声门关闭比较缓慢的元音检测精度将会受到很大的影响。

(二) 共振峰提取与基音检测类似,共振峰提取表面上看起来很容易,而实际上又为许多问题所困扰,这些问题[27]是:⑴虚假峰值,⑵共振峰合并,⑶高音调语音。

传统的共振峰提取方法主要有倒谱法和线性预测法,这些方法是建立在语音信号是线性和短时平稳的假设上。

随着对语音发生机理研究的深入,在理论分析与实验分析中都证实了在语音产生过程中存在非线性,语音信号的这种非线性特性是传统的线性共振峰参数估计方法的准确性受到影响的主要原因。

另一方面,随着对语音信号处理要求的不断提高,共振峰参数随时间快速变化的动态信息也越来越受到语音研究者们的重视,但由于传统分析方法的局限性,对快速变化的共振峰的提取无能为力。

近年来,尽管也提出了一些新的共振峰提取算法,如文献[28]采用了基于逆滤波器的共振峰提取方法,文献[29]将语音信号分解为调制成分并采用频域线性预测算法的共振峰估计方法,但这些方法只是在处理方法和算法上作了一些改进,本质上还是属于线性分析方法的范畴,而且分析过程复杂,许多参数需要根据人的主观经验确定,会造成人为的不确定误差和数据的不稳定性。

随着语音信号非线性模型的发展,近年来也提出了许多采用非线性处理方法提取共振峰的算法,其中最具有代表性的算法是文献[30-32]中的基于多频带能量分离的共振峰提取算法,它以语音信号的调频-调幅非线性产生模型为基础,用一组带通滤波器把各个共振峰分量分离开来,再用能量分离算法求取各共振峰的瞬时频率和瞬时幅度,但在滤波前,仍须用短时傅里叶变换粗略估计各个共振峰频率和带宽,依然存在受虚假峰值、共振峰合并和高音调语音的影响。

3.2 Hilbert-Huang 变换研究现状概述由于HHT具有自适应性而且是分析非线性、非平稳数据的有效工具,从1998 年公开发表到现在九年多时间里一直受到国内外学者的广泛关注。

相关主题