当前位置:文档之家› 语音识别的非线性方法

语音识别的非线性方法

52国家自然科学基金资助项目.收文日期:1997年6月12日(June 12,1997)ΞV ol.3N o.1M arch 1998电路与系统学报JOURNAL OF CIRCUIT S AND S Y S TEMS 第3卷第1期1998年3月Ξ语音识别的非线性方法董远胡光锐(上海交通大学电子工程系,上海,200030)【摘要】语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。

近年来人们开始逐渐重视非线性理论在语音识别技术中的应用。

本文概括地介绍了非线性理论在语音识别技术中的所取得的成果和发展方向,除了涉及较为流行的隐马尔柯夫过程和人工神经网络在语音识别中的应用外,文中着重论述了近年来发展迅猛的混沌、分形理论在语音识别中的应用,本文最后还提到了不可忽视的分形理论在语音编码中的应用。

【关键词】语音识别,隐马尔柯夫过程,人工神经网络,混沌,分形,迭代函数系统,语音编码Non 2linear Methods for S p eech Reco g nitionD on g Y uan Hu G uan g rui(De p t.of E lectronic En g ineerin g ,Shan g hai Jiaoton g Universit y ,Shan g hai ,200030)Abstract :S p eech si g nal is traditionall y treated as a linear p rocess.H ow ever ,it is indicated b y extensive research that the s p eech si g nals are actuall y com p licated non 2linear p rocesses.T o im p rove the reco g nition rate ,recent research ef 2fort has started to m i g rate to anal y ze s p eech si g nal usin g non 2linear theor y .T his article summ arizes the new develo p m ent in this area.Besides HM M and ANN ,which have been w idel y used b y m an y authors ,this p a p er introduces in p articular a series of fast g row in g non 2linear such as chaotic and fractal theories and their a pp lications in s p eech reco g nition and codin g .K e y w ords :s p eech reco g nition ,HM M ,ANN ,chaos ,fractal ,IFS ,s p eech codin g引言语音识别技术自本世纪五十年代起步发展至今已四十多年,取得了很大的进步,语音识别的研究愈来愈受到人们的重视。

语音信号处理分别基于确定性线性系统理论和不确定性非线性系统理论。

80年代的子词单元、多级识别、多模板和聚类技术、连续语音匹配技术等语音识别方法都是基于线性系统理论。

经研究表明,语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。

近年来发展起来并逐渐完善的非线性科学为语音识别技术的发展带来了新的生机。

1语音识别与隐马尔柯夫过程(HM M )在传统的线性理论难以使得语音识别技术进一步提高时,随着对隐马尔柯夫模型(HM M )的重新认识和广泛应用,掀起了语音识别研究的一个热潮[1]。

语音信号是短时平衡的随机信号,在足够小时音段上语音信号的特性近似稳定,就整个语音序列而言,它可以看成是依次从相对稳定的某一状态过渡到另一状态。

尽管如此,语音信号序列用一个按预定顺序排列的状态转移过程来描述是不够充分的,因为不同发音人、不同的发音环境、不同的发音时间发53董远等:语音识别的非线性方法相同音时,其各状态的持续时间、状态的转移过程各不相同。

HM M是一种随机过程,它用概率统计的方法来描述语音信号的变化过程[2][3]。

从语音信号产生模型看,语音信号是由激励源激励声道而产生的。

人的声道特性可划分为有限个特性平稳的部分或状态,相应地语音信号可以看成由这些平稳状态产生的短时信号的时域级连,而每个状态对语音信号的作用取决于该处的声道物理参数或语音概率分布。

如果将声道特性的变化用HM M的状态转移概率来描述,某一声道特性产生短时语音信号观察值的概率分布用HM M状态的生成概率表征,则HM M模型就能有效地用于描述时变语音信号[4]。

由于HM M能够描述语音信号的强时变特性及其对语音信号有很强的时间规整能力,并能集中表述各种语音特征,因而非常适合于采用子词单元的大词汇量的连续语音识别系统[5][6]。

但HM M模型也有其不足:没有有效地利用相邻语音之间的相关性:对模型作了很多不符合语音实际情况的规定,使HM M不能真实地对语音信号的持续时间进行建模;概率密度函数为高斯分布的假设与实际情况不符,解决的方法是用ANN来逼近实际的概率分布。

2人工神经网络在语音识别中的应用到了八十年代末期,人工神经网络技术的研究兴起,人工神经网络由于具有较强的自组织学习能力和区分模式边界的能力,特别适合于语音识别中的分类问题[7]。

传统的语音识别方法有矢量量化、模板匹配等,它们是用逻辑推理和数学运算对语音进行规整、分类与识别。

但人的听觉建立在感觉细胞相互作用的基础上,只有根据人的生理特征,模仿神经细胞的功能,才能克服传统方法的不足,于是就出现了人工神经网络方法[8]。

特别是人工神经网络与其它一些传统的语音识别方法相结合派生出来的混合型神经网络语音识别系统有广阔的发展前景。

人工神经网络本质上是一种更为接近人的认识过程的计算模型,它模仿生物神经系统中大量简单处理单元—神经元的并行处理。

它具有并行分布处理、容错性、自组织和自学习能力等一系列优越性,将人工神经网络用于语音识别主要利用了它的分类、聚类能力和非线性变换能力。

通常人工神经网络是针对静态模式而设计的,语音信号是一个时变信号,而且它的时变特性也是语音理解的一个重要特征,所以将人工神经网络用于语音识别时需要对其作一些必要的修正,使它具备反映输入语音信号时变特性的能力[9][10][11]。

另外,人工神经网络还要有足够的容量用于记忆各类语音模式和提供足够的容错能力,能自学习以适应不同的发音人[12]。

3HM M/ANN混合型语音识别针对HM M模型用于语音识别的不足,人们结合人工神经网络模型解决了这一问题。

人工神经网络具有对输入信号进行非线性变换的能力,只要网络有足够的规模,它的输出可以实时逼近任何一种函数[13]。

因此可以用人工神经网络来计算HM M的模型参数[14]。

人工神经网络与HM M一起构成混合型语音识别系统是一种极有前途的语音识别方法。

HM M/ANN混合型语音识别系统具有以下优点:HM M的模型参数由ANN求得,不必象标准HM M模型那样对信号作很多不切实际的假定;ANN求出的模型参数是与实际输入信号有关的,它包括了语音信号的时变特征;用ANN计算语音的模型参数,可以选用合适的最佳准则,使它所求得的模型参数与本类语音建立最佳匹配关系,同时与非本类语音距离最大;可以进行自学习,用于非特定人语音识别。

4语音识别与混沌54近年来,非线性理论得到了进一步的发展,产生了诸如混沌、分形等理论分支。

混沌、分形理论近来越来越受到重视,同样混沌、分形理论在语音识别中也得到应用。

空气动力学表明语音信号的产生即非一个确定性过程,地非纯随机过程,而一个复杂的非线性过程[15]。

语音是由混沌的自然音素组成的,其中存在着混沌机制。

语音信号会在声道边界层产生涡流,并最终形成湍流,而湍流本身已经证明就是一种混沌。

并且辅音信号的混沌程度大于元音信号的混沌程度,因为发辅音信号的送气强度及其声道壁的摩擦程度顽抗比元音信号要强。

这一结果使人们将混沌理论引入语音信号分析[16][17]。

将混沌引入语音处理目前主要有两种方向。

一种方向是引入混沌神经网络的方法[18][19],这是因为人们通过对生物脑细胞的观察发现某些生物脑细胞工作于混沌状态,正是以这一观察结果为依据才提出了混沌神经网络这一模型用于语音识别。

混沌神经网络是由混沌神经元以一定的拓扑结构相互连接而成的。

将混沌神经元引入常规神经网络可以改进网络性能,使它更好地模仿人的感觉特性。

另一种方向是将分形理论引入语音处理。

分形是描述混沌信号的一种手段[20],这是因为人们在试图了解确定混沌状态下的涡流特性时,发现混沌动力学系统可以被建模成分形吸引子。

在某种程度上,涡流的一些几何特征是分形,包括涡流点的形成、一些类型涡流的边界、涡流种粒子的路径路线。

现已证明语音气流的一些机制可以被视为混沌,所以语音信号中的各种程度的涡流结构特征可以通过分形建模作为数学和计算工具来对语音进行定量分析。

5分形在语音识别中的应用近来将形理论用于改善语音识别技术越来越受到重视,主要的原因是语音是一种混沌的自然现象,而分形可以有效地为自然现象中的混沌建模,那么分形应该是一个为语音建模的理想方法。

分形的度量是分形维数,分形从测度的角度将维数从整数扩大到分数,突破了一般拓扑集维数为整数界限。

分形中维数一般为分数。

分形维数是经典欧几里德几何维数的拓广[21]。

在各种分形特征中,语音信号的分形维数是一种主要的选择参数,因为它能定量表示语音波形的混乱程度。

语音波形可以被视为二维开曲线,它的轮廓具有分形特性,在一定的限制条件下,不同的音素的波形具有不同的不规则性,分形维数即是代表不同音素波形不规则性的测度。

人们发现短时语音的分形维数在语音分割和声音分类中是非常有用的特征参数。

分形维数可以作为语音分割的一种手段[22]。

在这种算法中,我们将沿着语音波形(s p eechw ave[K],k =0,1,2,3…)用一个规则大小的窗(大小为w indowsize )进行分割,对每个窗内的语音波形求分形维数。

窗的大小选择要适当,太小将不能完全地考虑到语音信号的分形特征,太大将由于语音波形中的界限混合难以进行语音分割。

窗的步进大小也要适当,如果窗的步进很小将导致过多的计算,如果窗的步进太大将导致失去临界信息。

相关主题