当前位置:文档之家› 基于RBF神经网络的抗噪语音识别(精)

基于RBF神经网络的抗噪语音识别(精)

2007,43(22Computer Engineering and Applications 计算机工程与应用基金项目:国家自然科学基金(the National Natural Science Foundation of China under Grant No.60472094;山西省自然科学基金(the NaturalScience Foundation of Shanxi Province of China under Grant No.20051039。

作者简介:白静,博士研究生,研究方向:语音信号处理等;张雪英,博士生导师,研究方向:语音信号处理等;侯雪梅,硕士研究生,研究方向:语音识别等。

语音识别实用化所遇到的难题之一是在噪声环境下获得与净音环境下相接近的识别结果。

语音识别在实现过程中通常涉及多种因素,需要同时考虑。

由于语音信号的随机性,以及对人类听觉机理了解甚浅,因此,目前在噪音环境下语音识别系统尚不能达到全部实用化,语音识别实用化研究一直是业界的焦点。

本文采用符合人耳听觉特性的Mel 频率与LP 倒谱系数结合起来形成LP Mel 倒谱(Linear Predictive Mel Cepstral Coeffi-cients ,LPMCC 作为提取的语音特征参数,用RBF 神经网络模型作为识别网络,分别采用聚类算法和全监督算法,在VC++平台上用两种算法分别实现了基于RBF 神经网络的孤立词语音识别系统,得到了在不同信噪比和不同词汇量下的识别率。

实验结果表明此种方法抗噪性能较强,识别效果好。

1语音识别系统基本结构图1为基于RBF 神经网络的语音识别系统结构。

预处理包括对原始语音信号进行预加重、加窗和分帧等处理。

预加重通过一个传递函数为H (Z =1-αZ -1(0.9<α<1.0的滤波器进行滤波;加窗分帧选用Hamming 窗。

经过预处理后,将语音信号的特征参数(LPMCC 提取出来,使用RBF 神经网络得到识别结果。

2RBF 神经网络的结构和映射2.1RBF 神经网络的结构图2为RBF 神经网络的拓扑结构。

第一层为输入层,由信号源节点组成;第二层为隐含层,用径向基函数作为隐单元的“基”构成隐含层空间,其单元数视所描述问题的需要而定;第三层为输出层,它对输入模式的作用基于RBF 神经网络的抗噪语音识别白静,张雪英,侯雪梅BAI Jing ,ZHANG Xue-ying ,HOU Xue-mei太原理工大学信息工程学院,太原030024College of Information Engineering ,Taiyuan University of Technology ,Taiyuan 030024,China E-mail :bj613@BAI Jing ,ZHANG Xue -ying ,HOU Xue -mei .Noise -robust speech recognition based on RBF neural puter Engineering and Applications ,2007,43(22:28-30.Abstract :To solve the problem that recognition rates of speech recognition systems decrease in the noisy environment presently ,uses character possessing RBF neural network ,which have optimal approach capability and the fast training speed ,adopts cluster-ing algorithm and whole supervision algorithm and realizes a noise-robust speech recognition system based on RBF neural net-work.The hidden layer training of clusteringalgorithm used K-means clustering algorithm and output layer learning used linear least mean square.The adjustment of the entire parameters of whole supervision algorithm is based on grads decline method.It is a kind of supervised learning algorithm and can choose excellent parameters.Experiments show that whole supervision algorithm have higher recognition rates in different SNRs than clustering algorithm.Key words :speech recognition ;RBF neural network ;clustering algorithm ;whole supervision algorithm摘要:针对目前在噪音环境下语音识别系统性能较差的问题,利用RBF 神经网络具有最佳逼近性能、训练速度快等特性,分别采用聚类和全监督训练算法,实现了基于RBF 神经网络的抗噪语音识别系统。

聚类算法的隐含层训练采用K-均值聚类算法,输出层的学习采用线性最小二乘法;全监督算法中所有参数的调整基于梯度下降法,它是一种有监督学习算法,能够选出性能优良的参数。

实验表明,在不同的信噪比下,全监督算法较之聚类算法有更高的识别率。

关键词:语音识别;RBF 神经网络;聚类算法;全监督算法文章编号:1002-8331(200722-0028-03文献标识码:A中图分类号:TN912◎学术探讨◎282007,43(22做出响应。

2.2RBF神经网络的映射关系设RBF网络输入维数为N,隐单元数为P,输出维数为M。

(1从输入空间到隐层空间的非线性变换第i个隐单元输出h i =g(‖x-ci‖!i,1≤i≤P(1其中:g(・为隐单元的变换函数(即径向基函数,它是一种局部分布的对中心点径向对称衰减的非负非线性函数,一般取为Gauss函数,即g(x=exp(-x!(2 x为N维输入向量,即x=[x1,x2,…,xN]Tc i =[c1i,c2i,…,c Ni]Tc ki表示第i个隐单元对应的第k个输入分量; !i为第i个隐单元函数的宽度。

(2从隐含层空间到输出层空间的线性合并第j个输出y j =Pi=1#h i w ij,1≤j≤M(3其中:wij为第i个隐单元与第j个输出之间的联接权。

3RBF神经网络聚类算法3.1隐含层训练隐含层的学习用无监督训练来完成。

采用的是K-均值聚类算法,所用的聚类为集中每一样本点到该类中心的距离平方之和,并使之最小化。

其算法如下:(1初始化聚类中心{Cj ,j=1,2,…,N},通常将Cj设为第一次输入的样本。

设置停止门限";(2循环开始;(3将所有样本按最小距离的原则聚类。

即按#j =min‖xi-c j ‖的原则,将xi归为第j个聚类#j中;(4计算各类聚类中心的样本平均Cj=1Mj x i∈$j#x i(i=1,2,…,K(4式中Mj为该样本集的个数;(5计算平均失真与相对失真[1];平均失真为D(n=1mmr=1#mind(X r,C j(5Xr 为训练序列,r=1,2,…,m相对失真为D!(n=D(n-1-D(nD(n(6(6结束判断当D!(n≤",循环结束,反之,转到(2。

完成对样本聚类之后,就可以计算高斯核的归一化参数, 高斯半径为!j2。

该参数表示对每个节点输入数据范围的度量,即!j2=1Mj x i∈$j#(x i-C jT(x i-C j(73.2输出层训练输出层的学习是有导师式,采用的是线性最小二乘法(Least Mean Square,简称LMS。

这种方法不需要迭代计算,收敛速度非常快。

最小二乘法的目的就是要使网络的期望输出与实际输出的均方误差达到最小,即满足‖Y-W#‖2最小,从而寻找wij的估计量w!ij。

其中Y为输出矢量,W为隐层至输出层权值矩阵,Φ为隐层输出矢量。

根据微分法求解可得到式(8W=(ΦTΦ-1Y(8这样上述均方差的值即可达到最小。

一般为了防止矩阵ΦTΦ出现奇异的情况,常将W表达为W=(ΦTΦ+%‖ΦTΦ‖-1ΦT Y(9这里,%一般设成趋近于0的正数,由此可得参数wij的估计值[2]。

4RBF神经网络全监督训练算法全监督算法基本思路是:网络的所有参数调整是一个监督学习的过程,以达到性能指标最小为目的。

RBF神经网络的性能指标为Ei=12(yi-y!i2i≤1,2,…,N(10y!i为对应第i个输入向量的期望输出值,yi为第i个输入向量的实际输出值,N为样本数。

若将所有的待求参数,即RBF 网络的中心C=[c1,c2,…,ch]p×h、宽度"=[!1,!2,…,!h]h×l和连接权值向量W=[w11,…,wij,…,who]h×o构成一个集合,将性能指标作为最优目标函数式(11 minZEi=12(yi-y!i2(11来调整参数,则RBF网络的学习过程可以看作一个求多变量函数的无约束极小值的过程[3]。

因此,整个网络的学习只是一个监督学习的过程。

特别是中心的学习也是一个监督学习的过程,从而避免了常规算法中非监督学习引起隐层节点中心对初始值敏感的问题[4]。

本文采用基于梯度下降的误差纠正算法,具体算法步骤如下:(1初始化:任意指定wi,ci,!i值,预置允许误差,预置学习步长%1,%2,%3;(2循环,直至达到允许误差或指定重复次数。

①计算ej,j=1,2,…,N白静,张雪英,侯雪梅:基于RBF神经网络的抗噪语音识别29 2007,43(22Computer Engineering and Applications 计算机工程与应用1584.6286.4885.1688.7286.8289.3588.3790.8790.5691.26 2085.2187.2385.8989.3288.2390.2689.3791.1292.3792.872585.3689.3586.7990.1189.1691.6789.9692.7892.3392.54 3085.5389.2687.2491.3489.8991.9890.2692.7893.1193.56 Clean 86.2291.3888.5792.5491.1893..0592.1393.7594.1294.21 聚类全监督聚类全监督聚类全监督聚类全监督聚类全监督训练方法词汇量SNR/dB1020304050%表1使用聚类和全监督训练方法的识别率e j =d j -f (x j =d j -Mi=1!w i ・G (x j ,c i(12②计算输出单元的权值的改变量"E (n "w i (n =-1N N j=1!e j exp (-‖x j -c i ‖22!i2(13改变权值w i (n+1=w i (n -"1"E (n "w i (n (14③计算隐单元的中心的改变量"E ( n "c i (n =-w i N !i 2N j=1!e j exp (-‖x j -c i ‖22!i2・(x j -c i (15改变中心c i (n+1=c i (n -"2"E (n "c i (n (16④计算函数宽度的改变量"E (n "!i (n =-w i N !i 3Nj=1!e j exp (-‖x j -c i ‖22!i 2・(‖x j -c i ‖2(17改变宽度!i (n+1=!i (n -"3"E (n "!i (n (18⑤计算误差E=12NNj=1!e2j(195实验方法及结论5.1网络训练与识别(1语音数据实验中,直接把由采样系统得到的语音数据文件作为处理对象,实验所采用的语音样本均为孤立词。

相关主题