噪音环境下的语音识别 摘要:语音信号数字处理技术在国民经济、日常生活和军事领域有着极为重要的应用价值和极其广阔的应用空间。本文介绍了语音信号处理在信息科学中的作用以及应用于科学领域的技术。
关键词:语音信号,识别,应用 众所周知,语音在人类社会中起了非常重要的作用。在现代信息社会中,小至人们的日常生活,大到国家大事、世界新闻、社会舆论和各种重要会议,都离不开语言和文字。近年来,普通电话、移动电话和互联网已经普及到家庭。在这些先进的工具中,语音信号处理中的语音编码和语音合成就有很大贡献。再进一步,可以预料到的口呼打字机(又称听写机,它能把语音转换为文字)、语音翻译机(例如输入为汉语,输出为英语,或者相反),已经不是梦想而是提到日程上的研究工作了。 计算机语音识别的最终目标是使计算机能够听懂人的语言。尽管语音识别的研究历史最早可以追溯到二十世纪50 年代初,但是直到60 年代中期以后才作为一个重要的课题展开工作,并且逐步取得实质性的进展。这有两方面的原因,一方面计算机产业的迅速发展提出了使用要求,同时软、硬件环境的改善为复杂算法的实现提供了好的环境;另一方面,数字信号处理的理论和算法已有相当基础。许多算法诸如快速傅里叶变换、倒谱计算、线性预测算法、数字滤波器等已经出现,语音信号特有的基音周期、共振峰等特征的提取算法也出现了。识别系统使用方式逐渐从特定人、孤立词、小词表方式发展到非特定人、连续语音、大词表方式。近十年来,语音识别的产品也逐渐多起来,例如Motorola 的语音拨号电话、IBM 的语音听写机等。但是,现有的语音识别系统都存在一个共同的问题,即性能不稳定。不同的用户、不同的信道、不同的背景噪音环境、不同的口音和发音方式都对识别性能有很大的影响。最近十多年来抗噪语音识别方法形成了高潮,因此,提高语音识别系统对噪音的鲁棒性,是今后语音识别研究的一个重点。 1 三种典型的去噪处理方法 我们可以将各种抗噪方法粗略可以分为信号级抗噪处理方法、特征参数级抗噪处理方法、模型级抗噪处理方法。后两种方法有些交叉。下面逐一进行讨论。
信号级抗噪处理 这种处理是从带噪语音信号中提取尽可能纯净的原始语音,在语音信号处理中称为语音增强。语音增强技术在语音通讯、语音识别中有都有应用。在实际应用推动下,早在60 年代语音增强这个课题就已引起了人们的注意,70 年代形成一个高潮,取得了一些基础性成果。由于噪声来源众多,并随应用场合而异,它们的特性也各不相同,因此,即便是在实验室仿真条件下,也难以找到一种通用的、能适用于各种噪声环境的语音增强算法。这就表明:必须针对不同噪声,采取不同的语音增强对策。文论述了如下一些语音增强方法:LPC 全极点模型增强算法、最大后验概率估计法、卡尔墁滤波法、维纳滤波法、谱减法及其改进形式、最小均方误差估计。则分别对噪音同化法、子波消噪算法、小波单阈值消噪算法、小波频带阈值消噪算法、使用心理声学准则的残余噪声抑制法进行了论述。在上述方法中,谱减法是语音增强领域中用得最广泛的方法之一,但它也有明显的缺点,即信号在去噪处理后将带有明显的音乐噪声。利用心理声学原理给出了适用于各种语音增强方法后处理的残余噪声抑制法。微软公司曾将干净语音的数据加上各种噪声后做语音增强,然后再进行特征参数提取、训练模型参数,而在识别时,先进行语音增强处理,然后再进行识别。这种方法的特别之处在于:噪音是人为地加入到训练用的干净语音中的。因此,我们可以将这种方法视为一种“反语音增强”的去噪识别方法。按微软公司的报告,这种方法对噪音有很好的鲁棒性。针对汽车噪音,我们的实验表明,小波频带阈值消噪算法的去噪效果在听觉和端点信息保留方面具有一定的优势,其效果要明显好于前面提到的噪音同化法、均值滤波法、谱减法等各种方法。小波频带阈值消噪算法的具体步骤如下: (1) 对原始语音数据做N-1 次小波变换,得到N 个频带的小波系数。 (2) 认为原始语音的前0.1 秒是纯噪音,并根据这些噪音数据在各频带上的小波系数,给出频带各自的噪音最大值的估计M(i),i=0,„,N-1。其中,i 是频带标号。 (3) 设定相对阈值K,令每个频带的阈值D(i)=K*M(i),i=0,„,N-1。 (4) 对各频带小波系数x(j)进行软滤波:x(j)=sgn(x(j))*Max{abs(x(j))-D(i),0}。其中j 是小波系数的下标。 (5) 对新小波系数进行N-1 次相应的反小波变换,得到语音增强信号。 特征参数级抗噪处理目前绝大多数识别系统使用倒频谱类特征参数,例如LPC-CEP,MEL-CEP,FFT-CEP 等,大量的实验表明,这些特征参数对环境噪音的鲁棒性并不好。可以将特征参数级抗噪处理方法分为三类: 第一类在特征参数的计算过程中去除噪音的影响;第二类是特征参数变换法;第三类是提取新的抗噪特征参数。文提出了特征参数标准化方法,文又对之加以改进,这种方法属于第二类。具体的一种实现方法为:记第i 帧的特征参数为v(i),变换后第i 帧的特征参数为O(i),处理过程如下: (1) 以当前帧为中心,计算2N+1 帧特征参数的均值、标准差:m(i)={v(i-N)+ v(i-N+1)+ „+v(i+N-1)+ v(i+N)}/(2*N+1),sum(i)= {v(i-N)2+ v(i-N+1)2+ „+v(i+N-1)2+ v(i+N)2}/(2*N+1)-m(i)2/(2*N+1),d(i)=sum(i)1/2 (2) 将当前帧的特征参数减去均值后除以标准差:O(i)={v(i)-m(i)}/d(i)上述方法部分消除了训练集与识别集因背景噪音不同造成的模型不匹配现象,我们的实验表明这种处理方法的识别性能很好。需要说明的是,(I) 在计算均值和标准差时,可以使用一些变形方法。例如,可以用全部语音帧或当前帧前的N 帧的特征参数来计算计算均值和标准差。 在语音前、后端处也需要做一些特殊处理。针对加性噪音,我们曾经在特征参数LPC-CEP 的计算过程中进行了去噪处理,即在计算自相关函数时消除噪音的影响,从而达到消除噪音对LPC-CEP 的影响的目的;也对Mel-CEP进行过类似的实验,即在计算频带能量的时候,消除噪音的影响。然而,这些实验的结果都不是很理想。经过仔细观察和分析,发现噪音的自相关函数和频带能量有很高的时变性,简单地用语音开始前若干帧自相关函数、频带能量的均值做为当前帧相应量的估计是不可行的。总的看来,特征参数变换法尚有一定的研究空间,但难度很大,其关键在于要选出一种好的变换方法。 1.3 模型级抗噪处理模型级抗噪处理方法主要有两类,一类是用与测试集有相同环境的少数数据对模型进行快速适应,这是一种对噪音模型的自适应方法,相关的文章很多,在此不一一详述。另一类是直接在识别模型中增加对环境噪音的处理。文中介绍的HMM 框架下的噪音适应法属于第一类。M.J.Gales 在1992 年提出的PMC属于第二类,M.J.Gales 在论文中给出了对汽车噪音所做的一些实验,结果表明此方法是有效的。有很多文献使用、借鉴和发展了PMC 方法,如文中使用的快速PMC 算法,与传统的PMC 方法相比,识别率几乎相同,但节省了65%的计算量。文在HMM 状态解码过程中用PAD方法来代替Viterbi状态解码算法,克服了在噪音环境下状态驻留太短或太长的弊端。与标准HHM 相比,HHM/PAD对噪音环境有很好的鲁棒性。文提出的SN(source normalization)方法是一个很有创意的思想,它有一个很好的优点:训练是无监督的。但是,这种方法将环境影响简单地模型化为线性变换与偏移的和,则显得有些过于武断;不过,该方法的主要思想还是值得借鉴的。上面介绍的PMC 、PAD 和SN 都属于第二类模型级抗噪处理方法。我们曾经在噪声是加性的假设基础上,推导出自相关函数和频带能量也满足加性条件,并由此对LPC-CEP、Mel-CEP 的模型参数进行了Taylor 一阶逼近实验。但所得结果不理想。经分析后发现,其主要原因仍然是噪音的自相关函数和频带能量有很高的时变性。这样看起来,目前较好的模型级抗噪方法还是PMC 方法。 三种去噪方法的性能及综合 1 对三种去噪方法的评价 信号级去噪、参数级去噪、模型级去噪等三种处理方法都有各自的不足之处。信号级去噪法的主要缺点是: (1)很难区分清辅音和宽带噪音; (2) 清辅音的相对失真比浊辅音和元音要大; (3) 信噪比越低,语音的失真就越大。 前面提到的反语音增强法对各种类型的噪音都有很好的鲁棒性,但它的缺点是:需要大量的各种类型的噪音数据。参数级去噪方法的缺点是: (1) 对特征参数变换法而言,由于目前常用的特征参数与人的听觉机理没有密切关系,听觉上失真小并不能保证识别效果好。当信噪比很低时,大多数去噪方法得不到浊音的准确端点信息。然而,如果语音信号经过去噪处理后可以得到准确浊音的端点信息,则这将有利于识别器提高实时性和识别率。这种方法已经显示出很好的识别性能,因此有必要研究进一步优化的方法。 (2) 对于在计算特征参数时直接去噪的方法而言,要直接去除噪音的影响实际上是很困难的。这主要是因为噪音的时变性很强。不过,对一些特殊的稳定型噪音,这类方法还是有很大优势的。 (3) 要在短时间内得到新的抗噪参数,并非一时的易事。不过,这种方法在理论研究上还是很有价值的。模型级去噪方法的缺点是:从理论上讲,本方法所使用的自适应处理,应仅限于对噪音模型的自适应,而不应该用于其它非噪音的语音基元模型的自适应。 2 多种去噪方法的综合 目前还未见到将两种或三种去噪方法结合使用的例子。我们的实验表明:将信号级去噪法得到的端点信息与特征参数标准化方法结合使用,能够明显地提高识别器的性能。更进一步地,我们研究了三种去噪方法的综合,其具体过程如下: (1)用文中的去噪方法去噪,然后对增强后的语音进行端点检测,得到语音的端点信息; (2)对未做增强处理的语音提取特征参数,经标准化处理后得到新特征参数; (3)对新特征参数,利用端点信息进行状态解码。 实验结果表明,上述方法的识别效果很好。另外,可能的结合方式还有: