当前位置:文档之家› 语音识别处理

语音识别处理

研究主要集中在从三维的语谱图信号中提取更清晰更有用的信息。最近的研究还表明,把运用不同运算法则提取的语音信号所得到的不同的特征综合起来,是一种有希望提高语音识别性能的方法。因此使用这两种方法完善THEESP这个基线语音识别系统。
在这篇中文摘要中,第二部分详细解释了遇到的问题。在第三部分中,提出了该论文解决问题的最重要最显著的论点。在第四部分是对成绩的总结,第五部分提出对未来研究的一些建议。
2.论文的研究内容
汉语普通话是一种音节结构化的语言。在这种语言中,有很多音节在语谱图上非常相似。由于这种相似性,因此很难区分它们。于是,有必要使用
更加复杂的算法正确地区分和识别它们。
一个标准的以及其改进的随机模型语音识别方法能同时提高识别的正确率和计算的速度。梅尔频率倒谱声学特征矢量(MFCCs)、基于段长分布的隐含马尔可夫模型(DDBHMM)是连续大词汇量(CLV)汉语普通话语音识别的系统(M-ASR)的组成部分。
因此现在的问题是怎么才样能找到好的能增强表达语义信息的特征,从而能提高系统的识别率,并增强系统对噪声的稳健性和对说话人的不敏感性。现有的汉语普通话自动语音识别系统中,使用的都是基于MFCC算法的特征。该特征在识别时对发音相近的汉语音节很难区分。鉴于此,将介绍一些对现有的语音识别系统的特征进行改进的算法,这些算法对由清华大学电子工程系开发的THEESP语音识别系统中采用的特征提取方法进行了扩充。
3.期刊论文黄丽霞.张雪英.HUANG Li-xia.ZHANG Xue-ying Laguerre滤波器在抗噪语音识别特征提取中的应用-
计算机工程与应用2008,44(18)
为克服FIR滤波器存在的通阻带特性差、滤波器阶次高等缺点给语音识别系统带来的不利影响,采用Laguerre滤波器组代替过零峰值幅度特征提取中使用的FIR滤波器组进行前端处理.在仔细研究FIR滤波器参数确定方法的基础上.叙述了Laguerre滤波器原理及参数计算方法,并给出了计算结果.孤立词、非特定人语不仅使识别系统抗噪性能优于使用FIR滤波器,而且滤波器阶数也大为下降.
本论文的研究目标就是在中文语音识别系统进行粗识别和精识别的两个阶段都设计一些算法用来提高系统的识别率。改进的方向就是使用新的、有效的和独立的特征去加入或者替换现有的基于MFCC特征的算法,使得那些容易混淆的音节在新的特征空间中的距离能够增大,从而提高系统的稳健性
,最终导致识别率的提高。
3.论文的研究方法和创新内容
5.学位论文法杜尔基于非线性时间谱的语音识别多重外周特征提取算法2003
1.简介
特征提取在实现稳健的语音识别中扮演了重要的角色。好的特征应该在类内具有尽可能多的相似性、而在类间则应该尽可能的不同。在设计和开发更先进的语音识别系统中,稳健特征的提取是提高系统性能的重要的手段之一。很显然不同的特征或者特征中的不同参数各自能更好地描述特定的语音类别。
接着,论文以上述系统为基础,提出了改进ZCPA特征,即组合差分ZCPA特征。该特征利用了语音差分信号的特性,增加信号差分信息到ZCPA特征中。新特征能提取叠加在低频中的高频信息,一定程度上弥补了ZCPA特征的不足,获得了改进的实验结果。
本文同时对识别系统的前端滤波器进行了研究。提出使用Bark小波滤波器代替FIR滤波器。由于大多数小波,无论是二进小波、小波包还是M带小波,其频域的划分都是一种倍频程关系,这与人耳的临界频带的划分相差很大。因此,若有一种小波能按照临界带宽划分频带,则这样的小波更符合人耳对声音的感知。Bark小波就是这样一种小波,它按照临界带宽来非均匀地划分频带,更接近人耳对声音频率的感知。构造Bark小波的基本思想是:所选择的小波母函数在Bark域满足时间一带宽积最小,即为Bark域的高斯函数;母小波在Bark域的带宽相等。论文分析了该小波的分解和重构性质,给出了其时域和频域特性以及Bark小波滤波器用于前端处理的原理,仿真实现了基于Bark小波滤波器和ZCPA特征的语音识别系统,获得了改进后的结果,提高了系统的识别率。
THEESP语音识别系统使用了基于段长分布的隐含马尔可夫模型。这个汉语语音识别系统(M-ASR)在识别过程中是分两个阶段进行的:第一阶段叫做粗识别阶段,在这个阶段中,系统只区分音节而不区分音调;第二阶段叫精识别阶段,在这个阶段中,每个音节的四个音调都会予以考虑。在本论文研究中,用这个中文识别系统作为基线系统。
论文首先介绍了传统的语音特征参数MFCC,它是基于人耳听觉特性设计的一种特征参数,在静音环境下能得到较高的识别率,但在信噪比较低时识别率急剧下降,不利于实用化。本文通过对MFCC算法的分析和研究,发现其中的FFT和DCT在整个时频空间使用固定的分析窗,这不符合语音信号特性
,而小波变换具有多分辨率特性,更符合人耳的听觉特性。因此,本文将小波变换和MFCC算法相结合,提出了三种新的语音识别特征:①DWTMFCC是用DB3小波变换代替MFCC算法中的FFT得到的;②MFCBWC是用临界带小波替换MFCC特征提取中的DCT,克服了DCT的缺陷;③CBMFCBWC特征是在MFCBWC特征算法的前端采用临界带小波变换而得到的一种新特征。本文通过大量仿真试验证明,基于三种新特征的识别率比原来MFCC的识别率有了很大提高,特别是在低信噪比和大词汇量情况下。
本文围绕抗噪语音识别这个中心,完成了以下研究工作。首先实现了具有过零峰值幅度(ZCPA:Zero-crossingwithPeakAmplitude)特征的语音识别系统,它是基于人耳的听觉模型建立起来的。该模型通过分析和计算语音信号相邻上升过零点间的间隔,并将之分配到对应的频率箱,以此反映信号的频率信息;再通过检测相邻上升过零点间的峰值幅度并进行非线性压缩,对频率箱幅度进行加权。论文分析了该系统的抗噪性能,通过实验证明了这种系统的抗噪性能优于常用的由LPCC,MFCC作为识别特征的系统性能。
作者:潘洋
学位授予单位:兰州大学
1.学位论文惠博语音识别特征提取算法的研究及实现2008
语音信号具有很强的时变特性,在较短的时间间隔中语音信号的特征可看作基本保持不变,这是语音信号处理的一个重要出发点。语音识别率的高低,也都取决于语音信号特征提取的准确性和鲁棒性。因此,语音信号特征提取在语音信号处理应用中具有举足轻重的地位。
2、使用VC++根据动态时间规整模型实现了一个连接数字串语音识别系统,并进行了实验分析。系统的组成模块和语音识别系统的基本构成模型一致。在实现时选用了美尔频率系数(MFCC)。
3、实验过程中发现了汉语数码易于混淆的问题,在模板训练方法和参考模板两方面做了改进,提出了使用多对特征矢量序列进行鲁棒性训练和进行声韵母分割来构造参考模板的方法。
6.期刊论文惠博.冯宏伟.李星军.HUI Bo.FENG Hong-wei.LI Xing-jun基于掩蔽特性的一种语音识别特征提取算
法-电声技术2008,32(7)
通过对Bark频带和Mel频标之间关系的研究,得到一个BarkMel临界带表,在此基础上详细介绍了一种基于人耳听觉掩蔽特性的MFCC计算方法.实验表明,该方法可使掩蔽特性在MFCC参数提取中达到最优化,提高识别率,具有一定的鲁棒性.
7.学位论文张林噪声环境下基于MFCC的鲁棒语音识别研究2009
语音识别系统在噪声环境下的鲁棒性是关系到语音识别能否走向完全实用化的关键,也是当前语音识别技术研究的热点和难点。噪声鲁棒性问题的根源为语音识别训练和测试环境之间的不匹配,噪声鲁棒语音识别的目的就是消除噪声引起的训练环境和测试环境之间的不匹配,其方法分为4种:鲁棒性特征提取、语音增强、模型补偿、麦克风阵列。本文重点研究了其中的鲁棒特征提取方法,利用听觉特征机理,借助已有的加窗以及子带技术,尝试构建鲁棒性比较强的特征向量,从而提高噪声环境下的语音识别性能,使其能够很好地应用在实际环境中。本文主要针对基于Mel频率倒谱频率(Mel Frequency Cepstrum Coeficients,MFCC)特征提取,将常规的MFCC特征提取过程进行改进。主要工作如下:
寻找语音信号的“完美的”表达方法是许多研究人员孜孜以求的目标。本论文的研究中,寻求从不同的角度来研究和处理这个问题。不只用一种单一的特征表示方法,而是用多种不同的特征表示方法,这包括用时间频谱特征的表示方法。
4.结论
在这篇论文中,根据研究工作的先后次序,在论文的五个章节中先后提出并测试了许多算法。论文的研究工作从研究测试语谱图开始,并最终取得了很大的进展。在时间谱特征的基础上,运用特征补偿或是用提取新特征方法,使得现有的THEESP中文识别系统的性能得到了明显的提高。
随后论文介绍了ZCPA特征参数。这种特征在计算上升过零率获取频率信息时漏掉了部分高频信息,而且提取出来的密度信息与人耳的感觉特性不相符合。文中将语音信号作差分,通过计算差分信号的上升过零率获得高频信息;利用加权矩阵对密度信息加权,使之与人耳的听觉感受相吻合,从而弥补了ZCPA特征的缺陷。最后试验证明,经过改进后ZCPA识别率有了很大提高。
最后,结合加窗以及子带频谱质心,将描述频谱峰值位置信息的子带质心应用到提取过程,建立基于HMM模型的识别系统。
本文采用英国剑桥大学的HTK语音识别工具进行仿真实验,实验结果表明,改进后的特征提取算法跟基准系统相比,识别性能及鲁棒性有一定程度的提高。
4、最后本文研究了汉语连续语音识别中的声学建模方法,给出了识别汉语易混淆词的方法。
本文通过对实际语音识别系统各个部分的实验和研究,为进一步开发实用性语音识别系统的工作做了基础性的工作。
2.学位论文梁五洲抗噪语音识别特征提取算法的研究2006
语音识别在通信等领域有着广泛的用途,其中语音特征参数提取是语音识别系统的一个重要组成部分。特征参数性能的优劣直接影响着系统的性能,而环境噪声是制约特征参数性能的关键因素。本文以噪音环境下语音特征参数的提取为研究对象,分析了人耳的听觉特性,在对传统语音特征参数MFCC的深入分析和研究基础上,提出了三种基于小波变换和人耳听觉特性的改进MFCC特征。论文还提出了一种对ZCPA特征参数改进的方法。
相关主题