毕业设计开题报告电气工程及其自动化一种基于STC单片机的特定声音识别系统设计1前言部分(阐明课题的研究背景和意义)与机器进行语音交流,让机器明白你说什么,从而使机器明白需要做什么,出现了什么情况这是人们长期以来梦寐以求的事情。
声音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高科技技术。
其中一般的声音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
根据识别的对象不同,声音识别可以分为特定声音的识别和语音识别两种。
其中语音识别任务又大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。
其中,孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。
[1]特定声音的识别是针对一种特定的声音进行识别,如报警声,玻璃破碎的声音,呼救声等。
对特定声音识别的研究,能在吵杂或着空旷的地方对特定异常声音(比如枪击声、呼救声等)进行监控与定位,就能防止治安事件的发生对安全事业做出不小的贡献。
2主题部分(阐明课题的国内外发展现状和发展方向,以及对这些问题的评述)人们对语音识别研究已经有半个多世纪了,最早研究声音识别系统的是1952年贝尔实验室的Davis等人,他们利用语音音素特征做了一个单人的独立数字识别系统。
他们主要是通过数字元音段频谱曲线的相似度来进行独立数字识别的。
到了1959年,英国的Fry等人采用了频谱分析和模式识别技术设计了一个音素识别器,它能识别4个元音和9个辅音。
六十年代,日本在语音识别方面做出了不少研究,主要集中在硬件识别元音、音素以及在利用滤波器进行频谱分析等方面为语音识别作出了不少贡献。
1963年NEC公司在语音识别方面做出了硬件数字识别器,由于这一创举的推动使得他们在随后几十年里一直在语音识别方面保持着国际先进水平。
六十年代后期RCA 实验室的Matin和他的同事一起研究了语音信号中时间刻度非一致性问题,找到了一种可以寻找语音信号端点的检测方法,很大程度上解决了由于语音信号的时变性造成的系统识别性能下降问题,现在也是语音处理时要处理的首要问题。
与此同时原苏联研究人员Vintsyuk提出了语音信号的动态时间规整算法,这个算法被广泛的使用,直到现在这个算法还是比较出色的。
同一时期的另外一个巨大成就就是Carnegie Mellon大学的Reddy在连续语音流识别工作中取得的成果,他使用的是动态音素跟踪技术。
这两项技术对以后的语音识别产生了很大影响,他们的思想到现在仍然有一定的参考价值。
[3] 七十年代语音识别技术取得了长足的进步,这期间的代表成果有孤立词识别技术,这个技术被广大学者研究的比较多,他们相互借鉴取得了不错的成果,使之成为实用技术。
前苏联学者引入的模式识别技术给语音识别带来了新的动力,对语音识别起到了巨大的推动作用。
同时日本的研究表明动态规划和线性预测也可以用于语音识别,并且在语音识别上取得了不小的成果,如线性预测系数(Linear Predictive Coefficients,LPC)至今仍然是语音识别的一个关键技术。
美国的IBM在语音识别领域一直作着努力,并且取得了不错的成果,推出了可以用于简单的数据库查询和办公信函工作的大词汇量语音识别系统,以上的不懈努力保证了IBM在语音识别技术的领先地位。
同一时期贝尔实验室开始研究非特定人的语音识别系统,它在各类聚集算法、参数选择、距离测度、说话人自适应等方面取得了不错的成绩。
[3]八十年代是语音识别的黄金年代,一大批学者投身于语音识别的研究当中去,取得了巨大的成果。
尤其以贝尔实验室L.R.Rabiner为代表的一批学者在DARPA计划支持下,积极开展了基于隐形马尔可夫模型(Hidden Markov Mode, HMM)语音识别方面的研究,发表了一系列论文和著作,几乎讨论了孤立词汇语音识别、连续词汇语音识别、大词汇表连续语音流语音识别等各方面的问题,将语音识别技术的研究推向了一个新高潮。
这期间尤其以美国、日本以及我国台湾地区的研究最为突出。
其中在利用HMM 进行大词汇量语音识别取得的成果最为显著。
可以说八十年代为语音识别成果辈出的时代。
有代表性的语音识别系统为IBM的DragonSystem, CMU的SPHINX,以及贝尔实验室、MIT、林肯实验室取得一些不错技术成果。
[3] 九十年代相对来说是一个平稳期,不像八十年代那么波澜壮阔。
这是由于人们看到HMM在语音识别方面取得了巨大成果,以为语音识别将很快的被解决,但是当深入研究后发现HMM也存在一些问题,这时有的学者开始考虑是不是研究方向出了什么问题,开始怀疑以前的研究成果。
但是研究工作还是在一些大学和研究机构中默默的进行着。
正是由于这些扎实的研究工作才有可能为未来的技术突破带来希望。
其中一方面学者们在改进语音模型的不足,如用人耳听觉机理来改进语音识别特征参数(Mel-Frequency Cepstral Coefficients ,MFCC )、声道长度归一化来适应说话人的变化、音素状态矩阵表现音素的细微声学差别等。
另一方面剑桥大学的Steve Young开发了基于HMM的用于连续语音识别的HTK工具包,使很多学者有了一个很好的研究平台,2000年9月这个工具包的3.0版本己经免费开放了全部源代码,为更多学者提供了更好的研究条件。
还有就是IBM推出的ViaVioce软件,在实践中取得了一定的成果。
随着神经网络的研究取得了一定成果,出现了以神经网络为建模方式的语音识别算法。
人工神经网络现在也是现在研究的一个热点。
以上这几种技术推动了语音识别技术的发展,并将在语音识别的历史上留下了自己光辉的一页。
最近小波理论的发展在其它领域取得了不小的成功,也有人希望小波理论能够应用于语音识别,但是效果不是很理想。
国内语音识别研究工作开展的比较晚,但是进展的速度比较快,现在已经能够紧跟国际先进水平。
另外我国政府对语音识别也比较重视,863计划中语音识别就占有很重要的位置。
由中科院自动化所、声学所、北京大学等单位实施。
国家863计划智能计算机专家组于1998年4月进行了对国内大词汇量连续语音识别系统的测评,其中以清华大学的系统最为优秀。
其试验结果与IBM的语音识别系统成绩不相上下。
中科院自动化所的非特定人、纯净语音环境下的连续语音听写系统和汉语语音对话系统的字正确率和响应率达到90%以上。
中科院自动化所的机器人现在已经能够跟非特定人进行简单的特定词汇的对话。
以上这些成就说明中国的语音识别技术现在己经能够在国际语音识别界占有一席之地。
作为高科技应用领域研究的热点,语音识别技术从理论研究到产品的应用已经经历了半个多世纪的历程。
并且取得了长足的进步。
它在军事、办公和商业系统的数据库语音查询、工业生产部门的语音控制、电话以及电信系统的自动拨号以及很多领域都发挥了巨大的作用,并在未来一定会成为新一代操作系统的接口。
实用语音识别技术是一项具有很大市场潜力的技术,但是现在的语音识别远远没有达到计算机与人交流的最终目标,它现在还存在着很多问题,在语音识别技术里面必然包括如何从语音信号中提取信息和理解含义的工作。
只有弄清人的发声规律和听觉特性才能在语音识别方面有长足的进步,才能有一个质的飞跃。
如何充分借鉴和利用人完成听觉过程是一个很大的课题,值得学者们深入的进行研究[3]现阶段的语音识别研究中存在很多困难,语音识别系统的适应性差,也就是鲁棒性不好,对环境的依赖性特别强。
在某种特定环境下建立的语音识别系统,如果环境发生改变,识别效果会急剧变坏。
而且全世界语言众多,一种语言还有很多种方言,还有说话人的情绪波动也能对对语音识别系统的识别性能带来很大的破坏。
因此如何加强系统的鲁棒性是语音识别的一个重要研究方向。
[3]目前国内乃止国际上使用的声音识别所常用的一些声学特征有线性预测系数LPC、倒谱系数CEP、Mel倒谱系数MFCC和感知线性预测PLP、MFCC 的计算。
其中:线性预测系数LPC 是指线性预测分析。
通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来预测。
通过对实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。
对LPC这一特征系数的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。
计算上的快速有效保证了这一声学特征的广泛使用。
与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。
[4] 倒谱系数CEP是指利用同态处理方法,对语音信号进行离散傅立叶变换,然后取对数,再求反变换从而得到倒谱系数。
对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。
实验表明,使用倒谱可以提高特征参数的稳定性。
[4]Mel倒谱系数MFCC和感知线性预测PLP是通过对人的听觉系统研究而导出的声学特征。
对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。
临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。
Mel刻度是对这一临界带宽的度量方法之一。
[4]MFCC计算时,首先要用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。
PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。
[4] 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。
HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。
对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。
用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。
HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。
[8]语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。