课程名称:人工智能论文题目:中文语音识别技术的最新研究进展学院:信息工程与自动化学院专业:计算机科学与技术年级: 09级学生姓名:孙浩川(200910405310)指导教师:王剑教务处制摘要本文简要介绍了语音识别技术的发展历史,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别在通信等领域中的应用。
机器能听懂人类的语言吗?我们能扔掉键盘、鼠标用自然语言操纵计算机吗?随着语音识别技术的发展,梦想正在变为现实。
语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。
简要介绍语音识别的发展历史,采用的关键技术,面临的困难与挑战以及广阔的应用前景。
关键字:中文、语音识别、技术、发展目录一、语音识别技术的发展历史 (3)1、国外的发展形势 (3)2、国内的发展 (3)二、语音识别技术发展所面临的困难 (4)1、认识语音识别系统 (4)2、面临的困难 (4)3、解决困难的方法 (5)三、语音识别技术的应用以及发展前景 (5)1、目前语音识别技术在许多领域的应用 (5)2、对语音识别技术的发展前景 (6)四、结束语(结论) (6)谢辞 (7)参考文献 (8)一、语音识别技术的发展历史1、国外的发展形势首先,从国外的形势看来。
语音识别的研究工作可以追溯到20世纪50年代AT&T 贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。
但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。
实验室语音识别研究的巨大突破产生于20世纪80年代末:人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,他们把原本艰涩的HMM纯数学模型工程化,从而使统计方法成为了语音识别技术的主流,更多地从整体平均的角度来建立最佳的语音识别系统。
人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。
20世纪90年代前期,许多著名的大公司如IBM、苹果、AT&T和NTT 都对语音识别系统的实用化研究投以巨资。
语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。
其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,其平均识别率可以达到95%。
该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。
2、国内的发展看了国际的情况,现在看看我们国家的语音识别技术的发展情况。
我国语音识别研究工作起步于五十年代,但近年来发展很快。
研究水平也从实验室逐步走向实用。
我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。
直至1973年才由中国科学院声学所开始计算机语音识别。
由于当时条件的限制,我国的语音识别研究工作一直处于缓慢发展的阶段。
进入80年代以后,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。
1986年3月我国高科技发展863计划启动,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。
从此我国的语音识别技术进入了一个前所未有的发展阶段。
在非特定人语音识别方面:清华大学计算机科学与技术系在87年研制的声控电话查号系统并投入实际使用。
在连续语音识别方面:91年12月四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语——汉语语音翻译演示系统。
在孤立字大词汇量语音识别方面:最具代表性的要数92年清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时系统。
二、语音识别技术发展所面临的困难1、认识语音识别系统首先介绍一下语音识别系统的分类方式及依据。
根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。
根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。
据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
此外,还涉及到语音识别单元的选取。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如下图所示。
2、面临的困难目前,语音识别技术还面临着许多的问题,还不够成熟,主要有:第一,语音识别的研究工作进展缓慢,主要表现在理论上一直没有突破。
虽然各种新的修正方法不断涌现,但还缺乏普遍适用性。
第二,语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。
第三,高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。
第四,语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。
而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。
第五,我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。
第六,语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术(即从连续语音中去除诸如“啊”、“唉”等语音,获得真正待识别的语音部分)等等技术细节要解决。
3、解决困难的方法在研究语音识别的道路上既然出现了这么多的问题,那么为了解决这些问题,研究人员提出了各种各样的方法,如自适应训练,基于最大互信息准则(MMI)和最小区别信息准则(MDI)的区别训练和“矫正”训练;应用人耳对语音信号的处理特点,分析提取特征参数,应用人工神经元网络……所有这些努力都取得了一定成绩。
当然,如果要使语音识别系统性能有大的提高,就要综合应用语言学、心理学、生理学以及信号处理等各门学科有关知识,只用其中一种是不行的。
三、语音识别技术的应用以及发展前景1、目前语音识别技术在许多领域的应用目前世界各国都加快了语音识别应用系统的研究开发,并已有一些实用的语音识别系统投入商业运营。
在美国语音识别系统的销售额逐年上升,由于使用了语音识别系统,为企业赢得了巨额收入。
语音识别系统有AT&T于1992年开发的VRCP系统。
该系统是有五个单词(collect,person,third number,operator和calling card)的非特定人小词汇量语音识别系统,现已应用于AT&T通信网上,可以实现自动话务员协助式呼叫,代替话务员完成五种呼叫类型。
此外,语音识别技术在iphone中应用也是很广泛了。
2、对语音识别技术的发展前景中文大词汇量连续语音识别技术近年来发展迅速,并在许多领域得到了广泛的应用,国内外许多大公司加大了对语音识别技术的研究,不少商业化的语音识别系统已经面世,并得到较为广泛的使用。
当然在国内,中文的语音识别也有已经较为成熟并投入消费应用的技术。
上市企业科大讯飞的高级副总裁、研究院院长胡郁告诉环球企业家,讯飞口讯、讯飞输入法等主要产品,总计有800万下载用户,每天有200万次语音交互。
同时其技术也在新浪微博的语音搜索中使用,腾讯则获得其语音能力的授权,正在研发相关产品。
在他看来,语音智能之所以现在爆发,与移动互联网和云计算紧密相关。
不过相比美国,中国在人工智能和操作系统的技术上仍有很大差距,因此在短期内产生和Siri同级别的产品,可能性甚微。
苹果网站的FAQ中提到,明年Siri将会提供中文服务。
如果Siri能够与中国的网络服务提供者(如大众点评等)、第三方开发者建立良好的合作,将会给中国语音智能行业内的企业带来更大的挑战。
对更多想要在这一领域淘金的中国公司来说,在苹果平台上开发Siri有关的应用,依然将是短期内最主流的方式。
我认为好的中文连续语音识别技术要达到:提供最自然的人机交流方式,并具备自适应的识别功能,解决了非特定说话人的语音差别问题最快捷最方便的汉字输人方式。
能把“听到”说的话写听来,还能“听懂”语音命令,完成相应的操作,而目比键盘输人更方便,比鼠标更直接;不用动手,只要动口,一瞬间就可完成您要做的工作,要具有强大的听写能力,经过听写字处理器,不须动手,就能完成从交字输人到格式编排的全部工作,很好帮助人们解决问题,就是他们在忙碌的时候,用语音识别系统来做事,就会方便很多,节省了很多时间,所谓时间按就是金钱,这样人们的生活节奏就会变得更加快了,生活的质量也将会得到提高。
四、结束语(结论)其实,我们所说的语音识别技术,就是根据对说话人说话方式的要求,可以分为孤立字语音识别系统,连接字语音识别系统以及连续语音识别系统。
根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。
根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,它正在不断的发展完善的过成中。
目前,现在实用的系统还有AT & T 800语音识别服务系统,NTT ANSER语音识别银行服务系统,Northen Telecom股票价格行情系统,使得原本手工操作的工作用语音就可方便地完成。
在当代随计算机的普及,人与计算机交流、人机对话也越炒越热,人类要是能用语言同计算机交流和计算机能不能听懂人的语言这个是很重要的问题,也就是要使我们的计算机能够识别人的声音。
这里主要是指中文,英语的话难度没有汉语大,已经实现的差不多了。
但是中文的语音识别技术,相对来说,比较的困难,好的语音识别系统,首先,要能区别拼音发声,还要有联想的功能;其次要能够保存上次说话的内容,可以用于下次拿出来做对比,这样就可以设计一个随着使用次数的增加语音识别的功能也将增强,更加的准确,达到人们所希望的效果。
我们从语音识别技术的发展可以看出,科学技术推动了社会发展,满足人们的需求,社会需求也反过来推动科学技术发展。
多媒体时代的来临,迫切要求解决自动语音识别的难题,必然推动语音识别理论和应用研究的进展。
估计在本世纪最后几年至二十一世纪初,语音识别技术将会在理论上和应用上都取得突破性进展。
到那时,我们将体会到语音识别带来的种种便利。
人们在写一些东西的时候,基本都不用写字,只需要对着语音势必诶系统讲,他就将准确的翻译出来你所讲的内容。