当前位置:文档之家› 语音识别技术

语音识别技术

目前主流的语音识别技术是基于统计模式识别的基本理论。

一个完整的语音识别系统可大致分为三部分:(1)语音特征提取:(2)声学模型与模式匹配(识别算法)(3)语义理解:计算机对识别结果进行语法、语义分析。

语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),语音识别的发展简史1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统,到现在的人机语音交互。

语音识别研究从二十世纪50年代开始到现在历半个多世纪的蓬勃发展,在这期间获得了巨大的进展。

现代语音识别技术研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。

语音识别应用的特点1.语音识别系统必须覆盖的功能包括:(1)语音识别系统要对用户有益(希望它是能检测到的)。

例如提高生产率,容易使用,更好的人机界面,或更自然的信息交流模式。

(2)语音识别系统要对用户“友好”。

这种“友好”的含义是:用户在和系统进行语音对话时感到舒适;系统的语音提示既有帮助,又很亲近。

(3)语音识别系统必须有足够的精度(4)语音识别系统要有实时处理能力;例如系统对用户询问的响应时间要很短。

2. 语音识别错误的处理有以下四种方式可以处理这个问题。

(1)错误弱化法。

这种处理仅仅花费用户很少一点时间,对用户几乎没什么其它不利影响。

(2)错误自检纠正法系统利用已知任务的限制自动地检测并纠正错误。

(3)确认或多层次判定(4)拒绝/转向人工座席。

系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定,而是将其转给人工座席。

在很多情况下,语音识别技术可以充分发挥出RFID的潜能:1.积压产品、脱销产品2.被废弃、被召回或已过期产品3.回收的商品4.促销产品RFID系统在利用原有语音导向投资的情况下可以大大增加收益语音识别技术在邮件分拣中的应用现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。

但是,并不是所有的邮件都能上分拣机处理,那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。

邮政使用人工标码技术以及先进的计算机软件系统来处理不能上机的邮件,仍需要大量的劳动力。

由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。

这种技术提供了无限的数据库能力,并且保证分拣速度不会因数据库的增大而减小。

由各大语音引擎公司开发的系统还支持世界上的各种主要语言,这样,语音技术就成为世界性的产品。

以英语语音识别系统为例,系统建立了36个可识别字符26个字母加上0~9的10个数字,同时还建立了一套关键词。

Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。

对于大公司的邮件收发中心来说,使用MailCode公司的Spell-It软件技术,分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。

例如:碰到了寄给Joseph Schneider的邮件,操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。

姓名和邮箱编码:Jennifer Schroeder, 软件工程部;Joseph Schneider, 技术操作部;Josh Schriver, 技术操作部,因为这三个姓名全都符合(J,S,C,H)的发音标准。

邮件中心的操作员知道邮件实际上是寄给Joseph Schneider的,就可以把邮件投入Joseph Schneide的信箱了。

邮局要把邮件按投递路线分发,分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。

Spell-It技术把地址、投递路线等信息都存入了系统,这样就大大方便了分拣工作。

例如,有一件寄往Stonehollow 路2036号的邮件。

使用语音识别技术,分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音,如表2所示,数据库就会给出所有可能和这几个音相对应的地址及相应的投递路线的。

在这个例子中,有三个投递地址符合这一语音标准,分拣员知道哪一个是正确的地址,于是就可以把邮件分给相应投递段的投递员了。

Spell-It技术可以识别字母、数字、关键词以及无数的组合,对大公司的邮件收发中心和邮局的手工邮件分拣来说都是一次彻底的变革。

这种进步使得邮件中心可以使用快捷、精密、配套的邮件自动化处理设备来提高邮件处理全过程的工作效率。

Spell-It技术还可以适用于世界上的多种语言。

大公司的邮件收发中心和邮局所面临的一个重大问题就是如何能在控制培训经费的情况下提高生产率?通过减少对内部邮件和不能上分拣机邮件的查找时间能得到什么样的经济效益?手工邮件分拣中心经常要考虑和劳动力有关的问题:人力成本越来越高,人员更迭越来越快,培训费用越来越多。

公司内部收发中心和邮局的手工分拣都主要依靠分拣人员的记忆力。

招募、培训和留住熟练分拣员往往需要很高的成本。

如果一个熟练工因病、因事请假或去度假,或者辞职,必须有另外的人来补上空缺的岗位。

因为生产率的提高有赖于工人的工作熟练程度,而许多企业由于人员流动频繁导致了培训经费的持续增长,这样效益目标就很难达到。

手工分拣主要依赖员工的记忆力,而人工标码等半自动化处理虽然减轻了记忆的压力,却需要一套全新的技术。

从手工操作到半自动化操作往往需要员工完全改变操作技能,许多熟练的手工分拣员改换使用键盘操作时生产率不升反降。

许多公司在采用人工标码台及采用近距离或远距离视频标码设备时都出现了这种情况,因为标码技术完全依赖操作员的键盘技术来处理邮件。

和标码技术相比,语音识别技术可以大大地减少职工培训,并且可以减轻甚至消除从手工劳动向自动化转变过程对生产率的影响。

要达到熟练分拣不必再需要大量的工作经验。

实际上,语音识别技术的应用使操作员不必再记忆邮箱编码等邮政信息了,语音识别技术简单易学,邮件中心的工作人员只用几分钟就可以达到熟练操作的程度了。

培训时间的减少促使了人工成本的下降。

另外,语音识别技术又提高了生产率,从而大大提高了邮件中心的效益。

MailCode公司的语音识别设备有两种:口音适应型设备和非口音适应型设备。

口音适应型设备需要在生产前操作员进行口音适应训练,操作员要花半小时左右的时间让设备适应自己的语音特点,这些特点作为文件保存到系统中,以备将来使用。

这种设备尤其适合那些有地方方言或口音的操作员。

非口音适应型设备基本上不需要语音训练,适用于临时工较多,操作员不固定的场所。

只是非口音适应型设备比起口音适应型设备来速度略慢,准确率略低。

实验表明语音技术提高了生产率。

一个熟练的手工分拣员平均每小时分拣700件邮件,这样的效率至少需要三个月的训练。

而使用语音识别技术,一个没有经过训练的操作员仅一星期后分拣速度就可以达到每小时550件,四周后分捡速度就可达到每小时700件。

另外,手工分拣每小时查找邮件150件,而利用语音技术,邮件查找量每小时可以达到600件,随着操作员对设备越来越熟练,分拣的精确度会进一步提高。

因为大部分的语音识别系统是基于界面友好的Windows NT开发的,管理人员可以利用工具软件对操作员的生产情况、邮件量以及整个邮件中心的生产情况进行跟踪。

最新的设备还装备有数据库管理系统,可以保证对数据库进行及时的更新,无论是公司内部数据库,还是邮局数据库,这样的管理系统都能保证及时地对地址数据更新,以确保邮件被准确地送到收件人手中。

正是有了这些优点,邮件中心安装语音识别设备不失为一种实用又有效益的选择。

MailCode 公司提供了两种语音产品:语音策划管理系统和语音分拣系统。

语音策划管理系统是用来为邮局把邮件分拣到投递段的,可以对包裹、信函、扁平件以及无邮政编码和编码有误的邮件进行一次和二次分拣;语音分拣系统是为企业的邮件收发中心设计的,可以利用内部的多重数据库生成完整准确的文件来同时识别职员姓名、部门和投递点。

随着技术的进步,语音策划管理系统和语音分拣系统的数据库可以随时更新,其速度和准确度也越来越高。

语音策划管理系统和语音分拣系统都使用相似的硬件,每台设备都配备了除噪音的无线耳机可以使操作员在语音分拣设备间自由走动,每个分拣台都安装有一台配备33~43cm的高清晰度平面液晶显示器的微机。

语音分拣系统还可以配以标签仪和打印机。

随着科学技术的发展,语音识别技术逐渐成为了邮件分拣的新技术,可以克服手工分拣单纯依靠分拣员记忆力的弊端,解决人员成本过高的问题,提高邮件处理的效率和效益。

语音识别技术的发展趋势语音识别技术经过全球半个多世纪的研究,目前已经发展到了接近实用的阶段。

在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。

在这样的水平基础上,语音识别技术开始尝试从实验室演示系统走向实用化商品。

但是语音识别技术要进入成熟的商业运用还有一段艰难的路程,还必须在很多方面取得突破性进展。

表现在:1.提高可靠性。

一方面,语音识别技术需要能排除各种声学环境因素的影响。

在公共场合,人能够有意识地摒弃环境噪声并从中获取自己所需要的特定声音,但几乎不可能指望计算机能听懂你的话。

2.增加词汇量。

3.应用拓展。

语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。

将语音识别与语言理解、文字翻译、语音合成进行系统创新集成的语音同声翻译技术,可以用于突破不同语种的人说话交流的语言壁垒。

4.降低成本减小体积21世纪是信息和网络的时代,Internet、宽带IP网、公用电话网、移动电话网把全球各地连接起来,巨大的信息资源能够通过网络在短暂时间内迅速扩散到全球范围,几乎所有人与机器进行信息交互相关的需求和服务,例如自然口语对话、信息索取、电子商务、数字图书馆、远程教育、语音翻译等,都可能会在网络上实现。

语音识别技术研究和应用的重要发展趋势是,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,更加方便地享受到更多的社会信息资源和现代化服务。

人类将越来越多地体验到语音识别技术可能的便捷优点。

相关主题