当前位置:文档之家› 语音识别技术原理及应用

语音识别技术原理及应用

语音AgentNet 的整体实现张宇伟摘要:本文论述了一个人机对话应用的实现(我命名它为AgentNet)。

其应用实例为一种新的整合了语音技术的智能代理网络服务。

服务器端开发使用了微软SQL SERVER 7.0技术,客户端使用了微软Agent ,微软Specch SDK5语音合成,和语音识别技术。

网络连接使用了SOCKET 技术,并论述了高层网络协议的实现。

[关键词]人机对话,MS-AGENT,语音合成,语音识别,网络编程[Abstract]This paper discuss a new actualization of man-machine conversation application, which is based on a modal of network service. And I name this service with the name of AgentNet.The development of this service used Microsoft SQL SERVER 7.0. And the client used the technology of Microsoft Agent, TTS (Text To Speech),SR(Speech Recognition).Also the client and the server connect with SOCKET. On the SOCKET, the paper discuss the development of High-Level net protocol.[Key Words]Man-Machine Conversation, MS-AGENT, TTS , SR ,Net Work Programming[目录]第一章概述 (5)1.1当前人机对话模型分析 (5)1.2 当前网络应用分析 (5)1.3 AgentNet 概念 (6)第二章语音合成及语音识别技术 (6)2.1 语音技术概述 (6)2.2 微软语音技术 (7)第三章Agent 技术介绍 (8)3.1 Microsoft Agent技术介绍 (8)3.2 Microsoft Agent技术应用原理 (9)第四章开发系统介绍 (11)4.1 Microsoft Development Studio 6.0 (11)3.2 Microsoft SQL SERVER 2000 (13)第五章系统实现 (14)5.1 需求分析 (14)5.2 模块分析 (14)5.2.1 [客户端模块] (14)5.2.2 [服务器端模块] (17)5.3 具体实现细节 (18)5.3.1 [客户端界面层] (18)5.3.2 [客户端核心层] (24)5.3.3 [客户端功能层] (25)5.3.4 [客户端网络层] (29)5.3.5 [服务器端网络层] (31)5.3.6 [服务器端核心层] (33)5.3.7 [服务器端功能层] (33)5.3.8 [服务器端数据层] (34)第六章使用手册 (36)[操作系统要求] (36)[硬件要求] (36)[服务器端安装] (36)[客户端支撑软件的安装] (36)第七章总结与展望 (37)参考文献 (38)第一章概述1.1当前人机对话模型分析[当前研究]人机界面正成为计算机行业的研究重点。

现在的研究成果主要集中在“让电脑听懂说话”方面,IBM首先推出了语音识别技术,微软、摩托罗拉等公司也都展开了大量研究。

成熟的语音平台软件包有微软的Speech SDK 、IBM的ViaVoice,等等。

目前全球人机界面研究的重点,正从研究计算机如何运行转向研究人的行为,主要包括的领域有:语音上网、多模式对话管理、语音和视觉相结合、现有芯片结合改造等。

在英特尔中国研究中心,电脑已可进行语音天气、股票查询,你只要说出股票名称,它就会告诉你现在的股价;而一位研究人员在写文章时,一边用手写板写,一边说:“填加四行表格”“删除两行”,而不必像过去那样自己动手画表、不停地按删除键。

“未来,人们在与电脑交流时,可能根本见不到电脑”,出任英特尔人机界面总框架师的颜永红博士说,无论你是坐在沙发上还是躺在床上,只要手头有一个类似话筒、手写板或者遥控器之类的小玩意,就可以和电脑无线连接指挥它工作。

本文以下章节讨论了微软语音软件的应用。

1.2 当前网络应用分析Internet自60年代出现以来蓬勃发展,近年来以惊人的速度增长——连网主机量每年翻一番,万维网站点每半年翻一番.同时伴随多媒体技术的飞速发展,Internet上多媒体应用层出不穷,多媒体信息的数量与日俱增.Internet已逐步由单一的数据传送网向数据、语音、图像等多媒体信息的综合传输网演化.1.3 AgentNet 概念正当计算机应用,尤其是网络应用不断增加的时候,计算机用户被许多操作所迷惑。

对此,我们提出AgentNet 的概念。

AgentNet 它是一种新的人机界面的尝试。

通过它,用户可以用语音告诉AgentNet帮你工作。

比如:你说一句”喂,老头,有没有邮件呀?”(老头,是AgentNet 的客户精灵的名字,你当然可以任意设置它的名字),AgentNet 就会帮你收邮件。

又比如你说:“有没有什么新闻呀?”,它就会为你通报你感兴趣的新闻,等等许多智能的功能。

要实现我们的目标,我们在智能代理(Agent)技术上,整合了语音合成和语音识别技术。

同时实现了一套自己开发的网络协议,为以后增加新的智能服务提高了方便。

实现的困难在于:要把现成的许多较新的概念模型实现(如智能代理的实现等),并整合以往的各种成熟的技术(如网络模型的实现、语音技术的运用等等)。

后继章节将讨论其具体问题。

第二章语音合成及语音识别技术2.1 语音技术概述语音识别技术是信息领域的标志技术,这项被科学家称为“比登月还难”的研究,在计算机飞速发展的带动下,有了重大的突破。

语音识别技术日臻成熟,目前正处于向产品化迈进的转折阶段。

语音识别作为人机对话的手段,在计算机日益增长的今天,愈发显得出其在IT产业中的重要地位。

[人机对话梦想成真]人机对话,让电脑听懂人的语言是二十世纪人类的理想之一。

对于绝大多数人而言,电脑输入绝不是一件令人愉快的事情,人们心中希望计算机是个“能听会说”的工作伙伴,而不是今天这般又聋又哑毫无生气的复杂机器。

直接对计算机发号施令,解放出我们的双手,在任何状态(不只限于坐在那里敲键盘)下与计算机进行互动交谈式的操作是数字化生存时代的效率体现和人性化工作方式的完满结合。

Microsoft公司的总裁比尔·盖茨认为:下一代的操作系统以及应用程度的用户界面将摒弃键盘和鼠标,代之以真正意义的人机对话。

从另一方面看,微电子技术发展到今天,摩尔定理仍惊人的准确,计算机和电子通信设备日益微型化。

在小型化(minianturization)的趋势下,袖珍型的掌上电脑已有了“实验室产品”不久将出现在你我的手中,由此不难看到,计算机将会微缩成腕上的手表般大小。

显而易见,如若仍采用键盘输入是不可能的,还有其它类似控制仪器或通讯设备的键盘,也将在微型化的潮流之中成为众矢之的遭到淘汰。

由此,语音输入便成为唯一的最佳选择。

人们将完全抛弃键盘,对着手表大小的腕上计算机或电话,轻声说出想要计算机完成的工作或是说出要拨打的电话号码。

“一切尽在数言中。

”[有限的词汇无限的应用]语言是人类交流的第一手段。

而语言本身也正随着社会的发展而不断地更新变异,人们终其一生都在自觉或不自觉地进行着语言的学习和更新。

无疑这种变化将成为计算机语音识别的重大难点。

随心所欲地同计算机交谈是人类追求机器智能化的最高境界,这种“智能听写机”构成的系统是无限词汇(无限命令集)的语音识别,其技术难度远高于“有限命令集”,就目前的研究水平,研制一些有限词汇(有限命令集)的专听写用系统是尽快将语音技术扩大应用范围、推向市场的快捷途径。

2.2 微软语音技术[Speech 概述]微软Speech SDK 5.0是微软公司的语音开发软件包工具。

其工具、信息、引擎和样品帮助,与微软公司API 5.0结合起来成为一个软件包。

Speech SDK也包括微软公司的先进的语音识别引擎和微软公司的Concatenative的语音合成引擎(以前代号为的“wistler”)SAPI 5.0由2个接口:应用程序设计接口(API)和设备驱动程序接口(DDI)构成。

SAPI的5.0 API显著地减少了使用语音识别的应用和综合的代码。

SAPI的5.0 DDI和API 除掉了许多类似在语音合成和识别引擎的多线程,在声音的装置管理和方便的应用的实现细节。

[API 事件]Speech SDK 语音合成和语音识别与应用程序的接口,是通过接收API事件完成。

例如,正文的词,或通用的短语被识别的时候成生了API 事件。

[语音合成API]应用程序使用接口-- ISpV oice,使API 完成基本语音合成。

应用程序通过具有CLSID_SpV oice 的COM CoCreateInstance方法得到ISpV oice接口得到COM 接口指针。

应用程序能通过ISpV oice:Speak 的方法合成语音,将把要合成的语音的文本通过参数传递给Speech SDK。

[语音识别API]就像IspV oice 作为语音合成API 一样,ISpRecoContext是给语音识别的主要的接口对象指针。

通过设置NotifySink 识别事件陷阱池,应用程序可以捕获语音识别完成事件。

第三章 Agent 技术介绍3.1 Microsoft Agent技术介绍Microsoft Agent最早出现在Office 95中,主要用于Office 的帮助,微软称之为“Office 助手”--是在一个小窗口内播放各种幽默的卡通动画,而且这些动画是随特定的操作不同而改变,这就给使用电脑的人增添了许多乐趣。

不过这种方式在现在看来是很“简陋”的,不直观也不形象生动。

1997年微软推出Agent 1.5版,从界面上彻底脱离了窗口的限制,而变得非常形象生动,而且其核心采用了基于COM的ActiveX控件方式,这就意味着Agent 可以在Visual C++、Visual Basic、Html以及所有支持ActiveX的开发语言很方便的进行二次开发。

同时其它领域的相关技术也很好的应用到Agent中来,如语音合成、语音识别等技术(这里需要特别提出的是有关中文语音合成和识别至尽尚未应用于Agent,不能不说是一种遗憾)。

这样Agent就转变为新一代会说能听的智能界面,其深远意义显而易见。

伴随着新世纪的到来,微软发布的Office2000中彻底的应用了Agent的技术(应该说基于Agent 2.0,听说英文版的Office 2000可支持语音提示和语音命令识别),而且微软的新一代操作系统Windows2000完全内置了Agent的组件系统,可见微软对Agent抱有极大的兴趣的。

相关主题