青岛大学Windows语音助手软件需求说明书目录一.引言 (6)1.1编写目的 (6)1.2项目背景 (6)1.3定义 (6)1.4参考资料 (8)二.任务概述 (9)2.1语音识别技术的起源与发展前景 (9)2.1.1语音识别技术简介 (9)2.1.2语音识别技术的应用 (10)2.1.3语音识别技术的发展 (11)2.2功能简介(目标) (12)2.3用户的特点 (12)2.4运行环境 (12)2.4.1硬件环境 (12)2.4.2软件环境 (13)2.5条件与限制 (13)2.6假设与依赖 (13)三.大赛项目要求(功能需求) (13)3.1功能需求介绍 (13)3.2功能需求实例图 (14)3.2功能需求流程图 (15)3.2功能一——语音识别与输入 (16)3.2.1功能说明 (16)3.2.2功能描述 (16)3.3功能二——屏幕取词 (16)3.3.1功能说明 (16)3.3.2功能描述 (16)3.4功能三——语音控制 (16)3.4.1功能说明 (16)3.4.2功能描述 (17)3.5功能四——语音精灵 (17)3.5.1功能说明 (17)3.5.2功能描述 (17)3.6功能五——语音朗读(TTS) (17)3.6.1功能说明 (17)3.6.2功能描述 (17)四.运行要求 (18)4.1用户界面 (18)4.2硬件接口 (18)4.3软件接口 (18)4.4通信接口(无) (18)一.引言1.1 编写目的该文档对所开发的Windows语音助手达到功能、性能、用户界面及运行环境等作出了详细的说明。
他作为对该系统概要设计的依据,帮助开发人员了解本系统的框架思想及实现功能,并验证核实该产品能否满足用户要求的标准,便于技术文档和需求变化的管理。
同时也是用户与开发人员双方对软件需求取得共同理解的基础。
预期读者:大赛评委、项目投资商、产品用户、开发人员,指导老师。
1.2 项目背景▪系统名称:Windows语音助手▪任务提出者:_______▪开发者:青岛大学First Dream Team团队。
▪面向用户:1、希望能够借助语音系统更加快捷、方便的操作电脑的用户。
2、无法很好利用鼠标或键盘对电脑进行操作的残障人士用户。
▪特此声明:此软件的开发作为后期商业项目的原型,均采用授权开发工具,产品拥有自主知识产权,未经允许不得随意传播或使用。
1.3 定义▪SDK:SDK 就是 Software Development Kit 的缩写,中文意思就是“软件开发工具包”。
这是一个覆盖面相当广泛的名词,可以这么说:辅助开发某一类软件的相关文档、范例和工具的集合都可以叫做“SDK”。
▪TTS全称为:TextToSpeech即文本合成语音,此为SAPI的基本类型之一,TTS可以将文本中的字符或文档合成为语音并“说”出来。
▪SR全拼:Speech Recognise即语音识别,此也为SAPI的基本类型之二,SR则可以把人说话的语音转换为易读的字符或文档。
▪SAPISAPI又称语音应用程序编程接口,它减少了语音识别和语音合成应用中的程序代码,使得语音技术在广泛和蓬勃发展的实际应用中更容易使用。
SAPI使得应用程序和语音引擎之间高度紧密的结合。
SAPI可以实时处理各种语音引擎在底层工作中的细节。
SAPI包括文本合成语音应用程序接口,语音识别应用程序接口。
SAPI的两种基本类型是文本合成语音(TTS)引擎和语音识别(SR)引擎。
▪WindowsAPI(Win32API)Windows API是一套用来控制Windows的各个部件(从桌面的外观到为一个新进程分配的内存)的外观和行为的一套预先定义的Windows函数.用户的每个动作都会引发一个或几个函数的运行以告诉Windows发生了什么.API函数包含在Windows系统目录下的动态连接库文件中(如User32.dll,GDI32.dll,Shell32.dll...).1.4 参考资料1.大赛题目设置《Windows语音助手》的相关具体要求。
2.参考书籍:✧《语音识别与控制应用技术》作者:刘幺和,宋庭新编著出版社:科学出版社出版时间: 2008-2-1✧《新编API大全》2009版✧Microsoft MSDN✧Microsoft Speech SDK 5.1 Help✧《C#开发技巧大全》中国水利出版社✧《C#数据安全手册》人民邮电出版社✧《C#高级编程》-清华大学出版社✧《国家标准软件产品需求规格说明书》✧《国家标准可行性分析报告》✧《软件工程》作者:曾建潮I S B N:7562919542出版社:武汉工大出版日期:2004-5-1✧《软件工程与软件文档写作》作者: 文斌,刘长青,田原编著ISBN: 9787810825702 ,7810825704出版社: 清华大学出版社出版日期: 2005-8-1✧《软件需求工程》作者黄国兴周勇出版社清华大学出版社书号302-16860-7出版时间2008年4月字数千字二.任务概述项目最终采用最新微软.NET技术,并结合微软最新语音识别引擎,通过语音输入达到对计算机的基本控制。
本项目在Visual Studio 2008 集成开发环境下开发,基于.NET及Speech语音引擎平台。
给客户带来方便快捷的全新体验。
2.1语音识别技术的起源与发展前景2.1.1语音识别技术简介智能翻译机、语音拨号、语音查询、语音自动定票系统、语音工业控制等等,可以想见,凡用计算机的地方都会有语音识别。
在计算机辅助教育方面,计算机就成为专业的家庭辅导教师;在幼儿进行启蒙教育的玩具中,语音识别也将倍受欢迎。
电脑语音合成技术即CTI(Computer Telephone Integration),是用计算机技术处理电话语音。
通常是建一个信息呼叫中心,用户打来电话时计算机会自动地一层层地转给相关部门,一直到为用户解决问题为止。
有的语音信箱可以支持不同语种。
CTI并非新技术。
与网络电话把数据压缩打包进行传输有所不同,CTI到底还是一种语音模拟传输技术,只不过用上了计算机对语音进行智能管理而已。
发达国家早几年就普及了这项应用,“是个机构就有呼叫中心”,以保证客户或合作伙伴打来的每一个电话都有回应。
中国却还没有走到这一步,目前除了电信部门普遍开通了“呼叫中心”服务之外,大多数企业还刚刚起步。
这个差距反映了管理和竞争意识方面的问题。
中文语音浏览器产品“Interversa”使我们能够用“嘴”遨游互联网实现了“所说即所得”。
Interversa已针对PentiumⅢ的SSE指令集进行了优化,并将在PentiumⅢ上实现最好的性能和识别率。
常见的语音识别系统还有“命令和控制(Command&Control)”(是连续的,拥有小词汇量和独立扬声器)、“语音导航”、微软的“不连续听写(Discrete Dictation)”(是不连续、大词汇量和非独立扬声器的),IBM的ViaVoice则属于连续听写。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,也就是让机器听懂人类的语音。
也就是说,如果电脑配置有“语音辨识”的程序组,那么当你的声音通过一个转换装置输入电脑内部、并以数位方式储存后,语音辨识程序便开始以你输入的声音样本与事先储存好的声音样本进行对比工作。
声音对比工作完成之后,电脑就会输入一个它认为最“象”的声音样本序号,就可以知道你刚才念的声音是什么意义,进而执行此命令。
说起来简单,但要真正建立辨识率高的语音辨识程序组,却是非常困难而专业的,世界各地的学者们也还在努力研究最好的方式。
专家学者们研究出许多破解这个问题的方法,如傅立叶转换、倒频谱参数等,使目前的语音辨识系统已达到一个可接受的程度,并且辨识度愈来愈高。
本项目是一个基于语音识别的一个智能化服务产品,是面向服务设计的成功案例之一。
2.1.2语音识别技术的应用语音识别技术的应用主要有以下两个方面。
一是用于人机交流。
目前这方面应用的呼声很高,因为使用键盘、鼠标与电子计算机进行交流的这种方式,使许多非专业人员,特别是不懂英语或不熟悉汉语拼音的人被拒之于门外,影响到电子计算机的进一步普及。
语音识别技术的采用,改变了人与计算机的互动模式,人们只需动动口,就能打开或关闭程序,改变工作界面。
这种使电脑人性化的结果是使人的双手得到解放,使每个人都能操作和应用计算机。
电话仍是目前使用最为普遍的通信工具,通过电话与语音识别系统的协同工作,可以实现语音拨号、电话购物以及通过电话办理银行业务、炒股、上网检索信息或处理电子件等。
不久,能按主人口令接通电话、打开收音机,以及通过声纹识别来者身份的安全系统也将获得应用。
语音识别技术的另一方面应用便是语音输入和合成语音输出。
现在,已经出现能将口述的文稿输入计算机并按指定格式编排的语音软件,它比通过键盘输入在速度上要提高2~4倍。
装有语音软件的电脑还能通过语音合成把计算机里的文件用各种语言“读”出来,这将大大推进远程通信和网络电话的发展。
在现阶段,语音技术主要用于电子商务、客户服务和教育培训等领域,它对于节省人力、时间,提高工作效率将起到明显的作用。
能实现自动翻译的语音识别系统目前也正在研究、完善之中。
2.1.3语音识别技术的发展语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。
语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。
语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
语音识别是一门交叉学科。
近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。
人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。
很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
语音识别产品将是继电话、计算机、Internet之后信息产业界的又一次革命。
如果我们能够突破人机交互的瓶颈,就能使任何人都可以对计算机“发号施令”,口授文章,甚至“亲切交谈”,真正全面地实现“君子动口不动手”的人机交互方式。
正是这充满潜力的市场前景使世界上一些知名公司无不看重“语音识别”这块正待开发的市场,IBM、Dragon、Intel、Microsoft、Philips、Motorola、Apple、National、Nortel等大公司都设有专门的语音识别技术研发部或子公司,每年投入的研究经费达数千万美元。