第五届“挑战杯,中国联通安徽省大学生课外学术科技作品竞赛研究报告基于云的机器人问答系统设计与实现薛建2013年4月目录一、序言^ 11. 1研究背景^ 1 1.1.1人机交互技术^ 11.1.2自然语言识别技术^ 2 1.2国内外研究现状分析^ 3二、系统设计^ 4 2^1设计思路^ 42’ 1. 1机器人隱0 ^ 5 2‘ 1. 2讯飞语音云^ 5 2.1.3百度问答服务云^6 2.2详细设计^7 2.2^ 1机器人隱0模块^ 7 2.2.2讯飞语音云模块^9 2.2.3百度问答服务云模块^ 10三、系统性能分析^ 12四、应用前景与展望未来^ 13五、参考文献^ 14一、序言随着机器人技术和人工智能研究的发展,越来越多的智能机器人进入到人们的日常生活当中,但是目前人与机器人之间的交互仍然主要是通过按钮、开关等命令方式,这种交互方式显得很生硬,不够人性化。
为了使得人与机器人的交互方式更加方便、自然、和谐,基于自然语义识别的人机交互系统的研究显得十分重要,这也是近年来人机交互技术的研究重点。
基于云计算的机器人问答系统使用了讯飞语音云和百度知道问答服务云,实现了用户向机器人提出问题,机器人经过短暂“思考”回答出相应的答案并且在说话的同时做出相应行为的功能,该系统实现了一定程度的自然语义的识别,提供了一种更加人性化的人机交互方式。
基于云的机器人问答系统运用当前主流的云技术,将机器人技术、语音识别技术和网络查询技术结合在一起,建立一套机器人问答服务系统,提供了一种更加人性化的基于自然语言的人机交互方式。
云技术的使用,提高了语音识别的效率和问题答案的准确率,为系统的可行性提供了保证。
1.1研究背景1.1.1人机交互技术人机交互技术是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话、交换信息的技术。
人们可以借助键盘、鼠标、操作杆、位置跟踪器、数据手套等设备,用手、脚、声音、姿态和身体的动作、视线甚至脑电波等向计算机传递信息;计算机通过打印机,绘图仪、头盔式显示器、音频等输出设备或显示设备给人提供信息。
目前,人机交互技术正处于多通道、多媒体的智能人机交互阶段,已经取得了不少研究成果,不少产品已经问世。
侧重多媒体技术的有:触摸式显示屏实现的“桌面”计算机,能够随意折叠的柔性显示屏制造的电子书,从电影院搬进客厅指日可待的30显示器,使用红绿蓝光激光二极管的视网膜成像显示器;侧重多通道技术的有:“汉王笔”手写汉字识别系统,结合在微软的了处16〖?0操作系统中数字墨水技术,广泛应用于0打1。
60?的中文版等办公、应用软件中的181八匕^0106 连续中文语音识别系统,输入设备为摄像机、图像采集卡的手势识别技术,以1?只0肥手机为代表的可支持更复杂的姿势识别的多触点式触摸屏技术,以及1?只0肥中基于传感器的捕捉用户意图的隐式输入技术。
人机交互技术领域热点技术的应用潜力已经开始展现,比如智能手机配备的地理空间跟踪技术,应用于可穿戴式计算机、隐身技术、浸入式游戏等的动作识别技术,应用于虚拟现实、遥控机器人及远程医疗等的触觉交互技术,应用于呼叫路由、家庭自动化及语音拨号等场合的语音识别技术,对于有语言障碍的人士的无声语音识别,应用于广告、网站、产品目录、杂志效用测试的眼动跟踪技术,针对有语言和行动障碍人开发的“意念轮椅”采用的基于脑电波的人机界面技术等。
热点技术的应用开发是机遇也是挑战。
基于视觉的手势识别率低,实时性差,需要研究各种算法来改善识别的精度和速度;眼睛虹膜、掌纹、笔迹、步态、语音、唇读、人脸、0嫩等人类特征的研发应用也正在受到关注;自然语言理解目前在语言模型、语料库等方面取得了很大的进展,基于自然语言理解的人机交互方式也是目前研究的热点;另外,与“云计算”等相关技术的融合与促进也需要继续探索。
人机交互技术与计算机始终相伴发展,⑶匕6?^的运算能力日趋强大,网络和通信技术的快速发展,显示技术的重大突破都将为人机交互提供新的起点与高度。
也许有一天,你的房间的墙壁和窗户都是基于技术的巨型显示器,无需遥控器和控制器,游戏机或电视机就能“感应”到你目光的变化、捕捉到你的手势和动作、听懂你语音的命令,用你的头、手、足、躯干就可以控制游戏中的角色。
互联网正在向“云端”计算时代发展,人机交互的发展仍将延续由以计算机为中心的复杂交互向以人为中心的简单、自然交互转移的理念,理想的人机交互模式就是“用户自由’’。
1.1.2自然语言识别技术自然语言识别,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成,这是十分困难的。
造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。
使机器识别语言是人类早已有之的科技幻想,并且早有实践足迹。
早在1920 年,美国一家公司所出品的名为“此也0如X”玩具狗便可以“听从”主人的话而执行走或者停的任务。
不过在这之后相当长的时间里。
这项科技的进展仅限于如何更多、更精确地识别各种口音,进而执行诸如文字显示等十分简单的任务。
1952 年,贝尔实验室的0狀18等人成功研究出了世界上第一个能识别10个英文数字发音的实验系统。
大规模的语音识别研究是在进入了上个世纪70年代以后,在孤立词和小词汇量句子的识别方面取得了实质性的进展。
进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。
此时语音识别的研究思路也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型(目)的技术思路。
此外,再次提出了将神经网络技术引入语音识别问题的技术思路,亦即开始了跨学科的人工智能研究道路。
进入90年代以后,语音识别的研究并没有什么重大突破。
但是,在语音识别技术的应用及产品化方面出现了很大的进展,诸如听写机等基于语音的信息输入设2备此时大量出现。
由仅限于定义为输入法功能的语音识别,向包含后台数据分析的语义识别转型的关键推动力量,是美国的0仙?八①㊀作仙㊀^6868^0^?^ 0^60^8八阴此丫)计划。
显然,语义识别技术蕴含着着人机互动的远大前景,也因此拥有各方足够高的评价和期许。
但它几十年来却缺乏足够的表现。
自然语义识别技术目前在语言模型、语料库等方面取得了一些进展。
语言文字是人类之间用来传播信息的主要载体,怎样让机器理解这些由人类自然语言组成的信息,是摆在人们面前的一个难题。
这个难题又可以分为“自然语言处理”和“自然语言理解”两个部分,“自然语言处理”是基础技术,我们的最终目的也必定是为了更好地实现“自然语言理解”。
自然语言的处理是一个十分庞大的工程,自然语言的语法通常都是十分复杂的,相对于英语来说,汉语语法就更加复杂,因此目前还没有什么方法能够有效的消除自然语义识别时的“歧义问题”。
现阶段,自然语言的处理主要有以下几种主要方法:1.基于关键字匹配的方法;2’以句法-语义分析为主的方法;3^基于大规模语料库的自然语言处理的方法。
这几种方法虽然都有各自的一些特点,但是效果都不是十分理想,也都存在着弊端。
基于关键字匹配的方法是一种近似匹配技术,主要的缺点是分析技术不精确,会导致很多的错误。
以语法-语义分析为主的方法,由于自然语言语法的复杂性、语义的歧义性,分析起来非常复杂,而且无法做到准确、全面。
而基于大规模语料库的自然语言处理,则是一个过于庞大的工程,不适合于工程应用。
1.2国内外研究现状分析在10月2日的苹果产品发布会上,1?^0^6 48的技术升级幅度可谓令业界失望。
然而,被苹果定义为“私人语音助理”来做压轴功能发布的义匕应用,仍然是抓足了人们的眼球。
在发布会上,苹果宣称5匕1可以支持自然语言输入与识别,用户可“命令” 手机读短信、询问天气、设置闹钟等,并且可以搜寻餐厅、电影院等生活信息,甚至是直接订位、订票;另外其与⑶8结合服务的能力也相当强悍,能够依据用户默认的居家地址或是所在位置来判断、过滤搜寻的结果。
81^1被苹果这样的企业推出进行商用,已经意味着“语音识别”这一已经不算新鲜的科技,进一步实现了人工智能化,进而向“语义识别”又迈出了一大步,同时意味着第一款基于它的改变大众生活的消费级产品已经诞生。
在国内,科大讯飞通过在语音核心技术领域的长期积累,不但在中文语音技术上保持领先地位,并且在英文语音技术上也达到国际领先水平。
讯飞语音云是全球首个能同时提供语音合成、语音搜索、语音听写的移动互联网智能交互平台。
作为3移动互联网基础能力设施,讯飞语音云基于“云计算”技术基础将上述业界领先的智能语音技术向各开发厂商和用户同时开放。
移动互联网应用开发伙伴可以像使用水、电那样“即开即用、按需取用”,在很短时间内构建出“能听会说”的特色移动互联网应用,从而使移动互联网语音创新开发的门槛显著降低、开发周期显著缩短,将有利于移动互联网应用的不断创新和丰富。
二、系统设计2.1设计思路人机交互技术的未来发展趋势,就是基于自然语义识别的人机交互技术,我们的目标是使得计算机或者机器人能够听懂人类的语言,能够执行人类语言语义中所包含的命令,并能用人类语言与人类进行交流。
系统设计的基本思路是:利用机器人的话筒采集用户提出的问题的语音数据,调用讯飞语音云的语音识别技术将采集到的语音数据识别成文字数据,获得文字问题,然后将文字问题在百度问答系统中进行查询并获得问题的答案,最后调用机器人语音合成模块将文字答案合成成为语音答案并回答给用户,同时配合一些说话时候的动作,显得更加生动。
系统主要包含三个模块:嫩0机器人模块、讯飞语音云模块和百度问答服务云模块。
系统的工作流程图如图一所示:图一:系统工作流程图2.1.1机器人嫩0嫩0机器人是一款人工智能机器人,身高为23寸,约60厘米,它是由法国八1己6“以^ 1^0^0^108公司生产的。
嫩0拥有着讨人喜欢的外形,并具备有一定程度的人工智能和情感智商,在学术领域里,嫩0是目前世界上运用最广泛的类人机器人。
图二:似0机器人实物图嫩0的硬件是采用最新科技设计制造的,这保证了嫩0动作的流畅性,同时嫩0 还配备了多种传感器,比如摄像头、声纳、陀螺仪等等。
嫩0使用的是八10 660^6 的嵌入式处理器,嫩0支持在多种平台上(“皿X、11仏0*8或08等操作系统下)编程并且拥有一个开放式的编程构架,使得不同的软件模块可以更好的相互作用。
不论使用者的专业水平如何,都能够通过图形化编程平台来为嫩0编写程序,实现各种复杂的功能,进行各个领域的研究。
2.1.2讯飞语音云基于自然语言的人机交互技术的基础是自然语义识别技术,而自然语义识别技术的前提是语音的识别技术。
语音作为人们获取和沟通信息最方便、最有效的手段,智能语音交互技术对于未来人机交互技术的发展具有不可替代的作用,已经被业界公认为移动互联网时代的关键技术之一,蕴藏着巨大的市场前景,并有重要的战略意义。