1.什么是MSP
移动互联网已迅速成为当今世界发展最快、规模最大和市场前景最好的行业,已吸引众多知名IT公司进军该领域。
由于现有移动终端设备交互方式存在诸多局限,如键盘太小,输入文字不便;屏幕太小,阅读信息不便;以及无法处理特定场景下的交互,如开车和步行情形。
语音技术是人机交互最自然的方式,可以给以上缺陷提供完美的解决方法,移动互联网对语音技术有着天然的需求。
科大讯飞拥有全球领先的中文智能语音技术,多年来一直致力于研发将语音技术应用到千家万户,MSP(iFLY Mobile Speech Platform)便在此背景下诞生。
通过MSP,移动互联网的终端用户可以随时随地的使用语音服务。
语音技术带来品质生活,始终是MSP团队所坚持不懈的理念。
1.1主要功能
iFLY Mobile Speech Platform(以下简称MSP)是一个应用于移动互联网的语音服务平台,其主要目标是:
1) 实现可面向移动2G/3G网络及互联网提供语音服务的服务器,在现有科大讯飞电信级语音服务平台ISP基础上为移动终端应用程序提供多路并发的语音合成、语音识别、语音听写功能,通过架设在互联网的语音应用服务器,用户可以随时随地获得高质量的语音服务;
2) 实现基于移动终端以及桌面平台的语音应用客户端,提供统一的语音应用开发接口,通过该接口用户可以方便、快速地开发语音应用;同时,MSP也将开放一些基于移动以及桌面平台的语音应用,用于展示MSP语音服务平台的功能和使用方法,让用户直接体验到最新的语音技术;
MSP最终提供了架构于互联网的语音云服务和一套移动互联网语音解决方案、应用示例,把语音服务的应用范围拓宽到移动互联网领域,为语音服务产品走向移动互联网市场开辟全新的应用模式。
MSP平台整合了科大讯飞研究院、中国科技大学讯飞语音实验室以及清华大学讯飞语音实验室在语音识别、语音合成等技术上多年的技术成果,语音核心技术上达到了国际领先水平。
MSP系统采用分布式架构,继承了科大讯飞成熟的电信级语音平台高稳定的特点,可以满足电信级应用的高可靠性、高可用性要求。
针对传统语音应用集成开发困难,业务设计繁琐的问题,MSP产品大大简化了集成开发和业务开发的复杂度,为系统集成人员和业务开发人员提供了便捷、高效的开发环境。
1.2语音技术介绍
语音是智能人机交互的最直接最便捷的手段,近些年来,语音正在日益影响和改变人们的日常生活。
随着移动互联网时代的到来,移动终端由于本身输入手段的限制,语音技术带来的交互优势更加明显,可以大大提高移动终端的交互体验和交互效率。
智能语音技术包含语音识别和语音合成技术,这两个技术使得终端具备了能听会说的能力。
语音识别(Auto Speech Recognize,ASR)技术,是让机器通过识别和理解过程使之听懂人类语言的技术。
语音识别技术是信息技术中人机交互的关键技术,目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。
随着语音识别在语音搜索、语音控制等全新应用领域的深入应用,语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。
自动语音识别技术所要解决的问题是让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。
ASR技术在“能听会说”的智能计算机系统中扮演着重要角色,相当于给计算机系统安装上“耳朵”,使其具备“能听”的功能,进而实现信息时代利用“语音”这一最自然、最便捷的手段进行人机通信和交互。
语音合成(Text To Speech,TTS)技术能够自动将任意文字实时转换为连续的自然语音,是一种能够在任何时间、任何地点,向任何人提供语音信息服务的高效便捷手段,非常符合信息时代海量数据、动态更新和个性化查询的需求。
近年来,语音识别、语音合成等语音技术取得了长足的进步,科大讯飞语音技术历经20年不懈创新,自90年代中期以来,在历次的国内国外评测中,各项关键指标均名列第一。
MSP移动语音平台是科大讯飞针对日益丰富多样的移动互联网应用需求,向移动互联网推出“即开即有、按需取用”的语音服务能力,为快速构建各种各样移动语音应用程序提供强大、稳定、易用的互联网动力引擎。
1.3系统架构
MSP讯飞语音云平台采用基于互联网的C/S架构,基本拓扑结构如下图:
从上图可以看到,MSP系统部署在互联网上,通过运营商的三网接入,无论是传统的互联网终端还是移动互联网终端都能够通过网络获得语音服务。
MSP在互联网上建立多个云服务中心,每个服务中心能够独立提供稳定的互联网语音服务,云服务中心之间自动同步数据。
通过这种机制,用户可以获得高度可用、流畅的语音功能支持。
下图是MSP产品的主要功能组成模块和组成结构:
上图蓝色区域为MSP系统的实现范围,浅色区域是与MSP密切相关的组件或第三方角色。
MSP系统主要包括语音应用接口(Speech Programming Interface,SPI)、客户端(Mobile Speech Client,MSC)、服务器(Mobile Speech Server,MSS)和基础支撑(MSP Infrastructure)四个层次,这四个逻辑层从用户到服务器操作系统底层,共同构成了完整的MSP 系统架构。
应用接口是MSP系统提供的开发接口,集成开发人员应关注这些接口的定义、功能和使用方法。
MSC负责实现这些接口,同时封装了网络通讯、音频编解码(Audio Codec)、语音检测(VAD)、协议解析(MSSP)等功能,同时为了便于开发和使用,系统在这一层提供了一系列高效、易用的工具。
MSS提供语音服务的服务端实现,使用服务端的识别引擎提供语音功能,同时提供管理和维护功能;基础支撑层是MSP的服务基础,负责提供适合云计算架构的负载均衡、并行计算、数据存储等功能。
1.4集成开发
MSP作为一个向互联网和移动互联网开放的语音引擎,提供了功能完善、简单易用的集成开发接口,以便开发人员能够将其与应用程序进行集成,实现具有完整语音能力的应用。
MSP提供的主要开发接口从提供功能考虑可以分为语音识别(包含语音听写)、语音合成开发接口和语音检测开发接口:
1) 语音识别开发接口
语音识别接口(QISR接口)是应用开发者使用识别引擎和语音听写引擎进行语音应用开发所必需使用的接口,该接口接受用户输入的语
音,把语音识别结果返回给应用程序。
2) 语音合成开发接口
语音合成接口(QTTS)可以让应用开发者在应用程序中集成讯飞语音合成引擎的功能,该接口接受应用程序传入的文本内容,返回符合应用要求格式的音频数据。
3) 语音检测开发接口
语音检测(VAD)是语音识别一个重要的输入环节,用于判断用户语音何时开始、何时结束,该接口集成在MSC客户端内部,通过QISR 接口的参数来返回语音状态。
有关MSP语音开发接口的使用请参考《MSP开发手册》。
移动互联网应用程序需要使用在成千上万各式各样的用户终端之上,用户终端类型从非智能终端到智能终端、从手机到智能玩具、从PC 到互联网电视,应用操作系统环境形形色色、品类众多。
为了满足各类客户端操作系统环境上都能够使用讯飞语音云提供的语音功能,MSC为多种终端环境提供了语音开发接口,主要包含Android、iOS、Symbian、Windows Mobile/CE、MTK等。