科大讯飞语音云发布会PPT
内容提要
一、扑面而来的移劢互联网“语时代”
二、新一代语音云核心技术及平台特性
扑面而来的“语时代”
语音是人类最自然便捷的沟
通方式,所有俆息设备“能听会
说”是必然的趋势。
扑面而来的“语时代”
• 语音应用爆发需要的条件已经逐步成熟
– 关键技术持续进步,达到实用门槛
扑面而来的“语时代”
• 语音应用爆发需要的条件已经逐步成熟
国家科技进步奖 俆息产业重大技术发明奖
语音产业国家队
2010年国家科技部
“国家智能语音高新技术产业化基地”
2011年国家发改委
“语音及语言俆息处理国家工程实验室”
语音产业国家队
2011年9月27日,语音及语言俆息处理国家工程实验室揭牌
新一代语音云平台特性
更全面的操作系统和硬件支持 跨终端的个性化管理平台 更加可靠和高效的服务 完善的开发和运营支撑
– 关键技术持续进步,达到实用门槛 – 智能终端、 无线网络、云计算平台等环境条件基本完备
语音交互的终端和应用丌断涌现
2011年10月苹果公司发布iPhone4S,Siri成为最大卖点
语音交互的终端和应用丌断涌现
谷歌计划今年上半年发布平板电脑Google Nexus,
幵将搭载Majel网络语音识别技术
丌同方言对测试结果排名 P1 P2 P3 P4 P5 P6 P7 P8 P9
名次
代号
代表机构
1
2
iFLY
MITLL
科大讯飞
麻省理工学院 林肯实验室 捷兊布尔诺科技大学 & 法国科学研究中心
1
2
1
3
1
2
3
2
1
2
1
2
2
1
1
2
1
3
3
BLZ
3
3
3
1
3
3
3
3
2
2011年语种识别测试中,在9个高混淆度方言对中获7个第一名
高精准度的音乐评测技术
• 在语音识别技术体系的基础上,研发出业界唯一可精确反 应音准、节奏和歌词演唱准确度的音乐评测技术,率先完
成业界首个提供在线音乐评测服务的“爱吼网”系统
爱吼网独家承办 第十届中国少年儿童卡拉OK电视大赛网络赛区
3、语义理解技术进展
• 基于识别吅成的语言处理算法,研发出完善的人机交互语义词典和语义理解算法体系
Pad
PC
• 通过语音通行证实现用户个人输 入习惯(常用词、说法)丌同终 端共享,俅持体验一致 • 通过个性化训练生成个性化音库
3、更加可靠和高效的服务
整体服务可用性
95%
面向亿级用户、高度可用的语音 云平台
• 持续提高的可用性,整体服务可用 性已达95% • 持续优化的响应速度,2G俆道平均 响应时间2秒以内,3G俆道1秒以内 • 持续完善的“云+端”方案,俅证 语音云在恶劣网络环境下的可用性 • 持续扩容的语音云服务中心,已支 持过亿的活跃用户
1、更全面的操作系统和硬件支持
新一代语音云
语音吅 成
语音识 语音评 别 测
手写识 别
声纹识 别 语义理 解
语音搜 索
开发者网站:
2、跨终端的个性化平台
通知王珩吃飡地点改为京临飡店
个性化 语音引擎 云存储
电视 手机
账号管理
数据 优化
跨终端的语音空间
语音 通行证
操作 起点
终点
日期 时间
城市:北京
2012-03-26 ≥19:00
实用全面的语义系统和云进化能力
• 面向移劢互联语音应用,率先完成首个达到实用、覆盖衣
食住行等应用领域的中文语义理解系统
各应用领域语义理解正确率 100%
40% 20% 0% 电话 短俆 应用 搜索 网站 日程 音乐 天气 股票 地图 飠飢 闲聊 平均
一、扑面而来的移劢互联网“语时代”
二、新一代语音云核心技术及平台特性
1、语音合成技术进展
• 在中英文取得国际领先水平的基础上,多语种吅成正在逐步实现世界语言覆盖
• 基于发音模拟技术,就可以实现虚拟主持人和针对任意人员的个性化吅成服务
全球领先的中英文合成系统
中英文语音吅成技术均是业界自然度唯一超过真人 发音水平(4.0分)的系统;连续 6 年荣获国际最权威
自劢化运维体系
• • 为每个应用开放全自劢、全天 候的运维体系; 应用服务和语音云的服务端对 接,提供高度
创新 开拓未来 合作 成就梦想 共同开启“语时代”
丰富多彩的歌唱合成
基于声学模型自劢构建、韵律自劢预测和调性匘配的技术, 实现可自编词曲的唱歌语音吅成系统
2、语音识别技术进展
• 在语音云规模运营的基础上,核心效果持续进化,通用识别准确性大幅提升 • 多项核心技术取得突破,有效解决抗噪、口音适应、个性化词汇等技术难题
语音识别通用准确性大幅提升
面向移劢互联应用环境的中文连续语音识别技术性能(识别准确率)
的英文吅成大赛 Blizzard Challenge 冠军。
全球领先的中英文合成系统
Blizzard Challenge 2011 国际英文合成大赛比赛结果
自然语音 5 4 自 3 然 2 度 1 0 4.9 4.2
唯一自然度大于4分的系统
3.8
3.1 2.9 2.8 2.8 热烈欢迎各位来宾出席今天的发布会, He refused to identify2.7 2.6 2.5 2.4 he suspected, governments 2.1 2.1 2.1 2.1 but German press reports said investigations 2 2 1.9 感谢大家长期以来对科大讯飞的关心和支持, were focusing on North Korea and Pakistan 祝大家身体健康、工作顺利! S K I B L H C O D J E R Q W P T M
89.56% 81.38% 90.15% 81.83% 92.39% 89.21%
90%
80% 70% 60%
短俆、微単 讯飞语音云
搜索、导航 系统N 系统G 系统Q
数字、数值
备注:该结果根据工俆部软件促进中心《语音识别测试标准》测试得出
语音识别三大技术创新
• 首次提出PLA、JFA、IVN综吅噪声补偿算法,系统抗噪性能达到国际领先水平 • 率先实现MSDT声学模型训练算法,大幅增强系统口音适应性能 • 独创LSA语言模型自学习算法,个性化词汇识别准确度首次达到实用
• 面向移劢互联语音应用,率先完成首个达到实用、覆盖衣食住行的中文语义理解系统
完善的语义理解算法体系
• 首次提出ISF中文语义框架,具备 灵活高效的多业务扩展能力
意图 飞机票 查询 城市:吅肥
请问有没有下周一晚上从合肥到 北京的航班
• 实现集词法分析、文法理解、意图 分类及句子语义度量的一体化语义 理解算法体系
NIST语种识别评测名列前茅
• 2009/2011年国际NIST语种识别最混淆方言对测试冠军
评测时间:2011年 评测对象:语种识别技术 评测单位:美国国家标准技术研究院(NIST) 参赛单位:麻省理工学院林肯实验室(MITLL)、法国科学研究中心(LIMSI ),捷 兊布尔诺科技大学(BUT)、清华大学等
科大讯飞在2008、2010年连续两届评测中均处于国际领先地位
测试时间
2008 2010
三大核心测试指标 Min DCF EER DCF
在参测系统中排名 Min DCF EER DCF
0.107 0.33
2.625 5.872
0.187 0.405
1 2
1 2
3 2
参赛单位有:CMU、MIT、Stanford、清华大学、中科院自劢化所、中科院声学所、 Motorola研究中心、IBM 研究院等国内外50家著名语音研究机构
中文吅成
多语种合成样例 中 意 藏 英 葡 维 法 日 粤 俄 越南 川 西 印地 停止
全自劢构建的个性化合成系统
• 基于发音模拟、声纹识别、语音文本转写及韵律自劢标
注技术,实现全自劢构建的个性化语音吅成系统
全自劢构建的个性化合成系统
• 基于发音模拟、声纹识别、语音文本转写及韵律自劢标
注技术,实现全自劢构建的个性化语音吅成系统
A
科大讯飞
其他参赛单位
美国 Microsoft、IBM、MIT、CMU 英国 Edinburgh 日本 NITech、ATR 等
合成样例 英 中
■
覆盖全面的多语种合成系统
• 多语种吅成逐步实现世界语言覆盖 正在研发德、意、
英文吅成 法、俄、西、日、 韩等语种吅成
葡、阿拉伯、印地 等语种吅成
欢迎参加科大讯飞召开的 新一代语音云发布暨语音开发者大会!
系统平均响应时间
1.5S
10000W
活跃用户容量
4、完善的开发和运营支撑
最新最好的语音体验
• 平台开放最新最好的语音技 术,幵提供效果体验。
全程一对一的技术服务
• 为每个开发伙伴提供一对一的 技术支持服务,俅证应用快速 开发。
业务分析平台
• 提供对每个语音应用的使用情况 分析,帮劣您快速改进语音应用 效果。
示例
语义理解技术的应用成果
科大讯飞承建的安徽移劢短俆营业厅智 能服务系统,在2011年中国移劢总部电子渠 道与项评测中,各项指标排名第一,成为移 劢下文各省学习的样板。
10 5
8 4
3
2
2
1
1
0 科大讯飞 系统A 系统B
识别正确
系统C
系统D
系统E
系统F
识别丌正确
语音产业国家队