科大讯飞语音识别讲义
ISR EP API
端点检测开发接口(ISR end-pointer detection API),识别引擎中 与端点检测相关的开发接口。
ISR REC API
语音识别开发接口(ISR Recognize API),识别引擎中与识别器相 关的开发接口。
主要内容
• 语音识别系统简介 • 语音识别接口介绍 • 基于讯飞语音识别系统SDK的开发
POI检索
中国科学技术大学 安徽大学
北京科技大学 科大讯飞
通过投票机制,评价每个条目的得分,综合未出现音的影 响,可以提供检索结果的候选,并可忽略顺序的影响
POI检索-编辑距离
Ke1 ji4 da4 xue2
中国科学技术大学 安徽大学
北京科技大学 科大讯飞
命令词识别系统的评估
• 假如在N句集内语音中
– 有M1句得到正确识别结果 – 有M2句得到错误识别结果 – 剩下的没有识别结果
• 评价参数
正确识别率 = (?M1/N)
命令词识别系统的评估
• 假如在N句集外语音中,
– 有M句没有识别结果 – 剩下的错误识别
• 评价参数
– 错误接受率 = 1?- (M/N)
– 解码算法只会寻找最大可能的路径,对集外词无拒 识能力
– 解码算法因模型及近似的原因,对集内词识别也不 一定正确
置信度的应用
• 优化用户交互界面
– 高置信度
• 直接默认识别准确
– 中置信度
• 有必要让用户再次确认
– 低置信度
• 默认识别错误,需要再次识别或者转人工坐席
• 置信度门限的确认
– false accept、false reject – EER: equal error rate
讯飞语音识别系统
• 命令词识别系统 • 路由导航系统 • POI系统
1 命令词识别系统
• 以语法的形式限定待识别的内容
$Content = 苹果|香蕉;
• 识别效果与语法的规模息息相关
识别网络的构建
• 将字、词转化为对应的发音序列 • 增加静音节点,以适应语音前后的静音
命令词识别基本原理
• 基本问题
词串
拼音串
客服中心菜单扁平化 地图搜索
主要内容
• 语音识别系统简介 • 语音识别接口介绍 • 基于讯飞语音识别系统SDK的开发
语音识别接口介绍
• InterReco简介 • InterReco接口简介 • InterReco标准接口API及参数
POI识别系统流程
采样量化
端点检测
特征提取
吃过了吗? ……
模型训练
声学模型
语言模型
检索资源
语音识别解码
检索
识别结果
Ke1/da4/ 中国科大/北方科大
置信度判决
POI识别系统的语言模型
• 定义了音节及音节之间的概率
– Unigram, P(zhong1), – Bigram, P(ji4|ke1) – Trigram, P(ji4|zhong1,ke1) –…
置信度判决
手机挂失
语言模型
• 语言模型包含的内容
– 覆盖该领域的所有字、词,及其发音 – 字、词出现的概率及其相互连接的概率
P(手机) = 0.3 P(丢|手机)=0.4
解码网络
• 以所有词的并列为解码网 络,支持回跳循环
• 循环跳回的时候,加入语 言模型概率
语义模型描述了文字与语义的概率
我 的 手机 丢 了 手机/丢
(N-I-D-S)/N
• 导航性能
– 假如总音频数为N,其中导航正确的为M,则导航正确率为
M/N
3 POI识别系统
• Point of Interest • 用户可说出感兴趣的条目的片段
– 支持顺序、跳序、逆序 –如
• “安徽省合肥中国科学技术大学”
– “安徽省合肥中国科学技术大学” – “中国科学技术大学” – “科学技术大学” – “中国科学技术大学合肥”
动态规划可以有效避免识别过程中的插入删除错误,但是其包含时间信息,不能 解决倒序的问题,可以作为投票机制的补充。
三种技术的比较
语言模型 用户语音自由度 语法 语义理解 其它资源 解码结果 应用举例
命令词 否 不自由 是 否 否 命令词 交互查询
呼叫路由
POI
支持
支持
自由
较自由
否
否
是
是
语义模型
检索资源
语音识别开发接口
安徽科大讯飞信息科技股份有限公司 ANHUI USTC iFLYTEK CO., LTD
主要内容
• 语音识别系统简介 • 语音识别接口介绍 • 基于讯飞语音识别系统SDK的开发
课程目的
• 了解语音识别系统的组成及原理 • 了解讯飞语音识别系统的组成 • 了解讯飞语音识别系统的接口及参数 • 掌握基于讯飞语音识别系统API的开发
2 呼叫导航语音识别系统
• 用户语音更加自由、开放
– Q:“我的银行卡丢了,该怎么办” – A:“挂失办理”
• 不再需要编写语法规则 • 不仅需要将语音转化为文字,还需要从文字中
理解意思
呼叫导航流程
采样量化
端点检测
特征提取
吃过了吗? ……
模型训练
声学模型
语言模型
语义模型
语音识别解码
语义理解
识别结果 我/的/手机/丢/了
– 回忆HMM的解码问题 – 如何从网络中寻找一条与语音最像的路径?
基于槽的命令词识别
• 语法的定义,例如定票系统
– 有目的地及出发地两个信息
$Content = 从 $from 到 $to; $from = 北京|上海; $to = 广州|香港;
置信度
• 置信度
– 确认识别结果正确的可信度
• 置信度要解决的问题
0.25 0.25 0.25 0.25 0.7 0.05 0.2 0.05
0.8 0.05 0.05 0.1
S(手机挂失)= 0.8 S(手机上网)=0.05
手机挂失 手机上网 余额查询 彩铃业务
呼叫导航系统的评估
• 识别性能
– 假如“我/的/手机/丢/了”,识别为“我们/手机/丢/掉/了 – 插入错误,如“掉”,标记为I – 删除错误,如“的”,标记为D – 替换错误,如“我们”,标记为S – 假如总词数为N,其中正确为M,则识别准确率为
名词和缩略语
ISR
讯飞语音识别引擎(iFLY Speech Recognizer),其产品名称为 InterReco,ISR是其内部名称。
EP
端点检测(end-pointer detection)是将语音数据(speech)从背 景噪声中分离出来的一项技术,主要应用于语音识别领域,可以很大 程度地降低识别器的运算量,从而能有效地提高识别效率以及识别效 果。