语音助手算法构架解析
智能问答系统
基于问答对的智能问答
基于以问答对作为知识库的存储方式的智能问答 系统。将用户的问题在知识库中检索出与其语义一致的 问题,并筛选出其有效答案反馈给用户。
优点
方法通用,可以快速覆盖大量的问题 会出现一些有趣的亮点答案
缺点
只能解决有人问过的问题 答案的结果不可控,可能多答案间的冲突 过滤色情和政治内容
智能问答系统
基于结构化知识库的智能问答
以结构化的实体库作为知识存储方式的智能问答 系统,利用语义理解的方式来解析查询,在知识库中计 算出答案,并生成合适的回答文。
智能问答系统
基于结构化知识库的智能问答
以结构化的实体库作为知识存储方式的智能问答 系统,利用语义理解的方式来解析查询,在知识库中计 手,起步较晚,但 基于搜索的技术积累,语义理解效果较好,且自有语 音识别较强,发展潜力大
讯飞语点 / 灵犀
科大讯飞公司推出的语音助手,语音识别能力 国内最强,但语义理解和垂直数据很弱
语音整体框架
用户查询 语音识别(ASR)
大脑
语音合成(TTS)
前端展现
搜狗语音大脑框架
基于模型的意图理解
根据用户查询中的词语的类别倾向性来判断用户 的查询意图类别,这部分主要针对一些查询变化较大或 者意图不太明显的查询有非常好的效果,而且有很强的 容错性,且覆盖范围较大;同时也有较为明显的缺点, 那就是开发成本高,精度很难达到95%以上。
意图理解和解析
查询意图的整体排序
用户查询的意图并不总是明确的,有些查询会 命中很多意图,而我们需要在有限的展示空间中尽可 能的命中用户的意图,所以对多种意图进行综合的排 序展现。
语音助手算法构架解析
张帆 原自然语言处理组@搜狗
语音智能系统
语音智能系统的定义
以人类的自然语言为主要交互方式,从语言中能 够充分理解出用户意图,并能够直接给出对应信息或 者持续交互的系统。
语音智能系统
语音智能系统的定义
以人类的自然语言为主要交互方式,从语言中能 够充分理解出用户意图,并能够直接给出对应信息或 者持续交互的系统。
意图理解和解析 基于模板的意图理解
基于语义模板的方式来精确的理解用户的查询意 图,对一些需求表述非常明确的常用说法有着非常准确 的效果,而且可以很精准的获取查询中的关键信息;缺 点是召回能力较差,容错效果也较差。
意图理解和解析 基于模板的意图理解
基于语义模板的方式来精确的理解用户的查询意 图,对一些需求表述非常明确的常用说法有着非常准确 的效果,而且可以很精准的获取查询中的关键信息;缺 点是召回能力较差,容错效果也较差。
意图理解和解析
查询意图的整体排序
用户查询的意图并不总是明确的,有些查询会 命中很多意图,而我们需要在有限的展示空间中尽可 能的命中用户的意图,所以对多种意图进行综合的排 序展现。 用户:荷塘月色怎么样? 荷塘月色(菜名,小区名,歌曲名,图书名) 用户:北京 百科需求,地图需求,天气需求,新闻需求….
苹果的SIRI
虚拟个人助理,集成在苹果的IOS6系统中,既可以为 用户获取信息,也可以和用户聊天,较为娱乐化。
谷歌的Google now
更加偏向于搜索,重点在有效信息获取,会根据用户 当前的状况推送信息,不支持聊天和持续的交谈。
语音智能系统的流派
苹果的SIRI
虚拟个人助理,集成在苹果的IOS6系统中,既可以为 用户获取信息,也可以和用户聊天,较为娱乐化。
语音智能系统的意义
移动端的特点是输入成本高和屏幕尺寸限 制,语音输入方式解决了前者,智能则通过问 题的精准理解而解决了后者,所以语音智能系 统是搜索在移动端的新形态
语音智能系统的流派
苹果的SIRI
虚拟个人助理,集成在苹果的IOS6系统中,既可以为 用户获取信息,也可以和用户聊天,较为娱乐化。
语音智能系统的流派
谷歌的Google now
更加偏向于搜索,重点在有效信息获取,会根据用户 当前的状况推送信息,不支持聊天和持续的交谈。
IBM的Waston
企业级的问答解决方案,因在《危险边缘》中击败人 类冠军而名声大噪,目标是特别领域的专家系统。
国内语音智能系统
搜狗语音助手
搜狗推出的语音助手,语义理解能力强大,垂 直数据丰富,问答效果突出,且整合了搜狗的知立方, 但自有语音识别技术较弱,目前综合效果最佳
用户个性描述和个性化结果 覆盖类别的扩展 应用场景的扩展 拟人化语音助手
谢谢大家!
E-mail:tedazf@ 新浪微博:@张_帆NLP
用户查询
数据初步处理 意图预识别 垂直数据结果
智能问答
问答结果获取 意图整体排序 生成回答结果
知识图谱 结构化知识获取
前端展现
意图理解和解析
用户查询意图理解 文字 词义 语义片段 用户意图
意图理解和解析
用户查询意图理解 文字 词义 语义片段 用户意图
意图理解概念流程
基础处理:分词,词性标注,句法分析等 词义解析:知识词表标注,实体库信息标注,CRF 实体识别,规则实体识别和规范处理等 语义片段:基于短模板的词义组合 整体意图理解:上下文补全,语义片段整合,意图 模型计算,意图检索结果辅助验证等 多意图排序和展现:多种意图进行排序,决定最终 的展现的结果
意图理解和解析
上下文的信息补全
在语音对话系统中,用户的输入方式与传统的 而搜索有很大的不同,对于一些输入信息不完全的查 询,我们不能拿来直接处理,还需要从对话的上下文 中补全查询中缺失的信息
意图理解和解析
上下文的信息补全
在语音对话系统中,用户的输入方式与传统的 而搜索有很大的不同,对于一些输入信息不完全的查 询,我们不能拿来直接处理,还需要从对话的上下文 中补全查询中缺失的信息 用户:刘德华的身高是多少? 用户:那张学友呢?
意图理解和解析
针对语音输入的纠错
语音识别技术的还不够成熟,在一些噪音环境 下常常会出现错误,对人名中的多音字识别也不好, 所以在文本识别错误的情况下我们需要根据用户查询 的上下文为用户纠正语音识别的错误,尽可能的识别 出用户的真实意图
意图理解和解析
针对语音输入的纠错
语音识别技术的还不够成熟,在一些噪音环境 下常常会出现错误,对人名中的多音字识别也不好, 所以在文本识别错误的情况下我们需要根据用户查询 的上下文为用户纠正语音识别的错误,尽可能的识别 出用户的真实意图 用户:给小旺打电话/给花笑明发短信 用户通讯录:刘德华,王力宏,黄晓明,小李 用户:帮我查一下宫爆鸡丁的做吧 菜谱数据:宫保鸡丁
垂直信息提供 信息获取的途径
固定格式的数据(天气,利率,油价等) 自建垂直系统(商户,客服电话,APP下载等) 外部搜索引擎(通用搜索,问答搜索,音乐搜索等)
自建垂直系统的特点
支持更多语义化的查询,为口语化作支撑 整合多数据源,类别内的平行整合 整合多种数据,类别间的垂直整合
未来发展方向 个性化信息推送
用户:刘德华唱过那些歌曲? 用户:挑几首好听的放一下
意图理解和解析
深层次意图理解
用户的查询非为浅层意图和深层意图,浅层意 图就是直接明确的表述出自己的需求,而深层意图则 没有这么明显,需要推理之后才能得出用户的意图。
意图理解和解析
深层次意图理解
用户的查询非为浅层意图和深层意图,浅层意 图就是直接明确的表述出自己的需求,而深层意图则 没有这么明显,需要推理之后才能得出用户的意图。
浅层意图 用户:附近有电影院吗? 查询周边的电影院 用户:今天的限行尾号是什么? 查询限行
深层意图 用户:我肚子好饿啊 查询周边的餐厅 用户:我尿急 查询周边的厕所(肯德基)
智能问答系统
基于问答对的智能问答
基于以问答对作为知识库的存储方式的智能问答 系统。将用户的问题在知识库中检索出与其语义一致的 问题,并筛选出其有效答案反馈给用户。
优点
识别精度非常高,接近100% 可以回答互联网上没有问过的问题 答案准确,输出格式标准,回答文风格可控
缺点
数据覆盖面较小,且扩充成本较高 只能回答客观问题,无法解决主观问题
垂直信息提供 信息获取的途径
固定格式的数据(天气,利率,油价等) 自建垂直系统(商户,客服电话,APP下载等) 外部搜索引擎(通用搜索,问答搜索,音乐搜索等)
智能问答系统
基于问答对的智能问答
基于以问答对作为知识库的存储方式的智能问答 系统。将用户的问题在知识库中检索出与其语义一致的 问题,并筛选出其有效答案反馈给用户。
计算流程
问题相似度计算和有效问题筛选 答案的筛选,排序和重构 查询的重构(上下文支持)
知识库的组成
Байду номын сангаас
互联网数据知识库(网络抓取) 自有知识库(网络挖掘+人工整理) 聊天类问答(人工撰写)