当前位置：文档之家› 智能化语音交互项目解决方案

智能化语音交互项目解决方案

硬核方案
语音交互的意义复杂的声学环境前端处理技术和方案
落地案例
结语
团队过往产品案例
物灵：luka阅读养成机器人（京东热卖）
极米科技：Lightank W100
数字家圆：亲见H2
360：巴迪龙儿童陪伴机器人
360：小忆陪伴机器人
TCL：TCL/Alcatel Xess 平板电视（北美上市）
软核方案
在主机中实现软件算法处理和语音交互功能
• 业界领先的语音前端信号处理、唤醒和离线识别等算法 • SDK封装，用于Linux、Android和Windows等操作系统 • 可定制配套麦克风阵列拾音模组（支持I2S/USB接口）
二元线阵
四元线阵
六元可变阵
七元环阵
内嵌不用的语音处理SDK，实现前端语音处理或全功能的语音交互功能，尤其适用于非语音设备的快速升级改造，支持低功耗使用模式。
传统信号处理
（最小化均方误差）
传统端侧信号处理
前端处理
回波抵消解混响宽带空域滤波背景噪声抑制
自动增益控制
规则
客观物理模型音频时频空域特性
• 子问题分而治之：针对不同的声学影响采用不同的信号处理算法加以解决 • 优化目标：抑制非目标相关成分 • 优化准则：最小化均方误差
麦克风阵列的几个典型疑问
深度学习框架下的前后端联合优化
识别误差反向传播
• 前端和后端都以语音识别准确率为优化目标：识别误差从后端声学模型反向传播回前端，用于指导前端的优化 • 途径1：端到端，前后端融合成一个统一的模型，输入为原始语音，输出为识别结果 • 途径2：将后端声学模型的梯度反向传播到前端，用于指导前端的神经网络训练
海量音频先验信息
• 客观物理模型与数据驱动模型相结合 • 既遵从了声源和声传播的物理规律，又利用了先验数据统计建模带来的稳健性和性能提升 • 优化准则未变，依然是最小化均方误差
深度学习+前端处理系统
技术路线（3）
前后端联合优化
（识别准确率）
信号处理与机器学习相结合
（最小化均方误差）
传统信号处理
（最小化均方误差）
海信电视： XT910/920/PX1900
海信电视：XT810
海信电视： MU9600/9800 语音遥控
海尔5代电视机
上海地铁语音购票
新闻采访机
车载语音交互
业界首创
你好斑马
你好斑马
主驾驶位
驾驶位
麦克风阵列
方向1 收音
方向2 收音
方向1 唤醒
方向2 唤醒
结语
用户动态数据循环+“喂养”机器学习=更强的技术和商业生命力
落地案例
结语
什么是前端处理
“自然”意味着对语音交互的场合、使用模式等无约束！
痛点问题
• 远讲交互，目标声源距离拾音设备较远，更易受到声学回声、干扰声源、背景噪声、房间混响等各种不利因素的影响
听不清。。。
听清世界的声音
人类需要听清——语音通信
• 更低的处理延时 • 更高的主观听感和可懂度
机器需要听清——语音识别
1
是不是一定需要麦克风阵列？
麦克风数量是不是越多越好？
2
3
阵列拓扑结构该如何选取？
技术路线（2）
信号处理与机器学习相结合
（最小化均方误差）
传统信号处理
（最小化均方误差）
基于深度学习的端侧信号处理
前端处理
回波抵消解混响宽带空域滤波背景噪声抑制
自动增益控制
规则 +
学习
客观物理模型
音频时频空域特性 +
• 更高的信噪比 • 更好的声学模型适配
前端处理的意义：
• 面对回声、干扰、噪声和混响等各种不利因素的挑战；
• 综合运用信号处理、机器学习手段以及融合语义层面的信息，提高目标语音的信噪比，增强后续处理的声环境稳健性。
一言以蔽之，前端处理是为了让获取的语音更加清晰自然，“听清世界的声音”！
技术路线（1）
技术平台
• 以最小识别错误率为准则的前后端联合优化算法
硬件方案
• 端—云一体的解决方案
• 低成本、低功耗
终端产品
• 痛点：面向具体场景和需求
• 精品：技术 -内容-服务完美融合
THANKS
知识回顾 Knowledge Review
祝您成功！
物联网的端是万物沟通自然为中心
语音交互是人类交流最自然的方式，也将是物联网时代最基本的特质！
语音交互的意义复杂的声学环境前端处理技术和方案
实际案例结语场景来自片化家远讲、方向性干扰、房间混响较高
车
扩散场噪声强、混响小
机场、展会
房间混响高、扩散场噪声强
语音交互的意义复杂的声学环境前端处理技术和方案
复杂声学环境下的语音交互：技术与实践
语音交互的意义复杂的声学环境前端处理技术和方案
落地案例
结语
语音交互是物联网的特质
• 从互联网、移动互联网到物联网的演进，均伴随着硬件终端的革新
• 每一次硬件终端的革新也都伴随着人机交互方式的颠覆
互联网的端是电脑办公效率为中心
移动互联网的端是手机使用便捷为中心

e商务文档

智能化语音交互项目解决方案

相关文档推荐：