当前位置:
文档之家› 神经网络在语音识别上的应用综述
神经网络在语音识别上的应用综述
文本识别
以所要识别的对象来分,有: (1)孤立词识别(字或词间有停顿,用于控制系统) (2)连接词识别(十个数字连接而成的多位数字识别或 由少数指令构成词条的识别,用于数据库查询、电话和控 制系统) (3)连续语音识别和理解(自然的说话方式) (4)会话语音识别(识别出会话语言)
文本识别
根据识别的词汇量来分,有: (1)大词汇(1000个以上的词汇,如会议系统) (2)中词汇(20~1000个词汇,如定票系统) (3)小词汇(1~20个词汇,如语音电话拨号)
感谢聆听
短时平均能量
3
PART THREE
情绪识别
情绪识别
情感
离散情感 维度情感
支持向量机 K最近邻
隐马尔可夫 GMM
基本情绪
快乐 悲伤 愤怒 惊讶 恐惧 厌恶
语音情绪特征
不同情感对语音产生了什么影响?可以通过哪些特征反映出来呢
韵律特征:最主要的语音情感特征。如语速、音量、音 调等,例如发怒时,都会增加。
语音特征:振幅、共振峰频率、基音频率、持续时间等
语音情绪特征
特征提取
神经网络
循环神 经网络
4
PART FOUR
结论与展望
结论与展望
无论是文本识别还是情绪识别,都是在实验室环境或者相 对安静的环境中进行的,与实际应用有一定差别。现实环境中 充满了噪声,如何实现复杂噪声环境下的语音识别,是一个热 门话题。
1952
线性预测编码 (LPC)
动态时间调整 (DTW)
隐马尔可夫 (HMM)
60到70年代
隐马尔可夫 (HMM)
成功 应用
人工神经网络 (ANN)
80年代
进一步 成熟
嵌入式语言处 理技术
90年代
21世纪
2
PA应用
文本识别的目的是尽可能实现长时间的实时识 别,其识别任务可以根据语音文本的长度分为弧词 语音、词汇语音、连续语音识别三个阶段。
语音识别技术
◎语音识别系统可以分为孤立字(词)语音识别系统、连接字语 音识别系统以及连续语音识别系统。 ◎语音识别系统分为两个方向: 一是根据对说话人的依赖程度可以分为特定人和非特定人语音 识别系统; 二是根据词汇量大小,可以分为小词汇量、中等词汇量、大词 汇量,以及无限词汇量语音识别系统。
语音识别技术发展历史
语音识别流程
训练神经网络
从图的系统整体架构可以看到,建立基于神经网络的语音识 别系统可分为两个阶段,即训练阶段和识别阶段。首先由用户通过 麦克风输入语音形成原始语音,然后系统对其进行预处理。
语音识别流程
神经网络输入数据 训练神经网络
DNN
LSTM
RNN
.......
线性预测系数 Mel倒谱 LPC倒谱
在情绪识别领域,尽管已经发掘了较多情绪语音的特征, 但这些特征对该种情绪贡献多大并未有一个定量的研究,特征 之间的相互联系也需要大量工作去发现证明,随着神经网络的 快速兴起,如何使用神经网络找到更有效的情绪特征,也是一 个需要深入研究的问题。相信随着计算机技术的发展,更快速 更准确的识别手段将被发现并应用,人机交互的方式将更加便 捷。
神经网络语音识别上的应用
汇报人:李雄
CONTENTS
01 / 语音识别概述 02 / 文本识别 03 / 情绪识别 04 / 结论
1
PART ONE
语音识别概述
语音识别技术
◎语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转 换为计算机可读的输入。 ◎语音识别以语音为研究对象,涉及到生理学、心理学、语言 学、计算机科学,以及信号处理等诸多领域,最终目的是实现 人与机器进行自然语言通信,用语言操纵计算机。