语音识别
1 《基于深度学习的语音识别应用研究》
语音识别主要作用就是把一段语音信号转换成相对应的文本信息,系统主要由声学特征提取、语言模型、声学模型和解码器等组成。
训练识别的过程是从原始波形语音数据中提取的声学特征经过训练得到声学模型,与发声词典、语言模型组成网络,对新来的语音提取特征,经过声学模型表示,通过维特比解码得出识别结果。
特征
系统主要由声学特征提取、语言模型、声学模型和解码器等组成。
音识别中的特征包括:线性预测参数(LinearPrediction Coefficients,LPC)、倒谱系数(Cepstral Coefficients, CEP)、梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)和感知线性预测系数(Perceptual Linear Prediction, PLP)等。
声学模型
声学基元选择
词(Word)、音节(Syllable)、声韵母(Initial/Final)
以及音素(Phone)
HMM声学建模
隐马尔科夫模型
声学模型训练准则
最大似然准则
语言模型
统计语言模型,通过概率来表示词序列在语言环境中出现的可能性,并不是基于语法规则的简单判断。
解码器
通过在一个由语言模型、发声词典、声学模型构成的网络空间中
搜索得分较高的状态序列,其中这里的网络空间有动态网络和静态网络,得分主要由声学模型得分和语言模型得分共同决定。
语音识别的深度学习
CNN
将语音看做二维特征输入时,第一维是时域维度,第二维是频域维度,这两维的物理意义完全不同!.
输入层、卷积核、特征图(feature map)都是一维的。
用Kaldi中特征提取工具以帧长25ms、巾贞移10ms,提取原始数据生成39维MFCC特征(12维滤波器输出值加上1维对数能量,以及其一阶差分和二阶差分)。
分布满足a, =0及德尔塔=1,这么做可以直接避免训练样本分布的重新估计。
总结
通过深度神经网络提取语音特征的方法、深度神经网络提取声韵母属性的方法和深度学习搭建声学模型的方法的语音识别系统与MFCC特征下GMM-HMM
搭建的系统就词识别率的结果比较可以看出,深度学习网络替换GMM模型做状态输出的系统识别错误率最低,深度神经网络提取声韵母属性的方法的效果次之,深度神经网络提取语音特征效果比深度神经网络提取声韵母属性效果差,但是比MFCC的系统好。
2 卷积神经网络在语音识别中的应用
将语音看做二维特征输入时,第一维是时域维度,第二维是频域维度。
DNN上实验证明,多帧串联的长时特征对模型性能的提高很重要。
当前帧的前后几帧串联起来构成长时特征。
频域维度上,一般采用梅尔域的滤波带系数( filterbank) 作为参数( 如图% 中选择+ 个滤波频带)
在送入B++ 训练前,将多帧串联构成长时
特征!所有特征都进行了逐句的均值方差规整!
英文标准连续语音识别库TIMIT
主流的语音识别系统基本上都是以隐马尔科夫模型为基础所建立的
倒谱均值方差归一化、声道长度归一化以及RASTA滤波
用深度学习方法提取语音高层特征通常可以采用MFCC、PLP以及filter-bank 等参数作为输入。