当前位置：文档之家› 《语音识别入门教程》

《语音识别入门教程》

语音识别入门（V1.0）丁鹏、梁家恩、苏牧、孟猛、李鹏、王士进、王晓瑞、张世磊中科院自动化所高创中心，北京，100080【摘要】本文主要以剑桥工程学院（CUED）的语音识别系统为例，并结合我们实验室自身的研究与开发经验，讲述当前主流的大词汇量连续语音识别系统（LVCSR）的框架和相关技术，对实验室的同学进行一个普及和入门引导。

【关键词】语音识别，HTK，LVCSR，SRI1. 引言语音识别技术发展到今天，取得了巨大的进步，但也存在很多的问题。

本文主要以CUED 的语言识别系统为例，说明LVCSR系统技术的最新进展和研究方向，对实验室的同学进行一个普及和入门引导。

1.1 国际语音识别技术研究机构（1）Cambridge University Engineering Department (CUED)（2）IBM（3）BBN（4）LIMSI（5）SRI（6）RWTH Aachen（7）AT&T（8）ATR（9）Carnegie Mellon University (CMU)（10）Johns Hopkins University (CLSP)1.2 国际语音识别技术期刊（1）Speech Communication（2）Computer Speech and Language (CSL)（3）IEEE Transactions on Speech and Audio Processing1.3 国际语音识别技术会议（1）ICASSP（International Conference on Acoustic, Speech and Signal Processing）每年一届，10月截稿，次年5月开会。

（2）ICSLP（International Conference on Spoken Language Processing）偶数年举办，4月截稿，9月开会。

（3）EuroSpeech：奇数年举办，4月截稿，9月开会。

1.4 国际语音识别技术评测z NIST Spoken Language Technology Evaluations Benchmark Tests(/speech/tests/index.htm)1.5 语音识别技术工具包•AT&T FSM Library•CMU-Cambridge Statistical LM Toolkit•CMU Sphinx•CSLU toolkit•CUED HTK•Edinburgh Speech Tools Library•KTH WaveSurfer•MSState ASR Toolkit•NIST Utility Software•SPRACHcore software package•SRI Language Modelling Toolkit•SoX -- Sound eXchange•Transcriber•UCL Speech Filing System•FBVIEW multi-channel audio file viewer1.6 语音识别技术研究语音识别技术研究目前以CUED最为开放和活跃，其工具包HTK和相关研究组的网址如下，通过这些网址可以链接到上述语音识别相关的网站。

z /z /research/speech/通过参考文献的学习，在了解相关的基础原理和研究动态之后，可以结合实验室的发展需求深入研究相关的核心算法。

下面将简要介绍LVCSR的基本原理，以及国际上目前热点研究的核心技术问题，最后给出相关领域的参考文献。

2. 语音识别基本原理2.1 语音识别系统流程语音识别系统的基本任务就是将输入的语音信号，识别成文字符号输出，基本流程如下图所示，基本上分成两个部分：前端处理（Front End Processing, FE）、搜索和解码（Search and Decoding）。

其中，搜索和解码需要利用训练好的声学模型（Acoustic Model，AM）、语言模型（Language Model, LM），以及联系这两个模型的发音词典（Lexicon）。

图一：语音识别系统基本流程图其中，前端处理完成的基本任务就是特征提取和归一化，在广播语音或者电话语音等大段语音处理中，还需要做相应的前端预处理工作，切分成语音片断输入；搜索和解码引擎是整个识别器的主要算法所在，主要采用Viterbi 搜索算法等动态规划方法，搜索在给定模型情况下的最优结果；语言和声学模型则是通过统计方法训练得到的，发音词典是将这两个模型联系起来的桥梁。

2.2 语音识别的统计模型描述语音识别系统首先将输入语音提取成为特征向量序列1T X ，目标是给出特定声学和语言模型下的最大后验词串1N W ，即11111111*********{(|,,,)}(|)*(){}() {(|)*()}{(|)*()}arg max arg max arg max arg max NNNNN N T W T N N TW T N N W T N N W W P W X AM LM Lex P X W P W P X P X W P W LogP X W LogP W λ====+其中，第二个等式中略去了AM 、LM 和Lex ，第三个等式略去主要是因为该项不影响1(T P X )1N W 的选择，第四个等式用对概率取对数也不影响对1N W 的选择，主要用于控制动态范围，参数λ用于平衡声学和语言模型的权重，因为声学和语言模型是用不同语料独立训练的。

为声学得分，11(|T N LogP X W ))1(N LogP W 为语言得分，分别用相应的声学和语言模型计算，语言模型概率具体计算如下：1112111111N11k=1()()*(|)*...*(|)()*...*(|)*...*(|) =P(|)N N N k N k k M N N M k k k M P W P W P W W P W W P W P W W P W W W W −−−−+−+−−+=≈∏1 其中，第一个等式是联合概率的展开，第二个是用M-Gram 近似计算，第三个等式是第二个等式的简写形式。

声学模型概率具体计算如下：11111111111111(|)(|) (,|){(,|)} (|)*(|)max T T T N T L T T L S T T L S Tt t t t t P X W P X H P X S H P X S H P X S P S S −===≈=∑∏其中，第一个等式是利用Lex 信息将词串1N W 转换成音素模型串1L H ，该模型串为隐马尔可夫模型（HMM ）；第二个等式引入隐含声学状态序列，包含模型的时间对齐信息，用于计算声学得分；第三个等式为Viterbi 近似，用“最优”状态序列近似求和式，便于引入动态规划算法搜索最优识别结果；第四个等式将状态跳转概率和观测序列概率分开计算，并略去1T S 11(|T L P S H ))111(|,T T L P X S H 1L H 符号，因为模型已经确定；每帧观测概率通常由混合高斯模型（Gaussian Mixture Model, GMM ）描述：(|t t P X S ))2,,1(|)*(;,t t Mt t i t S i S ii P X S C N X μσ==∑ 其中，为混合项系数，M 为混合项数，为第i 个单高斯分布混合项。

声学模型的HMM 描述如下图所示：i C 2,,(;,)t t t S i S i N X μσ图二：典型的HMM 声学模型结构图图中，声学模型是由5个状态构成：第1个和第5个状态只起到连接作用，没有观测概率；中间的2、3、4状态具有GMM描述的观测概率分布。

模型是一个从左到右的跳转结构，每个跳转有一个概率，这样，每个音素的发音特征就由这样一个模型描述。

2.3 语音识别的模型训练在通常情况下，语音识别的解码器搜索错误相对比较低，语音识别的准确率主要取决于声学和语言模型的精度。

模型精度主要取决于两个方面：一是训练语料的规模和质量，二是训练的工具和算法。

一、声学模型训练声学模型训练就是利用带标注的训练语料，训练每个音素的发音HMM模型。

声学模型训练需要考虑两个基本因素：一是模型的精度，即模型要尽可能精细，以提高系统的识别率；二是模型的鲁棒性，即模型的参数必须得到比较好的估计，有足够的训练参数，确保模型对训练集外的数据具有足够的泛化能力。

通常模型需要考虑这两个方面因素的折中，达到比较好的效果。

目前的LVCSR系统通常采用音素作为基本的建模单元，为了提高建模精度，通常要选用上下文相关的音素模型（Context Dependent Phone Model），即对不同声学上下文下的音素建立不同的模型。

为了保证鲁棒性，通常需要对模型参数进行共享，这种共享的方法，通常是通过决策树分裂的方式，根据给定的上下文问题集，进行自顶向下的分裂，确保训练集中样本很稀疏的模型可以得到鲁棒地估计。

声学模型训练的过程，实际上就是对训练数据的拟合过程，最基本的方法就是最大似然（Maximum Likelihood, ML）的方法，通过Baum－Welch的EM算法，迭代优化模型参数得到。

其它的区分度准则，如MMI和MPE准则也可以用于优化模型，提高模型精度。

为了提高声学模型的精度，通常需要做一些特征归一化、噪声抑制等算法，提高声学模型对声道、说话人、加性噪声等因素的鲁棒性。

另外，自适应技术也用于提高系统对环境和说话人的自适应能力，提高系统的性能。

声学模型训练的典型工具就是HTK工具包。

二、语言模型训练语言模型训练和声学模型训练类似，利用大量的文本语料对模型参数进行估计，对于稀疏的数据，采用回退和平滑技术，提高模型对训练集外语言现象的估计能力。

语言模型训练典型的工具包有SRILM和HTKLM，都可以对语言模型进行训练。

3. 语音识别系统核心技术3.1 前端预处理技术在进行广播新闻或者电话、会议录音等语料时，往往需要对大段的语料进行预处理，切分成适合语音识别系统处理的片断。

预处理主要完成功能为：（1）语音切分（2）语音/非语音判别（3）宽窄带判别（4）男女声判别（5）说话人聚类（6）音乐片断剔除语音预处理的性能对语音识别的效果有比较大的影响，是实用系统中不可缺少的模块。

3.2 特征提取和归一化技术语音特征提取和归一化技术主要是将语音提取成为特征，常用的特征为MFCC特征和PLP特征，在特征提取基础上，通常需要进行一定的归一化，如：（1）均值归一化CMN，主要降低信道影响（2）方差归一化CVN，主要降低加性噪声影响（3）声道长度归一化VTLN，主要降低声道差异造成的影响（4）高斯化Gaussianization，是CMN+CVN的推广算法。

e商务文档

《语音识别入门教程》

相关文档推荐：