当前位置：文档之家› 基于离散隐马尔科夫模型的语音识别技术

基于离散隐马尔科夫模型的语音识别技术

第 2期
高清伦等 :基于离散隐马尔科夫模型的语音识别技术
9
库之间的相似度 (如匹配距离、似然概率 ) ,判断出输入语音的语意信息 ,得到最佳的识别结果 [4] 。
( 3 )参考模式库在识别之前首先建立参考模式库 ,通过讲话者多次重复语音 ,从原始语音样本中去除冗余信息 ,保留关键数据 ,再按照一定规则对数据加以聚类 ,形成模式库。
=
ν m
(观察
码字 , m = 1, 2, …M ) ( M 时观察矢量 y的维数 )
Ne twork )的识别算法神经网络的概念也已经被应用于语音识别中 ,其中最有效的一种方法是使用多层神经网络 , 不同层之间的神经元通过一定的加权系数相互连接 ,这些加权系数可以在训练中进行学习 ,每一个神经元对所有输入进行读取 ,然后把结果传给下一层的神经网节点上。神经网络的主要缺点是不容易解决时间轴动态归一化问题 ,目前主要用于小词汇量的语音识别系统中。
前向概率的递推公式为 :
L
∑ α n
(
j)
=
α A n +1 ij bj ( yn ) ( j = 1, 2, …L )
(1)
i =1
后向概率的递推公式为 :
L
∑ β n
(
j)
=
β A n +1 ij bj ( yn +1 ) ( j = 1, 2, …L ) ( 2)
i =1
3. 4. 2 参数 A 的估计
2 语音识别三种主流技术比较
2. 1 基于动态时间规整 D TW ( D ynam ic T im e W arp ing)的识别算法
DTW 和模板匹配技术直接利用提取的语音特征作为模板 ,此算法从 20世纪 90年代就进入成熟期 ,其应用动态规划方法成功解决了语音信号特征参数序列比较时长不等的难题 ,在孤立词语语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统 ,目前已被 HMM 模型所取代。 2. 2 基于隐马尔科夫模型 HMM ( H idden
语音识别技术是语音信号处理技术一个重要的研究方向 ,是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术 , 它属于多维模式识别和智能计算机接口的范畴 , 涉及到声学、语音学、语言学、计算机科学、信号与信息处理和人工智能等诸多学科 ,是 21世纪衡量一个国家信息科学技术发展水平的重要标准之一。
使用观察值序列调整模型参数称为一个训练过程。训练问题是一个非常重要的问题 ,因为它可以使模型参数最为理想地适应所观察到的训练数据。由生成的 VQ 码本将训练集中的各个矢量序列量化为观察值符号序列 ,最后由 Baum 2W elch 算法训练出离散的 HMM , 并把 VQ 码本和离散 HMM (记为 λν )都训练并存储起来。 3. 4. 1 前向、后向概率
图 1 语音识别系统基本结构
( 2 )模式匹配这是整个语音识别系统的核心 ,它是根据一定规则 (如 HMM )以及专家知识 (如构词规则、语法规则、语义规则等 ) ,计算输入特征与参考模式
3收稿日期 : 2007 - 01 - 26 作者简介 :高清伦 (1976 - ) ,男 ,河北沧州人 ,硕士 ,主要从事信息工程理论应用方面的研究.
高清伦 ,谭月辉 ,王嘉祯
(军械工程学院计算机工程系 , 河北石家庄 050003)
摘要 :概述语音识别技术的基本原理 ,对当前三种主要识别技术 ———动态时间规整技术、隐含马尔科夫模型
技术及人工神经网络技术进行比较 ,重点介绍基于离散隐马尔科夫模型 (DHMM )的语音识别系统的实现。
关键词 :语音识别 ;隐马尔科夫模型 ;动态时间规整 ;人工神经网络
M arkov M odel)的识别算法 HMM 方法现已成为语音识别的主流技术 ,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于 HMM 的。 HMM 算法很好地描述了语音信号的整体非平稳性和局部平稳性 ,是较为理想的一种语音识别模型。不足之处在于统计模型的建立需要依赖一个较大的语音库 ,这在实际工作中占有很大的工作量 ,且模型所需要的存储量和匹配计算 (包括特征矢量的输出概率计算 )的运算量相对较大。 2. 3 基于人工神经网络 ANN ( Artif ic ia l Neura l
(4)
∑a1 ( i)β1 ( i)
i =1Βιβλιοθήκη 3. 4. 4 参数 B 的估计
N
∑ an ( j)βn ( j)
′ b = n =1∶yn =νm
jm
N
∑an ( j)βn ( j)
n =1
( j = 1, 2, …L ) (5)
(m = 1, 2, …M ) (M 为观察矢量 y 的维数 )
其中分子表示只对当前观察矢量 yn
理论上讲 ,状态数是越多越好 ,这是因为随着状态数的增加 ,识别的错误率会降低到一个很稳定的程度 ,然而由于训练样本是有限的 ,所以状态数 N 不能太大 ,如果实验中 N 取的过大 ,则训练后很多状态在参数 λ = (π, A, B ) 对应项中为 0
10
河北省科学院学报
2007年第 24卷
M
∑bj ( k) = 1 ,其中 M 为编码符号集中符号的总
k =1
数 ,通常采用 K2Mean算法得到码本 ,然后对提取的特征矢量根据码本做一次矢量量化 VQ (Vector Quantization) ,此时 , M 就是码本的大小 [ 1 ] 。 3. 1 前端处理
语音的前端处理主要包括对语音的采样、
第 24卷第 2期 2007年 6月
河北省科学院学报 Journal of the Hebei Academy of Sciences
3 文章编号 : 1001 - 9383 (2007) 02 - 0008 - 04
Vol. 24 No. 2 June 2007
基于离散隐马尔科夫模型的语音识别技术
3 基于离散马尔科夫模型识别系统的实现
HMM 是一组用参数表示的 ,用于描述随机过
程统计特性的概率模型 ,它是由马尔科夫链演变来的。在语音识别领域中所指的随机过程 ,一般都是有限长的随机序列 ,统称观察序列 ,记为 O = ( o1 , o2 , …oT ) 。一个有 N 个状态 (记为 s1 , s2 , …sN )的 HMM 可用三元组参数 λ = (π, A, B ) 表示。其中 π = (π1 ,π2 , …,πN ) 为初始分布矢量 , 用于描述观察序列 O 在 t = 1时刻所处的状态。A 为状态转移概率分布 , A ij = { aij | i, j = 1, 2, …N } 为状态转移概率矩阵 ,其元素 aij 是指 t时刻状态为 Si ,而在 t + 1时刻转移到状态 Sj 的概率 ,即 A
或者非常接近于 0,成为冗余项 ,实验中的状态数按其复杂程度固定为从 3 到 8 不等的数目。本 DHMM 识别系统采用的状态数为 6。 3. 3 D HMM 的 VQ码本形成
离散型 HMM ,其每一个状态的输出概率是按照观察字符离散分布的 ,每一次转移是状态输出的字符 ,是从一个有限的离散字符集中按照一定的离散概率密度分布选出来的。在语音处理中 , 语音信号先被分割成若干帧 ,每帧求取一个特征参数向量 ,即每帧用一个参数向量表示 ,并需要将语音特征参数向量的时间序列进行矢量量化 (VQ ) ,通过矢量量化使每一帧语音信号由特征参数向量表示转变为用码字符号表示的形式 ,由于矢量量化技术在离散 HMM 中的应用 ,必然引入量化误差 ,降低了系统的识别率 ,但此方法简化了模型和复杂度 ,计算量小 ,便于实时实现。[ 3 ]码本容量的大小直接关系到输入矢量同量化后输出矢量畸变的程度 ,码本容量越大平均失真越小 ,但当码本容量增大到一定程度时 ,失真度减小非常缓慢 ,但存储量和搜索所需的计算量大大增加 ,目前常用的容量值一般取为 64, 128 或 256。本 DHMM 识别系统使用的码本大小为 128。 3. 4 参数模型的获取 ———D HMM 的训练
1 语音识别技术概述
语音识别系统本质上是一种模式识别系统 , 目前有很多语音识别算法 ,但其基本原理和基本技术相似。一个完整的语音识别系统一般都包括有特征提取、模式匹配和参考模式库 3 个基本单元 ,它的基本结构如图 1所示。
( 1 )特征提取所谓特征提取就是从语音信号中提取用于语
音识别的有用信息 ,其基本思想是将预处理过的信号通过一次变换 ,去掉冗余部分 ,而把代表语音本质特征的参数抽取出来 ,如平均能量、平均跨零率、共振峰、LPC系数、M FCC系数等。
中图分类号 : TN912. 34
文献标识码 : A
Speech recogn ition technology ba sed on d iscrete HMM
GAO Q ing2lun, TAN Yue 2hu i,WAN G J ia 2zhe n
(D epa rtm ent of Com pu ter Eng ineering, O rdnance Eng ineering College, Sh ijiazhuang Hebei 050003, Ch ina)
Abstract: The condition and the basic p rincip le of speech recognition technology are introduced, three differ2 ent kinds of speech recognition system s such as DTW , HMM , ASR are compared, and p lace emphasis on how to realize DHMM in speech recognition system is p resented emphatically. Keywords: Speech recognition; H idden M arkov Model ( HMM ) ; Dynam ic Time W arp ing (DTW ) ; A rtificial Neural Network (ANN )

e商务文档

基于离散隐马尔科夫模型的语音识别技术

相关文档推荐：