当前位置:文档之家› 基于离散隐马尔科夫模型的语音识别技术

基于离散隐马尔科夫模型的语音识别技术


第 2期
高清伦等 :基于离散隐马尔科夫模型的语音识别技术
9
库之间的相似度 (如匹配距离 、似然概率 ) ,判断出 输入语音的语意信息 ,得到最佳的识别结果 [4] 。
( 3 )参考模式库 在识别之前首先建立参考模式库 ,通过讲话 者多次重复语音 ,从原始语音样本中去除冗余信 息 ,保留关键数据 ,再按照一定规则对数据加以聚 类 ,形成模式库 。
=
ν m
(观察
码字 , m = 1, 2, …M ) ( M 时观察矢量 y的维数 )
Ne twork )的识别算法 神经网络 的 概 念 也 已 经 被 应 用 于 语 音 识 别 中 ,其中最有效的一种方法是使用多层神经网络 , 不同层之间的神经元通过一定的加权系数相互连 接 ,这些加权系数可以在训练中进行学习 ,每一个 神经元对所有输入进行读取 ,然后把结果传给下 一层的神经网节点上 。神经网络的主要缺点是不 容易解决时间轴动态归一化问题 ,目前主要用于 小词汇量的语音识别系统中 。
前向概率的递推公式为 :
L
∑ α n
(
j)
=
α A n +1 ij bj ( yn ) ( j = 1, 2, …L )
(1)
i =1
后向概率的递推公式为 :
L
∑ β n
(
j)
=
β A n +1 ij bj ( yn +1 ) ( j = 1, 2, …L ) ( 2)
i =1
3. 4. 2 参数 A 的估计
2 语音识别三种主流技术比较
2. 1 基于动态时间规整 D TW ( D ynam ic T im e W arp ing)的识别算法
DTW 和模板匹配技术直接利用提取的语音 特征作为模板 ,此算法从 20世纪 90年代就进入 成熟期 ,其应用动态规划方法成功解决了语音信 号特征参数序列比较时长不等的难题 ,在孤立词 语语音识别中获得了良好性能 。但因其不适合连 续语音大词汇量语音识别系统 ,目前已被 HMM 模型所取代 。 2. 2 基 于 隐 马 尔 科 夫 模 型 HMM ( H idden
语音识别技术是语音信号处理技术一个重要 的研究方向 ,是让机器通过识别和理解过程把人 类的语音信号转变为相应的文本或命令的技术 , 它属于多维模式识别和智能计算机接口的范畴 , 涉及到声学 、语音学 、语言学 、计算机科学 、信号与 信息处理和人工智能等诸多学科 ,是 21世纪衡量 一个国家信息科学技术发展水平的重要标准之一 。
使用观察值序列调整模型参数称为一个训练 过程 。训练问题是一个非常重要的问题 ,因为它 可以使模型参数最为理想地适应所观察到的训练 数据 。由生成的 VQ 码本将训练集中的各个矢量 序列量化为观察值符号序列 ,最后由 Baum 2W elch 算法训练出离散的 HMM , 并把 VQ 码本和离散 HMM (记为 λν )都训练并存储起来 。 3. 4. 1 前向 、后向概率
图 1 语音识别系统基本结构
( 2 )模式匹配 这是整个语音识别系统的核心 ,它是根据一 定规则 (如 HMM )以及专家知识 (如构词规则 、语 法规则 、语义规则等 ) ,计算输入特征与参考模式
3收稿日期 : 2007 - 01 - 26 作者简介 :高清伦 (1976 - ) ,男 ,河北沧州人 ,硕士 ,主要从事信息工程理论应用方面的研究.
高清伦 ,谭月辉 ,王嘉祯
(军械工程学院计算机工程系 , 河北 石家庄 050003)
摘 要 :概述语音识别技术的基本原理 ,对当前三种主要识别技术 ———动态时间规整技术 、隐含马尔科夫模型
技术及人工神经网络技术进行比较 ,重点介绍基于离散隐马尔科夫模型 (DHMM )的语音识别系统的实现 。
关键词 :语音识别 ;隐马尔科夫模型 ;动态时间规整 ;人工神经网络
M arkov M odel)的识别算法 HMM 方法现已成为语音识别的主流技术 ,目 前大多数大词汇量 、连续语音的非特定人语音识 别系统都是基于 HMM 的 。 HMM 算法很好地描 述了语音信号的整体非平稳性和局部平稳性 ,是 较为理想的一种语音识别模型 。不足之处在于统 计模型的建立需要依赖一个较大的语音库 ,这在 实际工作中占有很大的工作量 ,且模型所需要的 存储量和匹配计算 (包括特征矢量的输出概率计 算 )的运算量相对较大 。 2. 3 基于人工神经网络 ANN ( Artif ic ia l Neura l
(4)
∑a1 ( i)β1 ( i)
i =1Βιβλιοθήκη 3. 4. 4 参数 B 的估计
N
∑ an ( j)βn ( j)
′ b = n =1∶yn =νm
jm
N
∑an ( j)βn ( j)
n =1
( j = 1, 2, …L ) (5)
(m = 1, 2, …M ) (M 为观察矢量 y 的维数 )
其中分子表示只对当前观察矢量 yn
理论上讲 ,状态数是越多越好 ,这是因为随着 状态数的增加 ,识别的错误率会降低到一个很稳 定的程度 ,然而由于训练样本是有限的 ,所以状态 数 N 不能太大 ,如果实验中 N 取的过大 ,则训练 后很多状态在参数 λ = (π, A, B ) 对应项中为 0
10
河北省科学院学报
2007年第 24卷
M
∑bj ( k) = 1 ,其中 M 为编码符号集中符号的总
k =1
数 ,通常采用 K2Mean算法得到码本 ,然后对提取 的特征矢量根据码本做一次矢量量化 VQ (Vector Quantization) ,此时 , M 就是码本的大小 [ 1 ] 。 3. 1 前端处理
语音的前端处理主要包括对 语 音 的 采 样、
第 24卷 第 2期 2007年 6月
河 北 省 科 学 院 学 报 Journal of the Hebei Academy of Sciences
3 文章编号 : 1001 - 9383 (2007) 02 - 0008 - 04
Vol. 24 No. 2 June 2007
基于离散隐马尔科夫模型的语音识别技术
3 基于离散马尔科夫模型识别系统的实现
HMM 是一组用参数表示的 ,用于描述随机过
程统计特性的概率模型 ,它是由马尔科夫链演变 来的 。在语音识别领域中所指的随机过程 ,一般 都是有限长的随机序列 ,统称观察序列 ,记为 O = ( o1 , o2 , …oT ) 。一个 有 N 个 状 态 (记 为 s1 , s2 , …sN )的 HMM 可用三元组参数 λ = (π, A, B ) 表 示 。其中 π = (π1 ,π2 , …,πN ) 为初始分布矢量 , 用于描述观察序列 O 在 t = 1时刻所处的状态 。A 为状态转移概率分布 , A ij = { aij | i, j = 1, 2, …N } 为状态转移概率矩阵 ,其元素 aij 是指 t时刻状态 为 Si ,而在 t + 1时刻转移到状态 Sj 的概率 ,即 A
或者非常接近于 0,成为冗余项 ,实验中的状态数 按其复杂程度固定为从 3 到 8 不等的数目 。本 DHMM 识别系统采用的状态数为 6。 3. 3 D HMM 的 VQ码本形成
离散型 HMM ,其每一个状态的输出概率是按 照观察字符离散分布的 ,每一次转移是状态输出 的字符 ,是从一个有限的离散字符集中按照一定 的离散概率密度分布选出来的 。在语音处理中 , 语音信号先被分割成若干帧 ,每帧求取一个特征 参数向量 ,即每帧用一个参数向量表示 ,并需要将 语音特征参数向量的时间序列进行矢量量化 (VQ ) ,通过矢量量化使每一帧语音信号由特征参 数向量表示转变为用码字符号表示的形式 ,由于 矢量量化技术在离散 HMM 中的应用 ,必然引入 量化误差 ,降低了系统的识别率 ,但此方法简化了 模型和复杂度 ,计算量小 ,便于实时实现 。[ 3 ]码本 容量的大小直接关系到输入矢量同量化后输出矢 量畸变的程度 ,码本容量越大平均失真越小 ,但当 码本容量增大到一定程度时 ,失真度减小非常缓 慢 ,但存储量和搜索所需的计算量大大增加 ,目前 常用 的 容 量 值 一 般 取 为 64, 128 或 256。本 DHMM 识别系统使用的码本大小为 128。 3. 4 参数模型的获取 ———D HMM 的训练
1 语音识别技术概述
语音识别系统本质上是一种模式识别系统 , 目前有很多语音识别算法 ,但其基本原理和基本 技术相似 。一个完整的语音识别系统一般都包括 有特征提取 、模式匹配和参考模式库 3 个基本单 元 ,它的基本结构如图 1所示 。
( 1 )特征提取 所谓特征提取就是从语音信号中提取用于语
音识别的有用信息 ,其基本思想是将预处理过的 信号通过一次变换 ,去掉冗余部分 ,而把代表语音 本质特征的参数抽取出来 ,如平均能量 、平均跨零 率 、共振峰 、LPC系数 、M FCC系数等 。
中图分类号 : TN912. 34
文献标识码 : A
Speech recogn ition technology ba sed on d iscrete HMM
GAO Q ing2lun, TAN Yue 2hu i,WAN G J ia 2zhe n
(D epa rtm ent of Com pu ter Eng ineering, O rdnance Eng ineering College, Sh ijiazhuang Hebei 050003, Ch ina)
Abstract: The condition and the basic p rincip le of speech recognition technology are introduced, three differ2 ent kinds of speech recognition system s such as DTW , HMM , ASR are compared, and p lace emphasis on how to realize DHMM in speech recognition system is p resented emphatically. Keywords: Speech recognition; H idden M arkov Model ( HMM ) ; Dynam ic Time W arp ing (DTW ) ; A rtificial Neural Network (ANN )
相关主题