当前位置:文档之家› 基于MATLAB的汉语数字语音识别系统

基于MATLAB的汉语数字语音识别系统

张 培 玲 , 凌 飞 成
( 河南理工大学 电气学院 , 河南 焦作 440) 5 0 0

要: 应用动 态时间规整 (T 为识别 算法, 用M C ( E 频率倒谱 系数) D W) 采 F CM L 为主要语音特 征参数 , 建立 了一 个汉
语数字语音识别 系统 , 中包括语音信号 的预 处理 、 其 特征 参数的提 取 、 别模板 的训练、 别匹配算 法; 识 识 同时 , 出利 提 用 MA L B图形用户界 面开发环境设计语音识 别 系统界 面 , TA 设计 简单 , 用方便 , 使 系统界 面友好 。
为 了体 现语 音 的动态 特性 及能 量对 语音 区分 的作 用 , 在 上述 语 音 特征 矢 量 中加 人 了一 阶差 分 MF C 还 C 及 其 一 阶能 量 和一 阶差分 能 量 , 中能量 参 数 用语 音 其
平 均能 量进 行 了归一 化 。
3 训 练 与识 别
路 径不 是 随 意选 择 的 , 因为任 何 一种 语 音 的发 音快 慢 都有 可 能变化 , 但是 其各 部分 的先后 次 序不 可能 改变 , 因此 所选 的路 径必 定是从 左 下角 出发 , 在右上 角结 束 ,

xk z ) / . (一 n (一 (e K. i ∑ )
尸 ) xkl (=l( 。 ).

( 1 )
( 2 )
其中 , 为 52 l 点。然后再求信号能量谱 , : 即 5 根据 ( ) ) 4 式进行频率弯折 , 在弯折后 的频率轴 上取等间隔滤波器组在频域对功率谱进行滤波.
4 对加窗后的语音信号进行 5 2 ) 1 点离散傅立叶变
换( F , : D T) 即
用过零率找到语音端点的相对精确位置 , 分解 出每一 个 语 音段 。 个实例见 图 2 其 中 5 , 表示无 声段 ,表示 有声 , 段 , 示 有 声 段 结束 后 的无 声 部 分 。从 图 中可 知 有 H表
值 较 大 , 声 语 音 ( 摩擦 音 ) 无 如 的过 零 率 较 高 , 因此 可 以通 过 计 算 短 时能 量 大致 判 断 出语音 的端 点 , 后 使 然
频 预加 重 ;
3 用 海 明 窗 (a migwn o s 函数对 每个 帧进 ) hm n idw ) 行 加窗 处理 , 减少 吉 布斯 (ib) 应 ; i s效 b
11 预 处 理 .
健 性 , 非 特定 人 语 音识 别 方 面有 利 于 减 少 因说 话 人 在
不 同的差 异 可 能带 来 的影 响 。大 量 的研 究 表 明 , 从识
预加重是对信号进行平滑, 即提升高频部分 , 使信 号的频谱变得平坦 , 保持在低频到高频 的整个频带 中 能用 同样 的信噪 比求频谱 , 以便于频谱分析或声道参
n= , , , 仁12 …… , ()1 (7 Mo 为 了使 路 径 不 Ⅳ, 1 , 』= = 7 、 ) 至 于过倾 斜 , 以约束斜 率 在 05 2 可 . 的范 同内 , 如果路 径 已经 通 过 了格 点 , , 么下 一个 通 过 的格 点 ( 那 Ⅲ 只可 能是 下 列 种情 况 之一 。即 : , )( 1m + ) Ⅲ:力+ ,
} 《————
有 声 段

背 景 噪 声

结 束段
图 2 语 音 信 号 的 端 识 别 系统 基 本 原 理框 图
Me频 率 倒谱 系数 ( C ) l MF C的分 析 就是 着 眼 于人 耳 的 听 觉 机 理 , 据 听觉 实 验 的结 果 来 分 析语 音 的 频 依
率 。与 LC P C相 比 , 突 出 优 点 是 不 依 赖 全极 点语 音 其 产 生 模 型 的假 定 , 且 在 噪声 环境 下 表 现 出更 强 的 顽 而
1 语 音信 号 的预 处理
从图 1 知, 可 整个识 别 系统 包括 4 部 分 : 个 预处 理 ; 特征 参数 提 取 ; 练 ; 训 识别 ”I 一。
得 到模 型参 数 , D W 算 法 的训 练 中几乎 不需 要额 外 而 T 的计算 m ; 以 , 所 在孤 立词 语 音识 别 中 ,T 算 法得 到 DW
广 泛 应 用 。 本 系 统 应 用 动 态 时 间 规 整 fT 为识 别 D W) 算法。
31 动 态 时间规 整 .

来 实现 , U的值一般在 0 4 0 8 . ~ . 之间 , 9 9 在本系统中
取 09 。 .7
帧信 号 ; 2 每 一 帧 信 号 用 滤 波 器 H() —09z 作 高 ) z一1 .7
1 语 音信 号 的 端点检 测 . 2
端点检测就是从一段信号 中检测出语音信号的起 始点和结束点 , 这可借助于语音信号 的能量和过零率 两个 时域 参 数来判 断 各数 字 的边界 。有 声语 音 的能 量
数 分 析 。 预加 重 一 般 是 通 过 一 个 数 字 滤波 器 1 , —1 l Z
别 效 果及 抗 噪 声性 能 上来 看 , C 要 优 于 L C 因 MF C PC , 此 本 系统采 用 MF C特征 参数 。MF C 算 方法 如下 : C C计
1 以一 定 窗长 ( 文 取 2 ms 和窗 移 ( 为 1 ms ) 本 0 ) 取 0 ) 把 语 音分 成 一 个个 相 互 重 叠 的帧 , 以下 步骤 用 于 每 将
现 了汉 语语 音 的端点 检 测和 切分 。
在 人机 语 音 通 信 中 “ 瞳” 听 人类 口述 的语 言 , 是人 机 通 信 技术 的基 础 之一 , 目前 正 广 泛应 用 于 控 制 、 信 、 通 消 费 等行业 。

I8帧 =6
S= 1  ̄ 49 ]
J 七
— —
个 典 型 的语音 识别 系统 , 图 1 示 。 如 所
第 4 ( 第 12 ) 期 总 2期
N _(U o12 o4S M N . ) 2
机 械 管 理 开 发
MECHANI AL MANAGE C MENT A ND DE VE OP L MEN T
21年8 01 月
Au . 0 g2 1 1
基于 MA L B的汉语数字语音识 系统 : TA l :
声段是从信号 的第 l 帧开始到第 10 5 0 帧结束 , 由每一 帧 的宽 度还 可 知 端 点 的开 始 时 间 和字 节 长 度 , 而 实 从
收稿 日期 :0 10 —1 : 2 1- 2 7 修回 日期 :0 10 — 4 2 1- 4 1 ’
基 金项 目:00 2 1年度河 南省 高等 学校 青年 骨干教 师基金 资助项 目(00 G S06 ; 21G J-5 )河南理 工大学青年基金 资助 项 目( 2 1—6 ; 南理工 大学大 Q 006 )河 学生科学研 究训练计划基金 资助项 目(9 204 。 0— —3 ) 作者 简介 : 张培玲(97 )女 , i7一 , 山东济南人 , , , 讲师 硕士 从事信号处理和信 息工程教 学与科研 工作 。
关 键 词 : 音 识 别 ; 态 时 间规 正 ; 立 词 ; 形 用 户 界 面 (U ) 语 动 孤 图 G I
中图分类号 :N 1.4 T 9 23
文献标识 码 : A
文章编号 :O 3 7 3 2 1 )4 0 0 — 3 lO — 7 x(0 10 — 2 5 0
0 引 言 语 音识 别 研 究 目的是 让 机 器 具有 人 的 听觉 能力 ,
2; , =力 1 m + ) , = + , 。米 用 , 不 上 ) 埘)( + , 1; 1 表
已存 入模 板 库 的各 个 词 条称 为 参 考模 板 , 个 参 一 考 模 板 可 表 示 为 肚 { 1, ()… … , ( , … , )R2, nm)… ( }/为训 练语 音 帧 的时序标 号 , l ,3 1 m= 为起 点语 音 帧 ,
7 对 ,J 行 离 散 余 弦 变 换 ( C ) 得 到 了 MF ) ,进 7 D T就 —
C C系数 。
J c 一5・ ( (, 表 示测 试 模式 中某一 帧 的交 汇 点 。DP算 法 可 以 苦 O (0) s . 5 nm) ( ) )
这里 , 为倒谱系数的阶数 , i 一般可取 l~6 ; 2 1个 卢1 为滤 波器 的个 数 。在本 文 中 i 1 , 2 。 一Q = 2 Q= 4
如图3 示。 所


在 汉语 数 字 语 音识 别 中 , 为 简单 有 效 的 方法 是 最 采 用 动 态 时 间 规 整 (T 算 法 , 算 法解 决 了发 音 长 D W) 该
短 不一 的模 板 匹配 问题 , 语 音识别 中出现最 早 、 是 较为



/ 『

2 5・ 0
第4 ( 第 12 ) 期 总 2期
机 械 管 理 开 发
Me f =1 2 . 4 ×o 2 +‘ ) l ) l7 1 l ( . ( 0 8 g1
6 计 算通 过各 个频 带 的能量 并取 L G得 到 ) O
( 3 )
用, 距离 越 小则相 似度 越高 。为 了计 算这 一失 真距 离 ,
通 过 的格 点 即 为测试 和参 考模 板 中进行 计 算 的帧 号 。

, 1l ( ( 1 Q. ( 7 o( 志 志; ≤≤ 4 2 g∑ ) ) , ] 一 I PJ I )
式 中: Q为滤 波器 的个 数 ; j ) 第 c( 为 k 个滤 波器 的加 权
函数 。
图3 T 算法搜索路径 示意 图 D W
为 了捕 述 这 条路 径 , 设路 径 通 过 的所 有 格点 依 假
相关主题