当前位置:文档之家› 抗噪声语音识别及语音增强算法的应用

抗噪声语音识别及语音增强算法的应用


|
S^K
|
=
[|
yk
|5
-
βλλ n
(
k)
]1 /5
(1)
其中 5,β为参数 。一般的谱减方法中 λ = 2,β = 1。适当的调
整两参数可以获得更好增强效果 。
掩蔽 ,它描述的是在信号发生的整个时间内产生的掩蔽 , 当 两个音同时作用于人耳时 ,强度大的纯音会影响人耳对强度 小的纯音的感知 ,人耳听不到强度小的纯音 。人耳是一个有 限频率分辨率的声学系统 , 分辨率与当前的频率有关 。掩蔽 曲线如图 2[3 ] 。
ABSTRACT: Imp roving the robustness of speech recognition system is an important issue in speech recognition tech2 nology. The performance of traditional speech recognition system degrades seriously when the training environments and the testing environments are m ismatched . In order to acquire satisfactory performance of speech recognition sys2 tem under noisy environment, in this essay, a new robust speech feature extraction method based on p roperties of the human auditory system is p resented . This method p rocesses the noisy speech by using masking p roperties before the M FCC extraction and analyses the speech feature w ith the speech enhancement algorithm and gets the robust speech feature finally. The results in four different kinds of experiments show that the performance of speech recognition sys2 tem can be imp roved greatly by using the new method under noisy environment and the p roposed method is highly ap2 p licable. KEYW O RD S: Speech recognition; Noise; Robustness; M asking model; Spectral substraction
5) 用离散余弦变换计算倒谱系数 。
3. 4 模型训练
在本文所建立的语音识别系统中 , 每个识别基元使用自
左往右 5状态的 HMM 模型 。如图 4所示 。
a
表示任意状态
ij
i,
j之间的转移概率 ,转移概率矩阵 A为
— 81 —
图 4 隐马尔可夫模型
一个 5行 5列的矩阵 。每个状态 j的观测概率密度分布函数用
量。
bh i
∑ Ei =
P (ω)
(4)
ω =hli
4) 对临界带的频谱应用扩散函数 ,计算语音信号对临近
临界带信号的掩蔽能力 [4 ] 。
5) 用扩散掩蔽门限求得临界掩蔽门限 。 3. 3. 2 带噪语音的特征提取
训练时的掩蔽门限是在纯净语音中求得的 , 而在识别过 程中求得是带噪语音的门限 ,导致识别和训练时的特征提取 不相匹配 ,为了更好的的解决这个问题 , 本实验在求掩蔽曲 线之前使用谱减方法 , 先估计一段无声段噪声的频谱 , 然后 对所有的语音帧频谱减去估计噪声的频谱 , 用图 1所示的方 法。
图 2 M FCC特征提取框图
M FCC在语音识别的特征中得到广泛的应用 ,通常特征 矢量直接从语音的频谱中提取 ,但是 M FCC特征在噪声环境 下容易受噪声干扰 , 本文利用了基于人耳听觉掩蔽模型的 M FCC特征提取方法 ,将掩蔽特性应用于 M FCC的特征提取 。 3. 2 人耳听觉的掩蔽特性
掩蔽分为同时掩蔽和非同时掩蔽 , 一般我们只考虑同时
图 3 掩蔽曲线图
对于一个语音频谱 ,每个频谱分量都可以看着是一个纯
音 ,每个纯音都有其掩蔽特性 ,由于各个分量的能量不同 , 掩
蔽的幅值就不一样 ,语音频率的最后掩蔽曲线 m ( f) 可以表
示为 :
m ( f) = m axΨ ( i) ( f)
(2)
Ψ ( i) ( f) 表示第 i个频率分量在频率算
使用心理听觉模型来计算掩蔽门限值 :
1) 对语音进行分帧处理 。
2) 对每帧进行 FFT变换 ,计算其能量谱 :
P (ω) = R e2 (ω) + Im 2 (ω)
(3)
3) 对每个语音进行临界带分析 , 计算每个临界带的能
Mj
∑ ∑ bj ( ot ) =
CjkN ( ot;μjk ,
m =1
)
jk
(6)
∑ N (;μ, ) 表示 39维的高斯分布函数 , 加权系数为 C, 均值
向量为 μ,方差矩阵为 ∑。
图 5 白噪声背景下的识别精度
4 试验结果及其分析
本实验中进行的孤立数字语音识别 。100个孤立数字语 音文件作为训练集合 ,测试语音为说话人不在训练集合中的 20个孤立数字语音 。我们在测试集的每语音中加入了信噪 比为 15, 10, 5, 0, - 5dB噪声 。用 12个特征参数以及其差分 和二阶差分 。本实验使用 5状态的隐马尔可夫模型 (HMM ) 进行识别 ,识别中共使用数字 0 - 9 的 10 个孤立数字模型 , 噪声来自 Noisex92数据包 ,采用四种方法进行实验 : ①谱减 法 ( SS) , ②传 统 的 M FCC, ③将 掩 蔽 特 性 用 于 特 征 提 取 (MM ) , ④基于掩蔽效应的语音增强法 ( SE) 。实验给出了系 统在白噪声和汽车噪声下的四种方法的实验结果 。
其算法如下 : 1) 用本文所述的谱减方法 (公式 ( 1) ) 。 2) 计算频谱相减后的掩蔽特性曲线 。 3) 取掩蔽门限 TH ( k) 和功率谱 P ( k) 两者之间的大值 。
Pm ( k) = m ax ( TH ( K) , P ( k) )
(5)
4) 通过 M el尺度的三角滤波器阵列 。
图 1 谱减框图
3 抗噪声语音识别
3. 1 特征提取 特征的选择和提取对识别的效果是致关重要的 ,本文识
别器 采 用 M el 频 率 倒 谱 系 数 (M e l - Frequency Cep stra l Coefficien ts, M FCC) 。语音特征参数是分帧提取的 ,语音信号 通过 16KH z频率采样 ,分帧 ,预加重 ,加窗 ,快速傅立叶变换 ( Fa st Fou rie r Tran sfo rm , FFT) ,使用三角滤波器组求得能量 系数取对数再经过离散余弦变换 (D iscre te Co sine Transfo rm , DCT) 计算 12维的 M el倒谱系数 ,并计算短时能量 ,接着计 算其一阶差分向量和二阶差分向量 , 这样每帧语音得到 39 维特征向量 。过程如下 :
1 引言
语音识别系统往往将安静环境下的训练模型应用于含 噪的真实环境中 ,噪声导致的语音特征和对应模板不匹配 , 由于测试环境和训练环境不一致 ,识别性能明显的下降 。近 年来提高语音识别的抗噪声能力有很多比较成功的技术和 算法 ,语音增强技术就是其中一种 。在语音识别系统的前端 应用的语音增强技术能有效的抑制背景噪声 ,但带来的频谱 失真和音乐噪声却是对识别的不利因素 。现代语音处理研 究了人耳的听觉特性 ,基于人的听觉特性的抗噪声语音识别 得到广泛的研究和应用 。很多的研究将人耳听觉系统具有 的掩蔽特性用于语音增强 、语音识别 。本文研究了一种把人 耳的听觉掩蔽特性结合到特征提取中 ,同时为了更好的将训
第 23卷 第 9期 文章编号 : 1006 - 9348 ( 2006) 09 - 0080 - 03
计 算 机 仿 真
2006年 9月
抗噪声语音识别及语音增强算法的应用
汤玲 ,戴斌
(国防科技大学机电工程与自动化学院 ,湖南 长沙 , 410073)
摘要 :提高语音识别系统的鲁棒性是语音识别技术一个重要的研究课题 。语音识别系统往往由于训练环境下的数据和识别 环境下的数据不匹配造成系统的识别性能下降 ,为了让语音识别系统在含噪的环境下获得令人满意的工作性能 ,该文根据 人耳听觉特性提出了一种鲁棒语音特征提取方法 。在 MFCC特征提取之前先对含噪语音特征进行掩蔽特性处理 ,同时结合 语音增强方法对特征进行处理 ,最后得到鲁棒语音特征 。通过 4 种不同试验结果分析表明 ,将这种方法用于抗噪声分析可 以提高系统的抗噪声能力 ;同时这种特征的处理方法对不同噪声在不同信噪比有很好的适应性 。 关键词 :语音识别 ;噪声 ;鲁棒性 ;掩蔽特性 ;谱减 中图分类号 : TP912. 34 文献标识码 : A
2 语音增强 谱减方法 谱减方法 [ spectral subtraction ] [1 ]通过从带噪语音中减 去噪声的估计来得到语音的短时频谱幅度的估计值 。它的 基本图如图 1。 图中 s ( n) 的表示纯净语音 , d ( n) 表示加性噪声 ,λn ( K) 表示噪声功率谱系数 , yk 表示带噪语音 y ( n) 的频谱系数 , Sk 表示纯净语音 s ( n) 的频谱系数 ( k = 0, 1, ……) 。增强后的语 音 s ( n^) 的幅度系数 | ^sk | 由下式得到 :
相关主题