当前位置:文档之家› 数字信号处理作业之语音识别小论文

数字信号处理作业之语音识别小论文

绪论语言是人类交流信息的基本手段,在人们日益扩大的交流中占据着重要地位。

在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的要性,并取得了重大进展。

大体上说,语音信号处理技术可以分为以下四个面:即语音编码,语音合成、说话人识别和语音识别等。

语音压缩编码是压语音信号便于传输通信和保密;语音合成系统是模仿和代替人口的发音功能语音识别系统则是模仿或代替人耳的听觉功能,说话人识别系统属于生物识技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数识别说话人身份的技术。

与语音识别不同的是,说话人识别利用的是语音信中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个性;而音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强共性。

随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。

1.语音识别概述语音识别是试图使机器能“听懂”人类语音的技术。

语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话。

作为一门交叉学科,语音识别又是以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信1.1国外研究历史及现状语音识别的研究工作可以追溯到20世纪50年代。

1952年AT&T贝尔实验室的Audry系统,是第一个可以识别十个英文数字的语音识别系统。

20世纪60年代末、70年代初出现了语音识别方面的几种基本思想,其中的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

20世80年代语音识别研究进一步走向深入:其显著特征是HMM 模型和人工神经网络(ANN)在语音识别中的成功应用。

90年代,在计算机技术、电信应用等领域飞速发展的带动下,迫切要求语音识别系统从实验室走向实用。

最具代表性的是IBM的ViaV oice和Dragon公司的Dragon Dictate系统。

这些系统具有说话人自适应能力,新用户不需要对全部词汇进行训练,便可在使用中不断提高识别率。

1.2 国内研究历史及现状我国在语音识别研究上也投入了很大的精力,国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。

国家863智能计算机专家组为语音识别技术研究专门立项,我国语音识别技术的研究水平已经基本上与国外同步。

2. 语音识别的流程根据对输出观测值概率的不同描述,HMM(隐式马尔可夫链)可分为离散HMM(DHMM)和连续HMM(CHMM),两者相似,不同的是CHMM使用连续概率密度函数计算状态概率。

而DHMM则使用的是离散的矢量量化(vector quantization,VQ)计算状态概率。

在基于DHMM的非特定人语音识别过程中语音信号先被分成若干音框(帧),每个音框用一个特征向量参数表示,然后将语音特征参数向量的时间序列矢量化,此时每一个音框的语音信号变成VQ码本,用码本训练HMM,最后测试识别率。

3. 语音信号分析方法分类时域特征直接从时域信号计算得到,反应了语音信号时域波形的特征。

如短时平均能量、短时平均过零率、共振峰、基音周期等。

频域及倒谱域特征由时域信号进行频谱变换得到,反映语音信号的频域特性包括傅里叶频谱、倒谱以及利用了语音信号的时序信息的时频谱。

听觉特征指不直接对声道模型进行研究,而是从人类听觉系统对语音的感知特性来刻画语音信号的特征。

4. 短时分析技术语音信号是非平稳时变信号语音信号的特性是随时间而变化的幸运的是具有短时平稳性短时间范围内其特性基本保持不变(缓慢变换),即短时相对平稳——准平稳过程短时分析技术即在对语音信号进行分析时,将语音信号分为一段一段,利用平稳信号的分析方法对每一分段进行处理每一分段成为一“帧”:一般10~30ms为一帧短时分析的不足对语音识别,应采用HMM来分析,以处理语音信号的瞬变和非平稳特性5. 基于Mel频率的倒谱MFCC生理支持根据人类听觉系统的特性,人耳分辨声音频率的过程犹如一种取对数的功能,基于此,出现了Mel频率的倒谱系数(MFCC)MFCC: Mel-Frequency Cepstrum Coefficients.语音识别MFCC参数提取:在语音识别(Speech Recognition)和语者辨识(Speaker Recognition)方面,最常用到的语音特征就是[梅尔倒频谱系数](Mel-scale Frequency Cepstral Coefficients,简称MFCC),此参数考虑到人耳对不同频率的感受程度,因此特别适合用在语音识别。

下面简单的介绍一下求解MFCC的过程。

5.1 音框化(Frame blocking)先将N个取样点集合成一个观测单位,称为音框(Frame),通常N的值256或512,涵盖的时间约为20~30ms 左右。

为了避免相邻两音框的变化过大,所以我们会让两相邻因框之间有一段重迭区域,此重迭区域包含了M个取样点,通常M的值约是N 的一半或1/3。

通常语音识别所用的音频的取样频率为8 KHz或16 KHz,8KHz 来说,若音框长度为256 个取样点,则对应的时间长度是256/8000*1000 = 32 ms。

5.2 汉明窗(Hamming window )将每一个音框乘上汉明窗,以增加音框左端和右端的连续性(请见下一个步骤的说明)。

假设音框化的讯号为S(n),n = 0,…N -1。

那么乘上汉明窗后为S'(n) = S(n)*W(n),此W(n) 形式如下5.3 快速傅利叶转换(Fast Fourier Transform , or FFT )由于讯号在时域(Time domain )上的变化通常很难看出讯号的特性,所以通常将它转换成频域(Frequency domain )上的能量分布来观察,不同的能量分布,就能代表不同语音的特性。

所以在乘上汉明窗后,每个音框还必需再经过 FFT 以得到在频谱上的能量分布。

乘上汉明窗的主要目的,是要加强音框左端和右端的连续性,这是因为在进行 FFT 时,都是假设一个音框内的讯号是代表一个周期性讯号,如果这个周期性不存在,FFT 会为了要符合左右端不连续的变化,而产生一些不存在原讯号的能量分布,造成分析上的误差。

当然,如果我们在取音框时,能够使音框中的讯号就已经包含基本周期的整数倍,这时候的音框左右端就会是连续的,那就可以不需要乘上汉明窗了。

但是在实作上,由于基本周期的计算会需要额外的时间,而且也容易算错,因此我们都用汉明窗来达到类似的效果。

5.4 三角带通滤波器组(Triangular Bandpass Filters )将能量频谱能量乘以一组 20个三角带通滤波器,求得每一个滤波器输出的对数能量(Log Energy )。

必须注意的是:这20个三角带通滤波器在梅尔频率(Mel Frequency )上是平均分布的,而梅尔频率和一般频率 f 的关系式如下:Mel (F )= 2595 * log )7001(10F梅尔频率代表一般人耳对于频率的感受度,由此也可以看出人耳对于频率 f 的感受是呈对数变化的: 在低频部分,人耳感受是比较敏锐 。

在高频部分,人耳的感受就会越来越粗糙 。

三角带通滤波器有两个主要目的:对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。

因此一段语音的音调或音高,是不会呈现在 MFCC 参数内,所以,用 MFCC 为特征的语音识别系统,并不会受到输入语音的音调不同而有所影响。

将傅立叶转换结果经三角带通滤波器组进行滤波。

)(k B m 表示第m 个频带的三角带通滤波器⎪⎪⎪⎩⎪⎪⎪⎨⎧<≤≤--≤≤--<=++++----k f k k f f f k f k k f f f f k f k k B m m m m m m m m m m m m m 11111111,0,,,0)( M m ≤≤1 其中m f 是第m 个频带的中心,这M 个三角形带通滤波器在美尔(Mel-frequency)上是平均分配的。

下面方程式求每一个滤波器输出的对数能量⎭⎬⎫⎩⎨⎧=∑≤≤-)()(log )(21k B k X m Y m f k f m m5.5 离散余弦转换(Discrete cosine transform , or DCT )将滤波器输出的能量作离散余弦(Discrete Cosine Transform , DCT)计算梅尔频率倒频谱系数(Mel-frequency Cepstral Coefficients , MFCC)离散余弦计算公式:L n M m n m Y n C Mm ,...,1,])21(cos[)(][1=-=∑=π其中L 大致取12左右。

5.6 对数能量(Log energy )一个音框的音量(即能量),也是语音的重要特征,而且非常容易计算。

因此我们通常再加上一个音框的对数能量(定义为一个音框内讯号的平方和,再取以 10 为底的对数值,再乘以 10),使得每一个音框基本的语音特征就有 13维,包含了 1 个对数能量和 12 个倒频谱参数。

(若要加入其他语音特征以测试辨识率,也可以在此阶段加入,这些常用的其他语音特征,包含音高、过零率、共振峰等。

)5.7 差量倒频谱参数(Delta cepstrum )虽然已经求出 13 个特征参数,然而在实际应用于语音识别时,我们通常会再加上差量倒频谱参数,以显示倒频谱参数对时间的变化。

它的意义为倒频谱参数相对于时间的斜率,也就是代表倒频谱参数在时间上的动态变化,公式如下:()()()()L m t C t C t C t C M Mm m M M M M m m ,...,2,1,2)(1212=⋅--+=+⋅=∆∑∑∑∑==-=-=τττττττττττ这里 M 的值一般是取 2 ,t 代表音框的数目,cm(t)指第t 框的倒谱参数。

因此,如果加上差量运算,就会产生 26 维的特征向量;如果再加上差差量运算,就会产生 39 维的特征向量。

一般我们在 PC 上进行的语音识别,就是使用 39 维的特征向量。

相关主题