当前位置：文档之家› 语音信号采集与时频域分析正文

语音信号采集与时频域分析正文

第一章引言语音信号是一种非平稳的时变信号，它携带着各种信息。

在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。

语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。

语音信号分析可以分为时域和频域等处理方法。

语音信号可以认为在短时间内(一般认为在 10~30ms 的短时间内)近似不变，因而可以将其看作是一个准稳态过程, 即语音信号具有短时平稳性。

任何语音信号的分析和处理必须建立在“短时”的基础上, 即进行“短时分析”。

时域分析:直接对语音信号的时域波形进行分析，提取的特征参数有短时能量，短时平均过零率，短时自相关函数等。

频域分析:对语音信号采样，并进行傅里叶变换来进行频域分析。

主要分析的特征参数：短时谱、倒谱、语谱图等。

本文采集作者的声音信号为基本的原始信号。

对语音信号进行时频域分析后，进行加白噪声处理并进行了相关分析，设计滤波器并运用所设计的滤波器对加噪信号进行滤波, 绘制滤波后信号的时域波形和频谱。

整体设计框图如下图所示：图1.1时频域分析设计图图1.2加噪滤波分析流程图第二章语音信号时域分析语音信号的时域分析可直接对语音信号进行时域波形分析，在此只只针对语音信号的短时能量、短时平均过零率、短时自相关函数进行讨论。

2.1窗口选择由人类的发生机理可知，语音信号具有短时平稳性，因此在分析讨论中需要对语音信号进行加窗处理进而保证每个短时语音长度为10~30ms 。

通常选择矩形窗和哈明窗能得到较理想的“短时分析”设计要求。

两种窗函数的时域波形如下图2.1所示：samplew （n ）samplew （n ）图2.1 矩形窗和Hamming 窗的时域波形矩形窗的定义：一个N 点的矩形窗函数定义为如下{1,00,()n Nw n ≤<=其他（2.1）哈明窗的定义：一个N 点的哈明窗函数定义为如下0.540.46cos(2),010,()n n NN w n π-≤<-⎧⎨⎩其他= （2.2）这两种窗函数都有低通特性，通过分析这两种窗的频率响应幅度特性可以发现（如图2.2）：矩形窗的主瓣宽度小（4*pi/N ），具有较高的频率分辨率，旁瓣峰值大（-13.3dB ），会导致泄漏现象；哈明窗的主瓣宽8*pi/N ，旁瓣峰值低（-42.7dB ），可以有效的克服泄漏现象，具有更平滑的低通特性。

因此在语音频谱分析时常使用哈明窗，在计算短时能量和平均幅度时通常用矩形窗。

表2.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。

图2.2 矩形窗和哈明窗的频率响应表2.1 矩形窗和哈明窗的主瓣宽度和旁瓣峰值2.2短时能量短时能量主要分析语音信号能量随时间的变化，由于语音信号的清音和浊音之间能量有较大的差距，进而可通过短时能量对语音的清浊音进行分析。

定义短时能量为：221[()()][()()]nn m m n N E x m w n m x m w n m ∞=-∞=-+=-=-∑∑（2.3）其中N 为窗长，当选用矩形窗时则有：2()n m E xm ∞=-∞=∑ （2.4）由式（2.3）能量函数反应语音信号的幅度，同时由图2.3~2.4可知窗长对能量函数起着决定性作用。

窗长太大，不能反应能量n E 的变化，窗长太小，不能得到平滑的能量函数。

短时能量函数的应用:1）可用于区分清音段与浊音段。

n E 值大对应于浊音段，n E 值小对应于清音段。

2）可用于区分浊音变为清音或清音变为浊音的时间（根据n E 值的变窗函数主瓣宽度旁瓣峰值矩形窗4*pi/N 13.3dB 哈明窗 8*pi/N42.7dB化趋势）。

3）对高信噪比的语音信号，也可以用来区分有无语音（语音信号的开始点或终止点）。

无信号（或仅有噪声能量）时，nE值很小，有语音信号时，能量显著增大。

图2.3 不同矩形窗长的短时能量函数图2.4 不同哈明窗长的短时能量函数2.3短时平均过零率短时过零率可以粗略估计语音的频谱特性。

高频率对应着高过零率，低频率对应着低过零率，那么过零率与语音的清浊音就存在着对应关系：清音的过零率高，浊音的过零率低。

定义短时平均过零率：sgn[[]sgn[(1)]()nmZ x m x m w n m∞=-∞=---∑（2.5）其中sgn[]为符号函数，{1,()01,()0sgn()x nx nx n≥-=p。

在矩形窗条件下，可以简化为：11sgn[()sgn[(1)]2nnm n NZ x m x mN=-+=--∑（2.6）图2.5 矩形窗（N=320）条件下的短时平均过零率由图2.5可知为某一语音在矩形窗条件下求得的短时能量和短时平均过零率。

分析可知：清音的短时能量较低，过零率高，浊音的短时能量较高，过零率低。

清音的过零率为0.5左右，浊音的过零率为0.1左右，两但者分布之间有相互交叠的区域，所以单纯依赖于平均过零率来准确判断清浊音是不可能的，在实际应用中往往是采用语音的多个特征参数进行综合判决短时平均过零率的应用：1）区别清音和浊音。

例如，清音的过零率高，浊音的过零率低。

此外，清音和浊音的两种过零分布都与高斯分布曲线比较吻合。

2）从背景噪声中找出语音信号。

语音处理领域中的一个基本问题是，如何将一串连续的语音信号进行适当的分割，以确定每个单词语音的信号，亦即找出每个单词的开始和终止位置。

3）在孤立词的语音识别中，可利用能量和过零作为有话无话的鉴别。

2.4短时自相关函数自相关函数用于衡量信号自身时间波形的相似性。

浊音的时间波形呈现出一定的周期性，波形之间相似性较好；清音的时间波形呈现出随机噪声的特性，样点间的相似性较差。

因此，我们用短时自相关函数来测定语音的相似特性。

短时自相关函数定义为： ()()()()()n m R k x m w n m x m k w n m k ∞=-∞=-+--∑ （2.7）令'm n m =+´，并且'()()w m w m -=，可以得到：''()[()()][()()]n m R k x n m w m x n m k w m k ∞=-∞=++++∑ （2.8）进而则有：1''()[()()][()()]N kn m R k x n m w m x n m k w m k --==++++∑ （2.9）自相关函数常用来作以下两种语音信号特征的估计： 1）区分语音是清音还是浊音：清音的短时自相关函数不具有周期性，浊音是周期信号 2）估计浊音语音信号的基音周期。

图2.6语音信号的自相关函数与平均过零率图（2.6）给出了语音采集信号N=460的短时自相关函数波形和平均过零率。

短时自相关函数波形分析可知：浊音是周期信号，浊音的短时自相关函数呈现明显的周期性，自相关函数的周期就是浊音信号的周期，根据这个性质可以判断一个语音信号是清音还是浊音，还可以判断浊音的基音周期。

浊音语音的周期可用自相关函数中第一个峰值的位置来估算。

反之，清音接近于随机噪声，清音的短时自相关函数不具有周期性，也没有明显突起的峰值，且随着延时k 的增大迅速减小。

2.5时域分析方法的应用 1）基音频率的估计a) 可利用时域分析判定某一语音有效的清音和浊音段。

b) 针对浊音段，可直接利用短时自相关函数估计基音频率。

2）语音端点的检测与估计可利用时域分析判定某一语音信号的端点，尤其在有噪声干扰时，如何准确检测语音信号的端点，这在语音处理中是富有挑战性的一个课题。

第三章语音信号频域分析语音信号的频域分析主要应用傅立叶变换来分析，由于语音信号是随着时间变化的，因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示，但不能直接用于语音信号。

由于语音信号可以认为在短时间内，近似不变，因而可以采用短时分析法。

3.1 短时傅立叶变换由于语音信号是短时平稳的随机信号，某一语音信号帧的短时傅立叶变换的定义为：()()()jwjwmn m X e x m w n m e∞-=-∞=-∑ （3.1）其中w(n-m)是实窗口函数序列，n 表示某一语音信号帧。

令n-m=k'，则得到(')'()(')(')jwjw n k n k X e w k x n k e∞--=-∞=-∑ （3.2）于是可以得到：()()()jw jwnjwkn k X e ew k x n k e∞-=-∞=-∑ （3.3）假定：()()()jwjwkn k X e w k x n k e∞=-∞=-∑ （3.4）则可以得到：()()jw jwn jw n n X e e X e -= （3.5）同样，不同的窗口函数，将得到不同的傅立叶变换式的结果。

由上式可见，短时傅立叶变换有两个变量：n 和ω，所以它既是时序n 的离散函数，又是角频率ω的连续函数。

与离散傅立叶变换逼近傅立叶变换一样，如令ω=2πk/N ，则得离散的短时傅立叶吧如下：2/2/()()()(),(01)j k N n n j km Nm X e X k x m w n m ek N ππ∞-=-∞==-≤≤-∑ (3.6)3.2 语谱图语谱图反映了语音信号的动态频率特性，在语音分析中具有重要的实用价值。

被成为可视语言。

语谱图的时间分辨率和频率分辨率是由窗函数的特性决定的。

时间分辨率高，可以看出时间波形的每个周期及共振峰随时间的变化，但频率分辨率低，不足以分辨由于激励所形成的细微结构，称为宽带语谱图；而窄带语谱图正好与之相反。

宽带语谱图可以获得较高的时间分辨率，反映频谱的快速时变过程；窄带语谱图可以获得较高的频率分辨率，反映频谱的精细结构。

两者相结合，可以提供带两与语音特性相关的信息。

语谱图上因其不同的灰度，形成不同的纹路，称之为“声纹”。

声纹因人而异，因此可以在司法、安全等场合得到应用。

语音采集信号的的语谱图如下图（3.1）所示图3.1语音信号的语谱图3.3复倒谱和倒谱复倒谱^()x n 是()x n 的Z 变换取对数后的逆Z 变换，其表达式如下:^1[ln [()]]x Z Z x n -= （3.7）倒谱()c n 定义为()x n 取Z 变换后的幅度对数的逆Z 变换，即1()[ln |()|]c n z X z -= （3.8）在时域上，语音产生模型实际上是一个激励信号与声道冲激响应的卷积。

对于浊音，激励信号可以由周期脉冲序列表示；对于清音，激励信号可以由随机噪声序列表示。

声道系统相当于参数缓慢变化的零极点线性滤波器。

这样经过同态处理后，语音信号的复倒谱，激励信号的复倒谱，声道系统的复倒谱之间满足下面的关系：^^^()()()s n e n v n =+ （3.9）由于倒谱对应于复倒谱的偶部，因此倒谱与复倒谱具有同样的特点，很容易知道语音信号的倒谱，激励信号的倒谱以及声道系统的倒谱之间满足下面关系：()()()sevn n n c c c =+ （3.10）浊音信号的倒谱中存在着峰值，它的出现位置等于该语音段的基音周期，而清音的倒谱中则不存在峰值。

e商务文档

语音信号采集与时频域分析正文

相关文档推荐：