当前位置:文档之家› 语音信号处理第4讲

语音信号处理第4讲


语音分帧

有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。 通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的 基音周期变化很大,从女性和儿童的2ms到老年男子的14ms(即基 音频率的变化范围为500~70Hz),所以N的选择比较困难。通常在 10kHz取样频率下,N折中选择为100~200点为宜(即10~20ms持续 时间)。
矩形窗2:
x'n (m) ' (m) x(n m), (0 k N 1 K ) 1, m 0 ~ ( N 1 K ) ' (m) m 其它值 0,
3.相关函数的作用
(1)区分清/浊音 浊音语音的自相关函数具有一定的周期性 清音语音的自相关函数不具有周期性,类似噪声。 (2)估计浊音语音信号的周期,即估计基音周期
x (m) x (m k )
n n
对于周期性的语音信号,Fn (k ) 也呈周期性,与 Rn (k ) 相反 的是:Rn (k ) 在谷点时,对应的 Fn (k ) 是峰值 平均幅度差函数和自相关函数有密切的关系可由下式表达:

Fn (k ) 2 (k )[Rn (0) Rn (k )]1/ 2
讨论 X n (e j ) (1)当n取固定值时,记 y (m) xn (m) (n m) x(m),标准 傅里叶变换为:
X n (e )
j
m


x(m) (n m)e
jm

m



y (m)e jm
标准的FT
(2)ω固定不变,记ω=L,相当于一个滤波器
语音分帧
1.窗口的形状 虽然,不同的短时分析方法(时域、频域、倒频域分析)以及 求取不同的语音特征参数可能对窗函数的要求不尽一样, 一般来讲,一个好的窗函数的标准是:在时域因为是语音波
形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘 两端不引起急剧变化而平滑过渡到零,这样可以使截取出的 语音波形缓慢降为零,减小语音帧的截断效应;在频域要有 较宽的3dB带宽以及较小的边带最大值。
短时平均幅度差函数
语音信号的频域分析就是分析语音信号的频域特征。 从广义上讲,语音信号的频域分析包括语音信号的频谱、 功率谱、倒频谱、频谱包络分析等, 而常用的频域分析方法有带通滤波器组法、傅里叶变换法、 线性预测法等几种。本章介绍的是语音信号的傅里叶分析 法。 因为语音波是一个非平稳过程,因此适用于周期、瞬变或 平稳随机信号的标准傅里叶变换不能用来直接表示语音信 号,而应该用短时傅里叶变换对语音信号的频谱进行分析, 相应的频谱称为“短时谱”。
①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④只使用示波器等通用设备,使用较为简单等。
短时平均能量及含义
短时平均能量: En x (m) (m) x(n m)
m 0 2 n m 0 N 1 N 1 2

分帧是用可移动的有限长度窗口进行加权的方法来实现的, 这就是用窗函数ω(n)来乘s(n),从而形成加窗语音信号 sω(n)=s(n) ω(n)。
语音分帧
帧长与帧移: 取的点数为帧长,乘以采样周期得帧长时间 两帧间隔为帧移 两帧一定要有重叠,否则有参数突变 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等, 它们的表达式如下(其中N为帧长): 矩形窗: 1, 0 n ( N 1) (n) n else 0, 汉明窗: 0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
这里K是最大的延迟点数。
短时自相关函数具有以下性质: (1)如果xn(m)是周期的(设周期为N),则自相关函数是同周期的周期函数,
即Rn(k)=Rn(k+Np)。 (2)Rn(k)是偶函数,即Rn(k)=Rn(-k)。 (3)当k=0时,自相关函数具有最大值,即Rn(0)≥|Rn(k)|,并且Rn(0)等于 确定性信号序列的能量或随机性序列的平均功率。
于语音信号的时域分析中。
在语音信号分析中,采用的是短时自相关函数。
1.短时自相关函数
定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下:
Rn (k ) =
N 1 k

m 0
xn (m) xn (m k )
N 1 k m 0
(m) x(m n) (m k ) x(n m k ), 0 k K


根据所分析出的参数的性质的不同可以分为: 时域分析、频域分析、倒频域分析,线性预测分析等; 分析方法的不同: 模型分析方法和非模型分析方法 不论是分析怎么样的参数以及彩什么分析方法,在按帧进行 语音分析,提取语音参数之前,有一些经常使用的、共同的 短时分析技术必须预先进行,如语音信号的数字化、语音信 号的端点检测、预加重、加窗和分帧等,这些也是不可忽视 的语音信号分析的关键技术。

这样,经过上面介绍的处理过程,语音信号就已经被分割成一帧 一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成 平稳的随机信号,利用数字信号处理技术来提取语音特征参数。 在进行处理时,按帧从数据区中取出数据,处理完成后再取下一 帧,等等,最后得到由每一帧参数组成的语音特征参数的时间序 列。
语音信号的时域分析就是分析和提取语音信号的时域参数。 进行语音分析时,最先接触到并且也是最直观的是它的时域 波形。语音信号本身就是时域信号, 时域分析是最早使用,也是应用最广泛的一种分析方法,这 种方法直接利用语音信号的时域波形。时域分析通常用于最 基本的参数分析及应用,如语音的分割、预处理、大分类等。 特点是:
1.短时自相关函数
短时自相关函数存在的问题:随着k的变化,参加运算的项减 少。极限k=N-1时无运算! 改进方法:两个不同长度的窗 2.修正的短时自相关函数
ˆ (k ) x (m) x ' (m k ), 0 k K R n n n
矩形窗1:
m 0
N 1
1, m 0 ~ ( N 1) xn (m) (m) x(n m), (0 k K ) (m) 0, m 其它值
每区一个n,得到一个 En
短时能量及短时平均幅度分析


En是一个度量语音信号幅度值变化的函数,但它有一个缺陷, 即它对高电平非常敏感(因为它计算时用的是信号的平方)。 短时平均幅度函数Mn,它定义为:
M n xn ( m )
m 0
N 1

Mn也是一帧语音信号能量大小的表征,它与En的区别在于计 算时小取样值和大取样值不会因取平方而造成较大差异。
X n (e )
jL m


x(m) (n m)e
jLm
jLm

m

x(m)e jLm (n m)
Z ( m) x ( m)e
当n取不同值时,窗 (n m) 沿着 x(m) 序列滑动
m
Z (m) (n m)

离散的短时傅里叶变换 2 k 2 k j j m 2 k N N ,0 k N 1 则 X n (e ) xn (m)e X n (k ) 令 = N m 在语音信号数字处理中,都是采用 X n (k )代替X n (e j ) 短时傅里叶变换也叫短时谱
语音分帧
2.窗口的长度 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列 关系: Δf=1/NTs

可见,采样周期一定时,Δf随窗口宽度N的增加而减小,即 频率分辨率相应得到提高,但同时时间分辨率降低;如果窗 口取短,频率分辨率下降,而时间分辨率提高,因而二者是 矛盾的。应该根据不同的需要选择合适的窗口长度。
短时平均幅度差函数

短时自相关函数是语音信号时域分析的重要参量。但是,计 算自相关函数的运算量很大,其原因是乘法运算所需要的时 间较长。为了避免乘法,一个简单的方法就是利用差值。为 此常常采用另一种与自相关函数有类似作用的参量,即短时 平均幅度差函数(AMDF)。

平均幅度差函数能够代替自相关函数进行语音分析的原理:


4.2 语音分帧

进行过预加重数字滤波处理后,接下来就要进行加窗分帧处 理。一般每秒的帧数约为33-100帧,视实际情况而定。分帧 虽然可以采用连续分段的方法,但一般要采用如图3-1所示 的交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持 其连续性。前一帧和后一帧的交叠部分称为帧移。帧移与帧 长的比值一般取为0-1/2。
短时过零率分析

定义语音信号xn(m)的短时过零率Zn为:
1 N 1 Z n sgn[ xn (m)] sgn[ xn (m 1)] 2 m 0
式中,sgn[]是符号函数,即
1, ( x 0) sgn[ x] 1, ( x 0)
短时过零率分析
(1)区分清/浊音: 清音平均过零率高,集中在高频端
(1)区分清/浊音:
En , M n 大,对应浊音,En , M n 小,对应清音。
(2)在SNR高的情况下,能进行有声/无声判决
无声时,背景噪声的 En , M n 小 有声时, En , M n 显著增大。判决时可设置一个门限 (3)大致能定出浊音变为清音的时刻,或反之。 存在的问题:
短时能量函数对信号电平值过于敏感,在实际应用中(如定点设备)很
如果信号是完全的周期信号(设周期为Np),则相距为周期的整 数倍的样点上的幅值是相等的,差值为零。
d (n) x(n) x(n k ) 0, (k 0,均幅度差函数

短时平均幅度差函数的定义:
Fn (k )
相关主题