当前位置:文档之家› 第2章 语音信号常见特征的提取

第2章 语音信号常见特征的提取


矩形窗谱平滑性能好,但损失高频成分,波形细节 丢失,海明窗与之相反。
4
N=51的直角窗 和海明窗的对 数幅频特性。 海明窗的第一 个零值频率位 置比直角窗要 大1倍左右,同 时其带外衰减 也比直角窗大 得多。
5
窗口的长度:
这里窗长的选择对于反映语音信号的幅度变化起着决定的作 用。如果很大,它等效于很窄的低通滤波器,此时随时间的 变化很小,不能反映语音信号的幅度变化,信号的变化细节 就看不出来;反之,窗长太小时,滤波器的通带变宽,随时 间有急剧的变化,不能得到平滑的能量函数。 标准:一帧内含有1~7个基音周期,10kHz取样下,N 取100~200点。
Rn (k )
m


w(n m ) x(m )w(n k m ) x(m k )
33
短时傅里叶变换为另一种形式:
可得到
34
窗口序列的作用
窗函数应具有如下特性: ①频率分辨率高,即主瓣狭窄、尖锐; ②通过卷积,在其他频率成分产生的频谱泄漏少, 即旁瓣衰减大。 这两个要求实际上相互矛盾,不能同时满足。

m


sgn[ x ( m )] sgn[ x ( m 1)] w ( n m )
sgn[ x w ( m )] sgn[ x w ( m 1)] w ( n )
其中:
1 sgn[ x ( n )] 1 x(n) 0 x(n) 0 1 / 2 N w(n) 0 0 n N 1 其它
e
j T ( N 1) 2
n0
第一个零点:
f 01 f s N 1 N T s
3
海明窗:
0 .5 4 0 .4 6 co s( 2 n ( N 1)) w (n) 0 其 它 0 n N 1
第一个零点: f 01
2 f s N 2 N Ts
m


x ( m ) x ( m k )[ w ( n m ) w ( n m k )]
20
如果定义:
hk ( n ) w ( n ) w ( n k )
则上式可写为:
Rn (k )
意义:可用自相关函数求 基音周期;在进行语音信 号的线性预测分析时,也 要用到自相关函数。
m


[ x ( m ) x ( m k )] h k ( n m )
[ x ( n ) x ( n k )] h k ( n )
所以,短时自相关函数可看作序列 [ x ( n ) x ( n k )] 通过单位 样值响应为 h ( n ) 的数字滤波器的输出。
k
21
29
2.5 短时傅里叶变换
1. 短时傅里叶变换的定义:
X n (e
jw
)
m
x(m) w(n m)e

jwm
短时傅里叶变换有两个自变量:n 和 ;所以 它既是关于时间 n 的离散函数,又是关于角频 率的连续函数。
30
令 w 2k N ,则得离散的短时傅里叶变换 :
j 2 k N
X n (e
) X n (k )
m


x ( m ) w (n m )e
j
2 km N
(0 k N 1)
两个公式都有两种解释:①当n固定不变时,它们 是序列w(n-m)x(m)的标准傅里叶变换或标准的离散 傅里叶变换。此时 X n (e jw ) 与标准傅里叶变换具有相 同的性质,而 X n (k ) 与标准的离散傅里叶变换具 有相同的特性。②当w或k固定时, n (e jw ) 和 X n (k ) 看 X 作是时间n的函数。它们是信号序列和窗口函数序列 的卷积,此时窗口的作用相当于一个滤波器。
1, (m ) w1 0,
1, (m ) w2 0,
N 1
0 m N 1 其他
0 m N 1 k 其他
R n (k )
m 0

x(n m ) x(n m k )
(0 k K )
这里K 是最大的延迟点数。
25
加矩形 窗
0.15
0.1
Amplititude
0.05
0
-0.05
-0.1
-0.15
8
0 500 1000 Time :ms 1500 2000 2500
2、短时平均幅度分析
• 定义: • 框图:
M
n

m


x(m ) w(n m )
• 优点:
1、对高电平信号不如En敏感; 2、计算方法简单。
6
Example
Speech x(n):
/What she said/
7
5 4.5 4 3.5 3 2.5 2 1.5 1
x 10
-3
• Short time
0.5 0.2 0
1
2
Waveform of wav file 3
4
5 x 10
6
4
energy of words “Do you like it Do you like it”
短时自相关分析在语音识别中可有下面两个方面的应用: 用来区分清音和浊音,因为浊音信号是准周期性的,对浊 音语音可以用自相关函数求出语音波形序列的基音周期; 另外在进行语音信号的线性预测分析时,也要用到短时自 相关函数。
22
63/8000=7.78m s
51/8000=6.38ms
N=401时对8kHz取 样的语音计算得到 的图,计算滞后k 大于0而小于250时 的自相关值。前两 种情况是对浊音语 音段,第三种情况 是对清音语音段。 23

缺点:浊音和清音的区分不如En明显。
9
短时平均能量和短时平均幅度的主要用途:
• 可以区分清音段与浊音段:En 值大的对应于浊 音段,而En 值小的对应于清音段。En 值的变化,
可大致判定浊音变为清音或清音变为浊音的时刻。
• 可以用来区分声母与韵母的分界,无声与有声的
分界,连字(指字之间无间隙)的分界等。
N 1 k
Fn ( k )
m 0

s(n + m )w 1( m ) s ( n m k ) w 2 ( m k )
27
63/8000=7.78m s
51/8000=6.38ms
N=401时对8kHz取 样的语音计算得到 的图,计算滞后k 大于0而小于250时 的短时平均幅度差 值。前两种情况是 对浊音语音段,第 三种情况是对清音 28 语音段。
2 2
h(n) w (n)
2
2
窗长对分辨率的影响
窗长越长,频率分辨率越高,而时间分辨率越低 决定短时能量特性有两个条件:不同的窗口的形状 和长度。
窗口形状:
矩形窗:
j T
1 w( n ) = 0
0 n N 1 其它
W (e
)

N 1
e
j n T

sin ( N T 2 ) sin ( T 2 )
修正的自相关函数
26
2.4 短时平均幅度差函数
如果信号是周期的,周期为N,则相距为周期的整数倍的样点上的幅 值是相等的。
d ( n ) x ( n ) x ( n k ), k 0, N , 2 N
实际语音信号d ( n ) 不为零,但值很小,这些极小置出现在 整数倍周期位置上。 定义如下:
31
2. 标准傅里叶的解释
此时,短时傅里叶变换为:
X n (e
jw
)
m
x(m) w(n m)e

jwm
32
根据功率谱的定义,短时功率谱和短时傅里叶变换之间的 关系为:
S n (e
j
) X n (e
j
)X
*
(e n
j
) X n (e
j
)
2
短时功率谱是短时自相关函数的傅里叶变换:
36
N=500时海明窗与直角窗的浊音谱分析
37
N=50时海明窗与直角窗的浊音谱分析
38
短时傅里叶变换的滤波器解释:
X n (e
j
)
m


[ x (m )e
j m
]w ( n m ) X n (e
19
短时自相关函数:
Rn (k )
m
x ( m ) w ( n m ) x ( m k ) w ( n ( m k ))
mn

n N k 1
x
w
(m ) xw (m k )
k是最大延时点数。 由于自相关函数是偶函数,所以上式可写成:
Rn (k ) Rn ( k )
R n (k )
m


x ( m ) w1 ( n m ) x ( m k ) w 2 ( n m k )

R n (k ) x ( n m ) w1 ( m ) x ( n m k ) w 2 ( m k )
24
m
矩形窗时:
•框图:
12
13
短时门限过零率
门限 3 门限 2 门限 1 门限 1 门限 2 门限 3 时间
Zn
m
{ sgn[

x ( m ) T ] sgn[ x ( m 1) T ]
Байду номын сангаас
sgn[ x ( m ) T ] sgn[ x ( m 1) T ] } w ( n m )
相关主题