当前位置:
文档之家› 自动录音系统中人声判别的实现
自动录音系统中人声判别的实现
0.7
0.8
0.9
1
0
幅 度 /dB
-50
-100
0
0.1
0.2
0.3
0.4 0.5 0.6 归 一 化 频 率 (f/fs)
0.7
0.8Biblioteka 0.91窗函数 矩形窗 hamming
主瓣宽度 4*pi/N 8*pi/N
旁瓣峰值 13.3dB 42.7dB
2.2 短时能量的分析
由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因 此对语音的短时能量进行分析, 可以描述语音的这种特征变化情况。定义短时能 量为:
n N w(n) 1,0 0,其他
hamming窗的定义:一个N点的hamming窗函数定义为如下
0.540.46cos(2 Nn1),0 n N w(n)= 0,其他
矩形窗频率响应 0 -20
幅 度 /dB
-40 -60 -80
0
0.1
0.2
0.3
0.4 0.5 0.6 归 一 化 频 率 (f/fs) Hamming窗 频 率 响 应
2.3 短时平均过零率
过零率可以反映信号的频谱特性。 当离散时间信号相邻两个样点的正负号相 异时,我们称之为“过零”,即此时信号的时间波形穿过了零电平的横轴。统计单 位时间内样点值改变符号的次数具可以得到平均过零率。定义短时平均过零率:
Zn
m
sgn[ x[m] sgn[ x(m 1)] w(n m)
X n (e jw )
m
x(m)w(n m)e
jwm
其中 w(n-m)是实窗口函数序列,n 表示某一语音信号帧。令 n-m=k',则得到
X n (e jw )
于是可以得到
k '
w(k ') x(n k ')e
jw( n k ')
X n (e jw ) e jwn
谱,而 为数字角频率。 数字滤波器可以有很多种分类方法,但总体上可分为两大类。一类称为经典 滤波器, 即一般的滤波器, 其特点是输入信号中的有用成分和希望滤除的成分占 用不同的频带,通过合适的选频滤波器可以实现滤波。例如,若输入信号中有干 扰,信号和干扰的频带互不重叠,则可滤出信号中的干扰得到纯信号。但是,如 果输入信号中信号和干扰的频带相重叠,则干扰就不能被有效的滤出。另一类称 为现代滤波器,如维纳滤波器、卡尔曼滤波器等,其输入信号中有用信号和希望 滤除的成分频带重叠。对于经典滤波器,从频域上也可以分为低通、高通、带通 和带阻滤波器。 从时域特性上看,数字滤波器还可以分为有限冲激响应数字滤波 器(FIR)和无限冲激响应数字滤波器(IIR) 。
2.4 短时自相关函数
自相关函数用于衡量信号自身时间波形的相似性。 清音和浊音的发声机理不 同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性, 波形之间相似性较好; 清音的时间波形呈现出随机噪声的特性,样点间的相似性 较差。因此,我们用短时自相关函数来测定语音的相似特性。短时自相关函数定 义为:
所以在语音信号处理中, 自相关函数常用来作以下两种语音信号特征的 估计: 1)区分语音是清音还是浊音; 2)估计浊音语音信号的基音周期。
0.08 0.06 0.04 0.02 0 -0.02 -0.04 -0.06 -0.08 0 50 100 150 200 250 300
清音 0.1
0.05
R(k)
Rn (k )
m
'´
x(m) w(n m) x(m k ) w(n m k )
'
令 m n m ,并且 w(m) w (m) ,可以得到:
Rn (k )
m
[ x(n m)w (m)][ x(n m k )w (m k )] [ x(n m)w (m)][ x(n m k )w (m k )]
、
1
采样幅度
0.5
0
-0.5
0
2000
4000
6000
8000 sample
10000
12000
14000
16000
18000
8 6
短时能量
4 2 0
0
2000
4000
6000
8000 sample
10000
12000
14000
16000
18000
0.5
短时平均过零率
0.4 0.3 0.2 0.1 0 0 2000 4000 6000 8000 sample 10000 12000 14000 16000 18000
' ' ' ' m0
N 1 k
清音接近于随机噪声, 清音的短时自相关函数不具有周期性,也没有明显突 起的峰值,且随着延时 k 的增大迅速减小;浊音是周期信号,浊音的短时自相关 函数呈现明显的周期性, 自相关函数的周期就是浊音信号的周期,根据这个性质 可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。浊音语音 的周期可用自相关函数中第一个峰值的位置来估算。
0
-0.05
-0.1
0
50
100
150 延时k
200
250
300
清音的短时自相关函数
5 N=70
R(k)
0
-5
0
20
40
60
80
100 延时k
120
140
160
180
200
220
5 N=140
R(k)
0
-5
0
20
40
60
80
100 延时k
120
140
160
180
200
220
10 N=210
R(k)
0
j
)
(e j ) arctg
该指标主要用来说明系统的相位特性。 (3)群延时
Im[ H (e j )] j Re[ H (e )]
( )
d [ (e j )] d
理想滤波器具有非因果、 无限长的单位脉冲响应和不连续的频率特性,要用 稳定的线性时不变(LTI)系统来实现这样的特性是不可能的。工程上是用脉冲 响应为有限长的、 因果的、 稳定的线性时不变系统或具有连续频率特性的线性时 不变系统来逼近理想特性。在满足一定的误差要求的情况下来实现理想滤波特 性。因此实际的滤波器的频率特性如图所示
En
n
m
[ x(m)w(n m)]
2
m n N 1
[ x(m) w(n m)]2
,其中 N 为窗长
特殊地,当采用矩形窗时,可简化为:
En
m
x (m)
2
短时能量函数的应用: 1)可用于区分清音段与浊音段。En 值大对应于浊音段,En 值小对应于清 音段。 2)可用于区分浊音变为清音或清音变为浊音的时间(根据 En 值的变化趋 势) 。 3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点 或终止点)无信号(或仅有噪声能量)时,En 值很小,有语音信号时,能量显 著增大。
数字信号处理论文
题
目
自动录音系统中人声判别的实现
专 学 学 日
业 号 生 期
通信 2 班 12S005107 李声勇 2013 年 11 月 15 日
哈尔滨工业大学
自动录音系统中人声判别的实现
语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语 音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各 种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的 信息。语音信号分析可以分为时域和变换域等处理方法. 在信号的傅立叶表示在信号的分析与处理中起着重要的作用。 因为对于线性 系统来说, 可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法 能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变 得更明显,因此,它能更深入地说明信号的各项红物理现象。 由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随 机噪声源激励的线性系统的输出。 输出频谱是声道系统频率响应与激励源频谱的 乘积。 声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶 表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语 音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。 本文通过对短时过零率、短时能量、自相关函数等参数的分析,对声音识别 中通过能量检测过滤噪音的理论进行了假设和分析。
x (n ) 0 sgn x (n ) 1, 1, x (n ) 0
其中 sgn[] 为符号函数, 形窗条件下,可以简化为
1 Zn 2N
,在矩
m n N 1
n
sgn[ x(m) sgn[ x(m 1)]
短时过零率可以粗略估计语音的频谱特性。由语音的产生模型可知,发浊音 时,声带振动,尽管声道有多个共振峰,但由于声门波引起了频谱的高频衰落, 因此浊音能量集中于 3KHz 以下。而清音由于声带不振动,声道的某些部位阻塞 气流产生类白噪声,多数能量集中在较高频率上。高频率对应着高过零率,低频 率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系。. 短时平均过零率的应用: 1)区别清音和浊音。例如,清音的过零率高,浊音的过零率低。此外,清 音和浊音的两种过零分布都与高斯分布曲线比较吻合。 2)从背景噪声中找出语音信号。语音处理领域中的一个基本问题是,如何 将一串连续的语音信号进行适当的分割,以确定每个单词语音的信号,亦即找出 每个单词的开始和终止位置。 3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。