当前位置:文档之家› 第三章-语音信号的特征分析讲解讲解学习

第三章-语音信号的特征分析讲解讲解学习


Magnitude (dB)
40 20
0 -20 -40 -60 -80 -100
0 50
Frequency domain
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0
-50
-100
-150 0
40 30 20 10
0 -10 -20
1 0.8 0.6 0.4 0.2
0 0
rectangular hamming hanning bartlett
50
100
150
200
250
❖ 几种不同的窗函数波形与频谱的比较
1
Hamming 0.8 哈明窗 0.6
Amplitude
0.4
0.2
0
1
Hanning 0.8
汉宁窗
0.6
Amplitude
0.4
0.2
0
1
矩形窗
0.8
Amplitude
0.6
0.4
0.2
0
Time domain
10
20 Tim3e0domain40
50
60
Samples
10
20 Tim3e0domain40
50
60
Samples
10
20
30
40
50
பைடு நூலகம்
60
Samples
Magnitude (dB)
Magnitude (dB)
帧和加窗的概念
❖ 短时分析将语音流分为一段一段来处理,每一段称 为一“帧”;
❖ 帧长:10~30; 帧移:0~1倍帧长,帧与帧之间的平滑过渡;
❖ 语音识别中常用的帧长为20~30ms,帧移为10ms
❖ 为了减小语音帧的截断效应,需要加窗处理;
sw(n)s(n)w(n)
矩形窗
哈明窗 (Hamming)
❖ 旁瓣:
旁瓣的高度决定了对临近频率成分的干扰抑制能力,高 度越低,抑制干扰能力越强
❖ 矩形窗: 主瓣高度 - 第一个旁瓣高度 ≈ 13dB ❖ hamming窗: 主瓣高度 - 第一个旁瓣高度 > 40dB
旁瓣高度跟窗长N 无关
窗函数及其比较
三种窗函数都有低通特性,通过分析三种窗的 频率响应幅度特性可以发现: 矩形窗的主瓣宽度最小分辨率最高,旁瓣高度 最高,会导致泄漏现象,哈明窗的主瓣最宽, 分辨率低(可以通过适当提高窗长解决),旁 瓣高度最低,可以有效的克服泄漏现象,具有 更平滑的低通特性,应用更广泛。
防止混叠干扰 抑制50Hz的电源干扰
预滤波实际上是一个带通滤波器,其上下截止频 率分别为fH和fL 。 对于电话语音编码器而言,要求fH=3400Hz, fL=60~100Hz, fs=8KHz.
对于语音识别系统而言,用于电话用户时要求技术指标与语音编码器相
同,如果对于更高的要求场合,则fH=4500Hz或8000Hz, fL=60Hz, fs=10KHz或20KHz
一般对语音质量要求较高的场合 再提高采样频率也不会对语音质量有太多贡献
量化精度
❖ 量化所用比特越大,声音质量越好 ❖ 声音质量也跟量化算法有关,比如同样用8bit量化,
非均匀量化(µ-律或A-律)就比均匀量化好很多
固网电话语音量化就是用的非均匀量化
声音的质量与数据率(采样频率和量化精度)的关系
第三章-语音信号的特征分析讲 解
语音信号的采样频率
❖ 奈奎斯特采样定理:fs> 2 fmax ❖ 窄带语音信号: fs =8000Hz
电话语音(固网电话通信频带为300-3400Hz) 可以基本保持语义,不影响人对语音的感知 质量不是很好,有时候会有变音
❖ 宽带语音信号:fs =16000Hz
0
0.2
Fre0q.u4ency do0m.6ain
0.8
Normalized Frequency ( rad/sample)
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择,将决定短时语音分析结果的好坏
❖ 首先是窗的长度,无论什么形状的窗,长度N将起决定 性的作用。
汉宁窗 (Hanning)
w (n ) 1 ,0nN 1
w (n ) 0 .5 4 0 .4c6 o 2sn()0 , n N 1 N 1
w (n ) 0 .5 (1 co 2sn()0 ) ,n N 1 N 1
几种常见的窗函数的波形
Matlab中,可以通过help window命令来查看怎么产生不同的窗
50~7000 Hz
176.4
20~20000 Hz
192.0
20~20000 Hz
3.2 语音信号的短时分析
❖ 语音分析是语音信号处理的前提和基础; 分析的目的是提取需要的信息,获取特征表示参数;
❖ 短时分析
语音是一个时变信号 语音的短时平稳特性,在10~30ms时间段内相对平稳
预滤波
❖ 预滤波的目的
3.3 语音信号的时域特征分析
短时能量 短时平均幅度 短时过零率 短时自相关函数 短时平均幅度差函数
语音信号的短时能量(语音信号强度 的度量参数)
N选得太大,不能保证每一帧的语音的平稳特性 N太小,不能保证信号的统计特性,容易产生统计噪声 对于频域分析而言,窗长N还直接决定了信号频谱的分辨率 对于语音信号,通常帧长应选择为一个语音帧包含有至少2个基音
周期为好。人的语音的基音周期值是变化的,从女性小孩的2ms到 老年男子的14ms(即基音频率为500Hz至70Hz),所以N的选择 是比较困难的。通常折衷的选择N为20~30ms。若采用频率为 10KHz,则相当于每帧的长度(即窗口序列的长度)约为200~300 点为宜。若采样频率为8KHz,相当于160~240点
❖ 其次是窗口的形状,不同的窗,其频率特性是不一样的,这 在短时频域分析时尤为重要。
窗口的形状和长度对分析影响很大,不同的分析方法对窗函数 的要求不尽一样。
窗函数频谱的主瓣与旁瓣
❖ 主瓣:
主瓣宽度控制频谱分析的频率分辨率,主瓣越窄,频率 分辨率越高
❖ 矩形窗的主瓣宽度 = fs/N ❖ hamming窗的主瓣宽度 约为 2fs/N
质量
电话 AM FM CD DAT
采样频率 (kHz) 8 11.025 22.050 44.1 48
样本精度 (bit/s)
8 8 16 16 16
单道声/ 立体声 单道声 单道声 立体声 立体声 立体声
数据率(kB/s) (未压缩)
频率范围
8
300~3400 Hz
11.0
20~5000 Hz
88.2
相关主题