当前位置：文档之家› 第三章语音信号的特征分析讲解

第三章语音信号的特征分析讲解

电话语音（固网电话通信频带为300-3400Hz) 可以基本保持语义，不影响人对语音的感知质量不是很好，有时候会有变音

宽带语音信号：fs =16000Hz
一般对语音质量要求较高的场合再提高采样频率也不会对语音质量有太多贡献
量化精度
量化所用比特越大，声音质量越好声音质量也跟量化算法有关，比如同样用8bit量化，非均匀量化（µ-律或A-律）就比均匀量化好很多
对于语音识别系统而言，用于电话用户时要求技术指标与语音编码器相同，如果对于更高的要求场合，则fH=4500Hz或8000Hz, fL=60Hz，
fs=10KHz或20KHz
帧和加窗的概念
短时分析将语音流分为一段一段来处理，每一段称为一“帧”；帧长：10～30；帧移：0～1倍帧长，帧与帧之间的平滑过渡；语音识别中常用的帧长为20~30ms,帧移为10ms
几种常见的窗函数的波形
Matlab中，可以通过help window命令来查看怎么产生不同的窗
1
0.8
rectangular hamming hanning bartlett
0.6
0.4
0.2
0
0
50
100
150
200
250

几种不同的窗函数波形与频谱的比较
Time domain 40 Frequency domain 1 20 0.8 0
1
Hanning
Amplitude
0.8
0
汉宁窗
0.6
Magnitude (dB)
Time domain 30 40 Samples
-50
0.4
-100 0.2
0
10
20
50
60
-150
40 30
0
0.2
Frequency domain 0.4 0.6
0.8
Normalized Frequency ( rad/sample)
Hamming
Amplitude
Magnitude (dB)
10 20 30 40 Time domain Samples 50 60
哈明窗
0.6
-20 -40 -60
0.4
0.2
-80 -100
0
0
50
0.2 0.4 0.6 0.8 Frequency domain Normalized Frequency ( rad/sample)

固网电话语音量化就是用的非均匀量化
声音的质量与数据率（采样频率和量化精度）的关系
质量电话采样频率 (kHz) 8 样本精度 (bit/s) 8 单道声/ 立体声单道声数据率(kB/s) (未压缩) 8 频率范围 300～3400 Hz
AM
FM CD DAT
11.025
22.050 44.1 48

首先是窗的长度，无论什么形状的窗，长度N将起决定性的作用。
N选得太大，不能保证每一帧的语音的平稳特性 N太小，不能保证信号的统计特性，容易产生统计噪声对于频域分析而言，窗长N还直接决定了信号频谱的分辨率
对于语音信号，通常帧长应选择为一个语音帧包含有至少2个基音
周期为好。人的语音的基音周期值是变化的，从女性小孩的2ms到老年男子的14ms（即基音频率为500Hz至70Hz），所以N的选择是比较困难的。通常折衷的选择N为20~30ms。若采用频率为 10KHz，则相当于每帧的长度（即窗口序列的长度）约为200~300 点为宜。若采样频率为8KHz，相当于160~240点

其次是窗口的形状，不同的窗，其频率特性是不一样的，这在短时频域分析时尤为重要。
窗口的形状和长度对分析影响很大，不同的分析方法对窗函数的要求不尽一样。
窗函数频谱的主瓣与旁瓣主瓣:
主瓣宽度控制频谱分析的频率分辨率，主瓣越窄，频率
分辨率越高
矩形窗的主瓣宽度 = fs/N hamming窗的主瓣宽度约为 2fs/N
第三章语音信号的特征分析
语音信号的数字化语音信号的短时分析与短时处理的概念语音信号的时域特征分析语音信号的频率特征分析语音信号的同态解卷与倒谱分析

端点检测、语音分割与基频估计
3.1 语音信号的数字化
通过电脑或者其它数字录音设备采集的语音信号都已经经过数字化了，一般不需要用户再进行数字化处理。尽管如此，有必要简单了解一下语音信号的数字化过程与原理。

为了减小语音帧的截断效应，需要加窗处理；
sw (n) s(n)w(n)
矩形窗
w(n) 1, 0 n N 1
w(n) 0.54 0.46 cos( 2 n ), 0 n N 1 N 1
哈明窗 (Hamming)
汉宁窗 (Hanning)
n w(n) 0.5(1 cos( 2 )), 0 n N 1 N 1
语音是一个时变信号语音的短时平稳特性，在10～30ms时间段内相对平稳
预滤波
预滤波的目的
防止混叠干扰抑制50Hz的电源干扰
预滤波实际上是一个带通滤波器，其上下截止频率分别为fH和fL 。对于电话语音编码器而言，要求fH=3400Hz, fL=60~100Hz， fs=8KHz.
1
矩形窗
Amplitude
0.8
0.6
Magnitude (dB)
10 20 30 40 Samples 50 60
20 10 0 -10 -20
0.4
0.2
0
பைடு நூலகம்
0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择，将决定短时语音分析结果的好坏
声音信号的数字化
模拟语音信号在时间与幅度上的二重连续性

时间上离散化：每秒钟需要采集多少个声音样本，也就是采样频率(fs)是多少，幅度上离散化：每个声音样本的位数(bit per sample，bps) 应该是多少，也就是量化精度。
语音信号的采样频率
奈奎斯特采样定理：fs> 2 fmax 窄带语音信号： fs =8000Hz
8
16 16 16
单道声
立体声立体声立体声
11.0
88.2 176.4 192.0
20～5000 Hz
50～7000 Hz 20～20000 Hz 20～20000 Hz
3.2 语音信号的短时分析

语音分析是语音信号处理的前提和基础；分析的目的是提取需要的信息，获取特征表示参数；短时分析

e商务文档

第三章语音信号的特征分析讲解

相关文档推荐：

e商务文档

第三章 语音信号的特征分析讲解

相关文档推荐：

第三章语音信号的特征分析讲解