当前位置:
文档之家› 第三章 语音信号的特征分析讲解
第三章 语音信号的特征分析讲解
电话语音(固网电话通信频带为300-3400Hz) 可以基本保持语义,不影响人对语音的感知 质量不是很好,有时候会有变音
宽带语音信号:fs =16000Hz
一般对语音质量要求较高的场合 再提高采样频率也不会对语音质量有太多贡献
量化精度
量化所用比特越大,声音质量越好 声音质量也跟量化算法有关,比如同样用8bit量化, 非均匀量化(µ-律或A-律)就比均匀量化好很多
对于语音识别系统而言,用于电话用户时要求技术指标与语音编码器相 同,如果对于更高的要求场合,则fH=4500Hz或8000Hz, fL=60Hz,
fs=10KHz或20KHz
帧和加窗的概念
短时分析将语音流分为一段一段来处理,每一段称 为一“帧”; 帧长:10~30; 帧移:0~1倍帧长,帧与帧之间的平滑过渡; 语音识别中常用的帧长为20~30ms,帧移为10ms
几种常见的窗函数的波形
Matlab中,可以通过help window命令来查看怎么产生不同的窗
1
0.8
rectangular hamming hanning bartlett
0.6
0.4
0.2
0
0
50
100
150
200
250
几种不同的窗函数波形与频谱的比较
Time domain 40 Frequency domain 1 20 0.8 0
1
Hanning
Amplitude
0.8
0
汉宁窗
0.6
Magnitude (dB)
Time domain 30 40 Samples
-50
0.4
-100 0.2
0
10
20
50
60
-150
40 30
0
0.2
Frequency domain 0.4 0.6
0.8
Normalized Frequency ( rad/sample)
Hamming
Amplitude
Magnitude (dB)
10 20 30 40 Time domain Samples 50 60
哈明窗
0.6
-20 -40 -60
0.4
0.2
-80 -100
0
0
50
0.2 0.4 0.6 0.8 Frequency domain Normalized Frequency ( rad/sample)
固网电话语音量化就是用的非均匀量化
声音的质量与数据率(采样频率和量化精度)的关系
质量 电话 采样频率 (kHz) 8 样本精度 (bit/s) 8 单道声/ 立体声 单道声 数据率(kB/s) (未压缩) 8 频率范围 300~3400 Hz
AM
FM CD DAT
11.025
22.050 44.1 48
首先是窗的长度,无论什么形状的窗,长度N将起决定 性的作用。
N选得太大,不能保证每一帧的语音的平稳特性 N太小,不能保证信号的统计特性,容易产生统计噪声 对于频域分析而言,窗长N还直接决定了信号频谱的分辨率
对于语音信号,通常帧长应选择为一个语音帧包含有至少2个基音
周期为好。人的语音的基音周期值是变化的,从女性小孩的2ms到 老年男子的14ms(即基音频率为500Hz至70Hz),所以N的选择 是比较困难的。通常折衷的选择N为20~30ms。若采用频率为 10KHz,则相当于每帧的长度(即窗口序列的长度)约为200~300 点为宜。若采样频率为8KHz,相当于160~240点
其次是窗口的形状,不同的窗,其频率特性是不一样的,这 在短时频域分析时尤为重要。
窗口的形状和长度对分析影响很大,不同的分析方法对窗函数 的要求不尽一样。
窗函数频谱的主瓣与旁瓣 主瓣:
主瓣宽度控制频谱分析的频率分辨率,主瓣越窄,频率
分辨率越高
矩形窗的主瓣宽度 = fs/N hamming窗的主瓣宽度 约为 2fs/N
第三章 语音信号的特征分析
语音信号的数字化 语音信号的短时分析与短时处理的概念 语音信号的时域特征分析 语音信号的频率特征分析 语音信号的同态解卷与倒谱分析
端点检测、语音分割与基频估计
3.1 语音信号的数字化
通过电脑或者其它数字录音设备采集的语音信号都已 经经过数字化了,一般不需要用户再进行数字化处理。 尽管如此,有必要简单了解一下语音信号的数字化过 程与原理。
为了减小语音帧的截断效应,需要加窗处理;
sw (n) s(n)w(n)
矩形窗
w(n) 1, 0 n N 1
w(n) 0.54 0.46 cos( 2 n ), 0 n N 1 N 1
哈明窗 (Hamming)
汉宁窗 (Hanning)
n w(n) 0.5(1 cos( 2 )), 0 n N 1 N 1
语音是一个时变信号 语音的短时平稳特性,在10~30ms时间段内相对平稳
预滤波
预滤波的目的
防止混叠干扰 抑制50Hz的电源干扰
预滤波实际上是一个带通滤波器,其上下截止频 率分别为fH和fL 。 对于电话语音编码器而言,要求fH=3400Hz, fL=60~100Hz, fs=8KHz.
1
矩形窗
Amplitude
0.8
0.6
Magnitude (dB)
10 20 30 40 Samples 50 60
20 10 0 -10 -20
0.4
0.2
0
பைடு நூலகம்
0
0.2
0.4
0.6
0.8
Normalized Frequency ( rad/sample)
不同的窗选择,将决定短时语音分析结果的好坏
声音信号的数字化
模拟语音信号在时间与幅度上的二重连续性
时间上离散化:每秒钟需要采集多少个声音样本, 也就是采样频率(fs)是多少, 幅度上离散化:每个声音样本的位数(bit per sample,bps) 应该是多少,也就是量化精度。
语音信号的采样频率
奈奎斯特采样定理:fs> 2 fmax 窄带语音信号: fs =8000Hz
8
16 16 16
单道声
立体声 立体声 立体声
11.0
88.2 176.4 192.0
20~5000 Hz
50~7000 Hz 20~20000 Hz 20~20000 Hz
3.2 语音信号的短时分析
语音分析是语音信号处理的前提和基础; 分析的目的是提取需要的信息,获取特征表示参数; 短时分析