当前位置:
文档之家› 第三讲 语音信号处理第3.1~3.4章
第三讲 语音信号处理第3.1~3.4章
0 -100 -200 -300 -400 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 Normalized Frequency ( rad/sample) 0.9 1
汉明窗的时域、频域的幅度响应特性
预处理:窗口的ቤተ መጻሕፍቲ ባይዱ度
采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下 列关系: Δf=1/NTs
预处理:窗口的形状
不同的短时分析方法(时域、频域、倒频域分
析) 对窗函数的要求不尽一样 选择窗的标准
在时域要减小时间窗两端的坡度,使窗口边缘两
端不引起急剧变化而平滑过渡到零,这样可以使 截取出的语音波形缓慢降为零,减小语音帧的截 断效应; 在频域要有较宽的3dB带宽以及较小的边带最大 值
量化不可避免地会产生误差。量化后的信号值与原信号值之 间的差值称为量化误差,又称为量化噪声。 若信号波形的变化足够大,或量化间隔Δ足够小时,可以证 明量化噪声符合具有下列特征的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概率密度分 布
3.1 概述
语音信号分析 分析出可表示语音信号特征参数
进行高效的语音通信、语音合成和语音识别的基础 时域特征 频率特征
贯穿于语音分析全过程的是“短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均 是随时间而变化的,所以它是一个非平衡态过程,不能用处 理平衡信号的数字信号处理技术对其进行分析处理。 但是在一个短时间范围内(一般认为在10-30ms的短时 间内),其特性基本保持不变即相对稳定,因而可以将其看 作是一个准稳态过程,即语音信号具有短时平稳性。
可见,采样周期一定时,Δf随窗口宽度N的增加而减小,即 频率分辨率相应得到提高,但同时时间分辨率降低;如果窗 口取短,频率分辨率下降,而时间分辨率提高,因而二者是 矛盾的。应该根据不同的需要选择合适的窗口长度。
预处理:窗长
有时窗口长度的选择,更重要的是要考虑语音信号的基音周 期。通常认为在一个语音帧内应包含1~7个基音周期。然而 不同人的基音周期变化很大,从女性和儿童的2ms到老年男 子的14ms(即基音频率的变化范围为500~70Hz),所以N的选 择比较困难。通常在10kHz取样频率下,N折中选择为100~ 200点为宜(即10~20ms持续时间)。 这样,经过上面介绍的处理过程,语音信号就已经被分割成 一帧一帧的加过窗函数的短时信号,然后再把每一个短时语 音帧看成平稳的随机信号,利用数字信号处理技术来提取语 音特征参数。在进行处理时,按帧从数据区中取出数据,处 理完成后再取下一帧,等等,最后得到由每一帧参数组成的 语音特征参数的时间序列。
1.短时自相关函数 定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下:
Rn (k )
N 1 k m 0
这样.噪音信号的振荡只要不超过门限间的区域,就不会对真实的 过零率产生影响。 一般说来,短时过零率的最主要用处是分辨清音和浊音、有声与无 声。
7.端点检测
如何区分?能量?过零率?
元音
背景 噪音 辅音
语音“三”的波形图
7.端点检测
如何区分?能量?过零率?
背景 噪音
辅音
短时相关分析
相关分析是一种常用的时域波形分析方法,并有自 相关和互相关之分。这里主要讨论自相关函数。 自相关函数的性质:偶函数; 假设序列具有周期性,则其自相关函数也是同周期 的周期函数等。我们可以把自相关函数的这些性质 应用于语音信号的时域分析中。例如,对浊音语音 可以用自相关函数求出语音波形序列的基音周期。 此外,在进行语信号的线性预测分析时,也要用到 自相关函数。和其他语音参数一样,在语音信号分 析中,我们分析的是短时自相关函数。
0.9 0.8 0.7 0.6 0.5 0.4
0
0.1
0.2
0.3 0.4 0.5 0.6 0.7 0.8 Normalized Frequency ( rad/sample)
0.9
1
100
Phase (degrees)
0 20 40 60 80 100 120 140
0.3 0.2 0.1 0
1 N 1 Z n sgn[ xn (m)] sgn[ xn (m 1)] 2 m 0
式中,sgn[]是符号函数,即 1, ( x 0) sgn[ x] 1, ( x 0)
短时过零率分析
门限过零率
由定义可以看出,短时过零率对噪音的存在非常敏感,如果 背景中有反复穿越坐标轴的随机噪声,那么会产生大量的“ 虚假”的过零,影响计算结果。
预滤波、采样、A/D变换
若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B 表示量化字长, σe2表示噪声序列的方差,可以证明量化信 噪比SNR(信号与量化噪声的功率比)为: 2 x X max SNR(dB) 10lg 2 6.02B 4.77 20lg e x 假设语音信号的幅度符合Laplacian分布,此时信号幅度超过 4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则
SNR(dB) 6.02B 7.2
上式表明量化器中的每bit字长对SNR的贡献为6dB。
预加重(Preemphasis)处理 语音信号的平均功率谱受声门激励和口鼻辐 射影响,800Hz以上按6dB/倍频程跌落 目的是提升高频部分,使信号的频谱变得平 坦,保持在低频到高频的整个频带中,能用 同样的信噪比求频谱,以便于频谱分析或声 道参数分析
3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析 3.6语音信号的线性预测分析 3.7 语音信号的小波分析 3.8 基音周期估计 3.9共振峰估计
3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析
预滤波的目的有两个: 抑制输入信号各频域分量中频率超出fs/2的所有分量,以防 止混叠干扰。 抑制50Hz的电源工频干扰。
这样,预滤波器必须是一个带通滤波器,设其上、下截止频 率分别是fH和fL: 绝大多数语音编译码器: fH=3400Hz,fL=60-100Hz,fS=8kHz
预滤波、采样、A/D变换
1, m 0 ~ ( N 1) (m) 0, m 其它值 其中,n=0,1T,2T,…,并且N为帧长,T为帧移长度。 设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式 如下:
2 En xn (m) m 0 N 1
短时能量及短时平均幅度分析
矩形窗与汉明窗的比较
窗类型
矩形窗 汉明窗
旁瓣峰值
-13 -41
主瓣宽度
4π/N 8π/N
最小阻带衰减
-21 -53
汉明窗的主瓣宽度比矩形窗大一倍,即带宽 约增加一倍,同时其带外衰减也比矩形窗大 一倍多。矩形窗的谱平滑性能较好,但损失 了高频成分,使波形细节丢失;而汉明窗则 相反,从这一方面来看,汉明窗比矩形窗更 为合适。
为了提高过零率计算的鲁棒 性(Robustness),除了对 原始信号进行带通滤波,一种 有效的方法是修正过零率的定 义,加入门限的定义.如图 所示。
上门限
下门限
6.门限过零率
设一个门限值T,将过零的定义修正为穿越正负门限,带门限的过 零率计算公式为
1 N 1 Z n sgn xn (m) T sgn xn (m 1) T sgn xn (m) T sgn xn (m 1) T 2 m 0
3.3 语音信号的时域分析
语音信号的时域分析就是分析和提取语音信号的时域参数。 进行语音分析时,最先接触到并且也是最直观的是它的时域 波形。语音信号本身就是时域信号,因而时域分析是最早使 用,也是应用最广泛的一种分析方法,这种方法直接利用语 音信号的时域波形。时域分析通常用于最基本的参数分析及 应用,如语音的分割、预处理、大分类等。这种分析方法的 特点是:
H z 1 z
1
预处理:分帧
进行过预加重数字滤波处理后,接下来就要进行加 窗分帧处理。一般每秒的帧数约为33-100帧,视实 际情况而定。 分帧虽然可以采用连续分段的方法,但一般要采用 如图3-2所示的交叠分段的方法,这是为了使帧与 帧之间平滑过渡,保持其连续性。 帧移:前一帧和后一帧的非交叠部分。帧移与帧长 的比值一般取为1/3-1/2
预处理:分帧示意图
预处理:加窗
分帧是用可移动的有限长度窗口进行加权的方法来实现的, 这就是用一定的窗函数ω(n)来乘s(n), 加窗语音信号sω(n)=s(n)* ω(n)。 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等, 它们的表达式如下(其中N为帧长): 矩形窗: 1, 0 n ( N 1) (n) n else 0, 汉明窗: 0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
3.2 语音信号的数字化和预处理
语音信号的数字化一般包括放大及增益控制、反混 叠滤波、采样、A/D变换及编码(一般就是PCM码)
语音信号 带通滤波 器 自动增益控制 (AGC) 模 / 数 转 换 (A/D) 脉冲编码 调制(PCM) 存入计算机
预处理一般包括预加重、加窗和分帧等。
预滤波、采样、A/D变换
3.1 概述
分析方法:模型分析方法和非模型分析方法 不论是分析怎么样的参数以及彩什么分析方法,在 按帧进行语音分析,提取语音参数之前,有一些经 常使用的、共同的短时分析技术必须预先进行,如 语音信号的数字化、语音信号的端点检测、预加重、 加窗和分帧等,这些也是不可忽视的语音信号分析 的关键技术。