当前位置:
文档之家› 语音信号处理PPT_第三章_语音信号分析
语音信号处理PPT_第三章_语音信号分析
En
xn (m )
2
m 0
T[x]=x2
短时能量及短时平均幅度分析
En是一个度量语音信号幅度值变化的函数,但它有一个缺陷,即 它对高电平非常敏感(因为它计算时用的是信号的平方)。为此, 可采用另一个度量语音信号幅度值变化的函数,即短时平均幅度 N 1 函数Mn,它定义为:
M
n
xn (m )
它与12位线性转换器等效。
预处理
由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端 大约在800Hz以上按6dB /倍频程跌落,要在预处理中进行预加重 (Preemphasis)处理。 预加重目的: 提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整 个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参 数分析。 预加重可在语音信号数字化时在反混叠滤波器之前进行,不仅可 以进行预加重,而且可以压缩吸纳后的动态范围,有效提高信噪 比。 预加重一般在语音信号数字化之后,利用数字滤波器实现: 1 H (z) 1 z 值接近1。
S N R ( d B ) 6 .0 2 B 7 .2
x2 X S N R ( d B ) 1 0 lg 2 6 .0 2 B 4 .7 7 2 0 lg m a x e x
A/D转换器分为线性和非线性转换器两类。 目前的线性A/D转换器绝大部分是12bits的(即每一个采样 脉冲转换为12位二进制数)。非线性A/D转换器则是8位的,
n n
短时相关分析
右图中:N=401,Fs=8kHz a、b是浊音信号,c位清 音信号,由图可以看出浊 音信号的自相关函数具有 一定得周期性,而清音信 号的自相关函数缺乏周期 性。
短时相关分析
窗长N选择考虑因素: 估计均值(矩形窗)
E [ R n ( k )] (1 k N ) E [ x ( n ) x ( n k )]
预处理
进行过预加重数字滤波处 理后,接下来就要进行加 窗分帧处理。一般每秒的 帧数约为33-100帧,视实 际情况而定。分帧虽然可 以采用连续分段的方法, 但一般要采用如图3-1所 示的交叠分段的方法,这 是为了使帧与帧之间平滑 过渡,保持其连续性。 前一帧和后一帧的交叠部 分称为帧移。帧移与帧长 的比值一般取为0-1/2。
分类:
时域分析
简单、计算量小、 物理意义明确 感知特性 较好,更 为重要 依据语音信号 产生的数学模 型来分析和提 取表征这些模 型的特征参数 不进行模型化 分析
参数性质
频域分析 倒谱域分析 模型分析方法
分析方法
非模型分析方法
短时分析技术:
贯穿于语音分析的整个过程;语音信号从整体来看其特征 及表征其本质特征的参数均是随时间而变化的,所以它是一 个非平衡态过程,不能用处理平衡信号的数字信号处理技术对 其进行分析处理。 但是在一个短时间范围内(一般认为在10-30ms的短时间内), 其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳 态过程,即语音信号具有短时平稳性。 不论是分析怎么样的参数以及采用什么分析方法,在按帧进 行语音分析,提取语音参数之前,有一些经常使用的、共同的短 时分析技术必须预先进行,如语音信号的数字化、语音信号的端 点检测、预加重、加窗和分帧等,这些也是不可忽视的语音信号 析的关键技术。
预处理
窗口的长度: 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列关系: Δf=1/NTs ,采样周期一定时,Δf随窗口宽度N的增加而减小, 即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取 短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。应 该根据不同的需要选择合适的窗口长度。
3.2 数字化和预处理
语音信号的数字化一般包括放大及增益控制、反混叠滤波、 采样、A/D变换及编码(一般就是PCM码);如下图:
语音信号 带通滤 波器 自动增益控制 (AGC) 存入计算机 模/数转换 (A/D) 脉冲编码 调 制 ( PCM )
预处理一般包括预加重、加窗和分帧等。 分析和处理之前必须把要分析的要分析的语音信号部分从输 入信号中找出来,叫做语音信号的端点检测。
预处理
分帧是用可移动的有限长度窗口进行加权的方法来实现的, 这就是用一定的窗函数ω(n)来乘s(n),从而形成加窗语音 信号sω(n)=s(n)* ω(n)。 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等, 它们的表达式如下(其中N为帧长):
矩形窗:
1, (n) 0, 0 n ( N 1) n e ls e
Zn 1
2
N 1
s g n [ x n ( m )] s g n [ x n ( m 1)]
m 0
式中,sgn[]是符号函数,即
1, sgn[ x ] 1, ( x 0) ( x 0)
短时过零率分析
短时能量、平均幅度 和过零率都是随机参数, 概率密度函数如图:
① ②
③
应用: 区分清音和浊音; 从背景噪声中找出语音信号,判断寂静无声段和有声段的起点和 终点位置; 当语音以某些音位开始或结尾时(弱摩擦音、弱爆破音、鼻音 等),过零率和短时平均能量一起结合使用,更为有效。
短时过零率分析
实际问题: 如果输入信号中包含有50Hz的工频干扰或者A/D转换器的工作点有 偏移(等效于输入信号有直流偏移),计算的过零率参数很不精 确。 解决方法: ① A/D转换器前的防混叠带通滤波器低端截止频率应高于50Hz,有 效抑制电源干扰。 ② 采用低直流漂移器件,也可以算出每一帧的直流分量并加以滤除。
短时相关分析
一、短时自相关函数
定义: R ( k ) n
N 1 k
m 0
x
n
(m ) x n(m k )
0 k K
① ② ③
其中K最大的延迟点数。 性质: 如果 x n ( m ) 是周期的(Np),则自相关函数 R ( k ) R ( k N p ) R n ( k ) 是偶函数 ,即 R ( k ) R ( k ) n n 当k=0时,自相关函数有最大值,即 R n (0 ) R n ( k ) 并且 R n (0 ) 等于确定性信号序列的能量或随机序列的平均功率。
m0
① ② ③
Mn也是一帧语音信号能量大小的表征,它与En的区别在于计算时 小取样值和大取样值不会因取平方而造成较大差异,在某些应用 领域中会带来一些好处。 用途: 区分浊音段和清音段,浊音是En值比清音时大得多; 用来区分声母和韵母的边界,无声和有声的边界,连字的分界; 作为一种超音段信息,用于语音识别中。
汉明窗:
(n)
0 .5 4 0 .4 6 c o s [ 2 n / ( N 1)], 0,
0 n ( N 1) n e ls e
预处理
窗口的形状: 在时域因为是语音波形乘以窗函数,所以要减小时间窗两端的坡 度,使窗口边缘两端不引起急剧变化而平滑过渡到零,这样可以 使截取出的语音波形缓慢降为零,减小语音帧的截断效应; 在频域要有较宽的3dB带宽以及较小的边带最大值。
短时能量及短时平均幅度分析
如图所示,设语音波形时域信号为x(t)、加窗分帧处理后得到的 第n帧语音信号为xn(m),则xn(m)满足下式:xn(m)=ω(m)x(n+m)
1, (m ) 0, m 0 ~ ( N 1) m 其它值
其中,n=0,1T,2T,…, 并且N为帧长,T为帧移长度。 设第n帧语音信号xn(m)的 短时能量用En表示,则其计 算公式如下: N 1
预滤波、采样、A/D转换
若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值, B表示量化字长, σe2表示噪声序列的方差,可以证明量化 信噪比SNR(信号与量化噪声的功率比)为: 假设语音信号的幅度符合Laplacian分布,此时信号幅度超 过4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则上 式表明量化器中的每bit字长对SNR的贡献为6dB。
窗长N越小,窗内基音 周期变化越小Rn(k) 估计不准,偏差大; 窗长N越大,窗内基音 周期性变 差;
短时相关分析
二、修正的短时自相关函数:
问题引出:传统的自相 关函数对窗长具有依赖性。 解决方法:用两个不同的窗 口,截取两个不等长的序列进行 卷积和,两个窗口的长度相差最大 N 1 的延迟数为K。定义: n ( k ) x n ( m ) x ' n ( m k ), 0 R
预滤波、采样、A/D转换
预滤波的目的有两个: 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs为采样 频率),以防止混叠干扰。 抑制50Hz的电源工频干扰。 这样,预滤波器必须是一个带通滤波器,设其上、下截 止频率分别是fH和fL: 则绝大多数语音编译码器有: fH=3400Hz,fL=60-100Hz,fS=8kHz
预滤波、采样、A/D转换
语音信号经过预滤波和采样后,由A/D变换器变换为 二进制数字码。A/D变换中要对信号进行量化,量化不 可避免地会产生误差。量化后的信号值与原信号值之间 的差值称为量化误差,又称为量化噪声。若信号波形的 变化足够大,或量化间隔Δ足够小时,可以证明量化噪 声符合具有下列特征的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概率密 度分布
有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。 通常认为在一个语音帧内应包含1~7个基音周期。然而不同人的 基音周期变化很大,所以N的选择比较困难。通常在10kHz取样频率 下,N折中选择为100~200点为宜(即10~20ms持续时间)。