语音信号处理第3章
0.54 0.46cos[2n /( N 1)], 0 n ( N 1) (n) 0, n else
预处理
1.窗口的形状 好的窗函数的标准是:在时域因为是语音波形乘以 窗函数,所以要减小时间窗两端的坡度,使窗口边 缘两端不引起急剧变化而平滑过渡到零,这样可以 使截取出的语音波形缓慢降为零,减小语音帧的截 断效应;在频域要有较宽的3dB带宽以及较小的边 带最大值。这里只以典型的矩形窗和汉明窗为例进 行比较,其他窗口可参阅FIR数字滤波器或谱分析 的有关书籍。
预滤波、采样、A/D变换
若用σx2表示输入语音信号的方差,2Xmax表示信号的 峰值,B表示量化字长, σe2表示噪声序列的方差,可 以证明量化信噪比SNR(信号与量化噪声的功率比) 为: 2
x X max SNR(dB) 10lg 2 6.02B 4.77 20lg e x
矩形窗与汉明窗的比较
窗类型矩形窗 汉明窗旁峰值-13 -41主瓣宽度
4π/N 8π/N
最小阻带衰减
-21 -53
汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一倍,同时 其带外衰减也比矩形窗大一倍多。 矩形窗的谱平滑性能较好,但损失了高频成分,使波形细节丢 失;而汉明窗则相反, 从这一方面来看,汉明窗比矩形窗更为合适。因此,对语音信 号的短时分析来说,窗口的形状是至关重要的。例如,选用不 同的窗口将使时域分析参数的短时平均能量的平均结果不同。
2.修正的短时自相关函数 修正的短时自相关函数是用两个长度不同的窗口,截取两个 不等长的序列进行乘积和,两个窗口的长度相差最大的延迟 点数K。这样就能始终保持乘积和的项数不变,即始终为短 窗的长度。修正的短时自相关函数定义为:
Rn (k ) xn (m) x'n (m k ),0 k K
1 N 1 Z n sgn[ xn (m)] sgn[ xn (m 1)] 2 m 0
式中,sgn[]是符号函数,即
1, ( x 0) sgn[ x] 1, ( x 0)
过零示意图
短时过零率分析 – 应用
利用短时平均过零率还可以从背景噪声中找出语音信号,可 用于判断寂静无声段和有声段的起点和终点位臵。在孤立词 的语音识别中,必须要在一连串连续的语音信号中进行适当 分割,用以确定一个一个单词的语音信号,即找出每一个单 词的开始和终止位臵,这在语音处理中是一个基本问题。此 时,在背景噪声较小时用平均能量识别较为有效,而在背景 噪声较大时用平均过零率识别较为有效。但是研究表明,在 以某些音为开始或结尾时,如当弱摩擦音(如[f]、[h]等音 素)、弱爆破音(如[p]、[t]、[k]等音素)为语音的开头或结 尾;以鼻音(如[ng]、[n]、[m]等音素)为语音的结尾时,只 用其中一个参量来判别语音的起点和终点是有困难的,必须 同时使用这两个参数。
假设语音信号的幅度符合Laplacian分布,此时信号 幅度超过4σx的概率很小,只有0.35%,因而可取 Xmax=4σx,则 SNR(dB) 6.02B 7.2 上式表明量化器中的每bit字长对SNR的贡献为6dB。
预处理
已数字化的语音信号序列将依次存入一个数据区,在语 音信号处理中一般用循环队列的方式来存储这些数据, 以便用一个有限容量的数据区来应付数量极大的语音数 据,已处理完提取出了语音特征参数的一个时间段的语 音数据可以依次抛弃,让出存储空间来存储新数据。
语音信号被分割成一帧一帧的加过窗函数的短时信 号,然后再把每一个短时语音帧看成平稳的随机信 号,->提取语音特征参数。最后得到由每一帧参数 组成的语音特征参数的时间序列。
3 语音信号的时域分析
时域分析就是分析和提取语音信号的时域参数。 进行语音分析时,最先接触到并且也是最直观的是它 的时域波形。语音信号本身就是时域信号,因而时域 分析是最早使用,也是应用最广泛的一种分析方法, 这种方法直接利用语音信号的时域波形。时域分析通 常用于最基本的参数分析及应用,如语音的分割、预 处理、大分类等。
预处理
2.窗口的长度 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf 之间存在下列关系: Δf=1/NTs
可见,采样周期一定时,Δf随窗口宽度N的增加而 减小,即频率分辨率相应得到提高,但同时时间分 辨率降低;如果窗口取短,频率分辨率下降,而时 间分辨率提高,因而二者是矛盾的。应该根据不同 的需要选择合适的窗口长度。
En x (m)
m 0 2 n
N 1
短时能量及短时平均幅度分析
短时平均幅度分析
En是一个度量语音信号幅度值变化的函数,但它有一个缺陷, 即它对高电平非常敏感(因为它计算时用的是信号的平方)。 为此,可采用另一个度量语音信号幅度值变化的函数,即短 时平均幅度函数Mn,它定义为:
M n xn ( m )
预处理
有时窗口长度的选择,更重要的是要考虑语音信号 的基音周期。在一个语音帧内应包含1~7个基音周 期。不同人的基音周期变化很大,从女性和儿童的 2ms到老年男子的14ms(即基音频率的变化范围为 500~70Hz),所以N的选择比较困难。通常在10kHz 取样频率下,N折中选择为100~200点为宜(即10~ 20ms持续时间)。
语音信号从整体来看其特征及表征其本质特征的参数均 是随时间而变化的,所以它是一个非平衡态过程,不能用处 理平衡信号的数字信号处理技术对其进行分析处理。 但是在一个短时间范围内(一般认为在10-30ms的短时 间内),其特性基本保持不变即相对稳定,因而可以将其看 作是一个准稳态过程,即语音信号具有短时平稳性。
2 语音信号的数字化和预处理
•
语音信号的数字化一般包括放大、增益控制、反混 叠滤波、采样、A/D变换及编码(一般是PCM码);
语音信号
带通滤 波器
自动增益控 制(AGC)
模 / 数转换 (A/D)
脉冲编码 调制(PCM)
存入计算机
预处理一般包括预加重、加窗和分帧等。
预滤波、采样、A/D变换
预滤波的目的有两个:
加窗 如图3-2所示,设语音波形时域信号为x(t)、加窗分帧处理 后得到的第n帧语音信号为xn(m),则xn(m)满足下式:
xn(m)=ω(m)x(n+m)
1, m 0 ~ ( N 1) (m) 0, m 其它值
短时能量 设第n帧语音信号xn(m)的短时能量用En表示,则其计 算公式如下:
m 0
N 1
其中,
xn (m) (m) x(n m), (0 k K ) 1, m 0 ~ ( N 1) (m) 0, m 其它值 x'n (m) ' (m) x(n m), (0 k N 1 K )
1, m 0 ~ ( N 1 K ) ' (m) m 其它值 0,
m 0
N 1
Mn也是一帧语音信号能量大小的表征,它与En的区别在于计 算时小取样值和大取样值不会因取平方而造成较大差异,在 某些应用领域中会带来一些好处。
短时过零率分析
短时过零率表示一帧语音中语音信号波形穿过横轴(零电平) 的次数。过零分析是语音时域分析中最简单的一种。对于连 续语音信号,过零即意味着时域波形通过时间轴;而对于离 散信号,如果相邻的取样值改变符号则称为过零。过零率就 是样本改变符号的次数。 定义语音信号xn(m)的短时过零率Zn为:
经过预滤波和采样后,由A/D变换器变换为二进制数字码。
A/D变换:量化不可避免地会产生误差。量化后的信号值与 原信号值之间的差值称为量化误差,又称为量化噪声。
若量化间隔Δ足够小,可以证明量化噪声符合具有下列特征 的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概率密度分 布
预处理
预处理
分帧是用可移动的有限长度窗口进行加权的方法来实现的, 这就是用一定的窗函数ω(n)来乘s(n),从而形成加窗语音 信号sω(n)=s(n)* ω(n)。 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗等, 它们的表达式如下(其中N为帧长): 矩形窗: 1, 0 n ( N 1) (n) n else 0, 汉明窗:
这种分析方法的特点是:①表示语音信号比较直观、 物理意义明确。②实现起来比较简单、运算量少。③ 可以得到语音的一些重要的参数。④只使用示波器等 通用设备,使用较为简单等。
语音信号的时域基本参数
短时能量及短时平均幅度 短时过零率
语音信号起始点
短时相关性 短时平均幅度差函数
短时能量及短时平均幅度分析
由于语音信号的平均功率谱受声门激励和口鼻辐射影响, 要在预处理中进行预加重(Preemphasis)处理。预加 重的目的是提升高频部分,使信号的频谱变得平坦,保 持在低频到高频的整个频带中,能用同样的信噪比求频 谱,以便于频谱分析或声道参数分析。
预处理
进行过预加重数字滤波处理后,接下来就要进行加 窗分帧处理。一般每秒的帧数约为33-100帧,视实 际情况而定。分帧虽然可以采用连续分段的方法, 但一般要采用如图3-1所示的交叠分段的方法,这 是为了使帧与帧之间平滑过渡,保持其连续性。前 一帧和后一帧的交叠部分称为帧移。帧移与帧长的 比值一般取为0-1/2。
1.短时自相关函数 定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下:
Rn (k )
N 1 k m 0
x (m) x (m k ),0 k K
n n
这里K是最大的延迟点数。
短时自相关函数具有以下性质: (1)如果xn(m)是周期的(设周期为N),则自相关函数是同周 期的周期函数,即Rn(k)=Rn(k+Np)。 (2)Rn(k)是偶函数,即Rn(k)=Rn(-k)。 (3)当k=0时,自相关函数具有最大值,即Rn(0)≥|Rn(k)|, 并且Rn(0)等于确定性信号序列的能量或随机性序列的平均 功率。