当前位置:
文档之家› 语音信号处理 第3版 第2讲
语音信号处理 第3版 第2讲
Av
基音频率 F0
声道参数
周期脉冲 发生器
声门脉冲 模型U(z) 声道模型 V(z) 随机噪声 发生器 浊音/清音开关 辐射模型 R(z) 输出语音
激励源
Au
声道模型
辐射模型
它的传输函数可以表示为: H ( z) A U ( z)V ( z) R( z)
声压:定量描述声波的基本物理量,是由声扰动产生的逾 量压强,是空间位置和时间的函数
1 这样,只剩 后,插入一个一阶的高通滤波器 H(z)=1- z 1 ,。
下声道部分,便于声道参数的分析
ห้องสมุดไป่ตู้
在语音合成时,再进行“去加重”处理,就可以恢复原来的语 音
语音信号的数学模型
综上所述,完整的语音信号的数字模型可以用三个子模型: 激励模型、声道模型和辐射模型的串联来表示。如图所示:
2.2 语音信号生成的数学模型
理想的模型是线性的和时不变的。语音信号是非平稳随机过
程,其特性是随着时间变化的,所以模型中的参数应该是随 时间而变化的。但语音信号特性随着时间变化是很缓慢的。 所以可以作出一些合理的假设,将语音信号分为一些相继的 短段进行处理,在这些短段中可以认为语音信号特性是不随
成平板开槽辐射的情况。此时,可推导出辐射阻抗的公式如下:
jLr Rr z L () Rr jLr
式中,
128 Rr , 2 9
8a Lr 3c
a
是口唇张开时的开口半径, 是声波传播速度。
c
辐射模型
由辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型 是一阶类高通滤波器。 在实际信号分析时,常用所谓的“预加重技术”,即在取样之
预处理一般包括预加重、加窗和分帧等。 在分析处理之前必须把要分析的语音信号部分从输入信号 中找出来这项工作叫做语音信号的端点检测。
预滤波、采样、A/D变换
预滤波的目的有两个: 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs) 为采样频率,以防止混叠干扰。 抑制50Hz的电源工频干扰。 这样,预滤波器必须是一个带通滤波器,设其上、下截止频 率分别是fH和fL: 绝大多数语音编译码器: fH=3400Hz,fL=60-100Hz,fS=8kHz 要求较高的场合fH=4500HzfL=60Hz采样率fS=10kHz
SNR(dB) 6.02B 7.2
上式表明量化器中的每bit字长对SNR的贡献为6dB。
语音输入——输出过程:
语音输入 反混叠滤波
A/D变换
分析处理
对重构的语音波形的高次谐波起平滑作用 去掉高次谐波失真。
语音输出 平滑滤波 D/A变换
传输或存储
合成处理
预处理
已数字化的语音信号序列将依次存入一个数据区,在语音信 号处理中一般用循环队列的方式来存储这些数据,以便用一 个有限容量的数据区来应付数量极大的语音数据,已处理完 提取出了语音特征参数的一个时间段的语音数据可以依次抛 弃,让出存储空间来存储新数据。 调频收发技术中,通常采用预加重(发送端对输入信号高频 分量的提升)和去加重(解调后对高频分量的压低)技术解 决高频传输困难的问题。
式中,N1为斜三角波上升部分的时间, N2为其下降部分的时间。
激励模型
浊音激励:单个斜三角波的Z变换的全极模型的形式是:
G( z)
1 (1 e cT z 1 ) 2
c是常数。上式表示斜三角波形可描述为一个二极点模型。 斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角 波模型的结果。
声压与声强的关系:对于球面波和平面波,声压和声强的 关系表达为:
p2 I c
空气中,空气密度与声速的乘积 c 408 ,称为空气对 声波的特性阻抗,单位,瑞利
响度:描述声音的响亮程度,表示人耳对声音的主观感受, 单位 宋,定义为声压级为40dB的1kHz纯音的响度为1宋
M
这就是并联型的共振峰模型。如图2-21所示(M=5)。
声道模型
并联型
图2-21 并联型共振峰模型
声道模型
混合型
上述两种模型中,级联型比较简单,可以用于描述一般元音。 当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时, 级联模型就不能胜任了。 这时腔体具有反谐振特性,必须考虑加入零点,使之成为零
人们讲话时发出的话语叫语音,它是一种声音,具有称为声 学特征的物理特性。语音( Speech )是声音( Acoustic )和
语言( Language )的组合体。可以这样定义语音:语音是由
一连串的音组成语言的声音。 人的发音器官包括:肺、气管、喉(包括声带)、咽、鼻和 口。喉的部分为声门。从声门到嘴唇的呼气通道叫做声道, 声道形状的不断改变。发出不同的语音。
级联型共振峰模型
声道模型
并联型
r b z r R
对于非一般元音以及大部分辅音,必须考虑采用零极点模型。 此时,模型的传输函数如下:
V ( z)
1 ak z k
k 1
r 0 N
上式可分解为如下部分分式之和的形式:
Ai V ( z) 1 2 i 1 1 Bi z Ci z
压级,用 L p 表示,单位dB.
pe Lp 20lg pref
在空气中参考声压一般取 20 105 Pa
声强:声音在单位时间内作用在与其传递方向垂直的单位 面积上的能量
声强级(Intensity Level, IL)用声强的物理学单位表示声
音强弱很不方便,当人耳听到两个强度不同的声音时,感 觉的大小大致上与两个声强比值的对数成比例。用对数尺 度来表示声音强度的等级,单位dB I LI 10lg I0 参考声强取值 I 0 11012 W m2
Fi
2i 1 c 4L
i=1,2,…表示共振峰序号,c为声速,L为声管长度
基于物理声学的共振峰理论,可以建立起三种实用的 共振峰模型:级联型、并联型和混合型。
声道模型
级联型
声道是一组串联的二阶谐振器。从共振峰理论来看,整个声
道具有多个谐振频率和多个反谐振频率,所以它可被模拟为
一个零极点的数学模型;但对于一般元音,则用全极点模型 就可以了。它的传输函数可分解表示为多个二阶极点的网络 的串联:
语音增强 语音编码
语音合成与转换
语音隐藏 语音识别 声源定位 情感识别……
激励模型
单位脉冲串及幅值因子则可表示成下面的z变换形式:
Av E( z) 1 z 1
所以,整个浊音激励模型可表示为: 幅值因子
Av 1 U ( z ) G( z ) E ( z ) 1 1 z (1 e cT z 1 ) 2
也就是说浊音激励波是一个以基音周期为周期的斜三角脉冲串。
预滤波、采样、A/D变换
若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表 示量化字长, σe2表示噪声序列的方差,可以证明量化信噪比
SNR(信号与量化噪声的功率比)为:
2 x X max SNR(dB) 10lg 2 6.02B 4.77 20lg e x 假设语音信号的幅度符合Laplacian分布,此时信号幅度超过 4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则
基音频率决定了声音频率的高低,频率快则音调高,频率慢则音调低。
人的听觉系统是一个十分巧妙的音频信号处理器。主要完成声音的 采集、频率分解、声能转换、声音加工和分析以及感觉声音的音色、
音调、音强、判断方位等功能。
听觉具有选择性:能被人耳听到的声音取决于声音的强度和频率范 围。(一般人可以感觉到 20Hz~20kHz ,强度为 -5dB~130dB 的声音 信号) 听觉具有掩蔽效应:指在一个强信号附近,弱信号将变得不可闻, 被掩蔽掉了。
预滤波、采样、A/D变换
语音信号经过预滤波和采样后,由A/D变换器变换为二进制 数字码。 A/D变换中要对信号进行量化,量化不可避免地会产生误差。 量化后的信号值与原信号值之间的差值称为量化误差,又称 为量化噪声。 若信号波形的变化足够大,或量化间隔Δ足够小时,可以证 明量化噪声符合具有下列特征的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概率密度分 布
语音是由肺至唇各种器官作用而发出的,其作用的方式有3种:
(1)把肺部呼出的直气流变为音源
(2)对音源起共振和反共振的作用,使之带有音色 (3)从唇或鼻向空间辐射 对发音影响最大的是声带,每开启和闭合一次的时间即声带的共振周 期,就是音调周期或基音周期,其倒数为基音频率(其范围随发音人
的性别、年龄而定)。E.g.老年男性偏低,小孩和青年女性偏高
激励模型
清音激励模型:模拟成随机白噪声,实际中一般使用均值为0, 方差为1,并在时间(幅值) 上为白色分布的序列
声道模型——声道部分的模型
目前最常用的有2种建模方法。 (1)是把声道视为由多个等长的不同截面积的管子串联而成的
系统,即“声管模型”。
(2)是把声道视为一个谐振腔,即“共振峰模型”。 共振峰模型,把声道视为一个谐振腔。共振峰就是这个腔体的 谐振频率,表达式:
着时间变化的平稳随机过程。这样在这些短段时间内表示语
音信号时,可以采用线性时不变模型。
激励模型
激励模型一般分成浊音激励和清音激励来讨论。 浊音激励模型:由于声带不断张开和关闭,将产生间歇的脉 冲波。这个脉冲波的波形类似于斜三角形的脉冲,它的数学 表达式如下:
(1 / 2)[1 cos(n / N 1 )], 0 n N 1 g (n) cos[ (n N 1 ) / 2 N 2 ], N 1 n N 1 N 2 0, 其他