当前位置:文档之家› 南理工 语音信号处理期末考试重点整理

南理工 语音信号处理期末考试重点整理


V ( z)
G 1 ak z k
k 1 P
这是一个全极点模型,极点 就是这个多项式的根:
1 ak z k 0
k 1
P
若P为偶数,解其根会得到共扼复数(conjugate complex) 的根,表示成: P / 2 1 * 1
(1 p z
i i 1
)(1 pi z )
i 1
P/2
P/2
1
1 1 1 b z c z i 1 i i
这样分解则每一个二阶因式均对应一个共振峰,其幅频 特性是典型的二阶谐振特性,谐振中心频率值等于共振 峰。若把语音的各个共振峰所对应的二阶系统级联起来 就形成了一个完整的级联型声道模型,且具有明显的谐 振特性。
3、语音信号产生的数字模型
第02章基础知识—7
2、语音信号产生过程
语音的两个重要声学特性:基音频率,共振峰 浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决 定,其值等于声带张开和闭合一次的时间的倒数。人类基 音频率的范围在80~500 Hz左右。 共振峰(Fn , n=1,2,...):声道是一个谐振腔,它放大声音气流 的某些频率分量而衰减其他频率分量,被放大的频率我们 称之为共振峰或共振峰频率。 声道具有的一组共振峰,声道的频谱特性主要反映出这些共 振峰的不同位置以及各个峰的频带宽度 。共振峰及其带宽 取决于声道某一瞬间的形状和尺寸,因而不同的语音对应 于一组不同的共振峰参数。实际应用中,头三个共振峰最 重要,越多越精确。
第02章基础知识—9
3、语音信号产生的数字模型
3. 语音信号产生的数字模型
下图是一 个完整的语音信号产生的数字模型:
第02章基础知识—10
3、语音信号产生的数字模型
由此模型框图,我们可将语音信号看成 准周期序列或随机噪声序列作为激励的 线性非移变系统的输出,此模型可分为 三个部分:激励模型、声道模型、辐射 模型 激励模型 根据发浊音和发清音的机理 又分为:(a)浊音激励 (b)清音激励
语音信号处理 洪弘
1月20号晚上七点-九点,四工A107
选择题(2分,10题) 填空题(1分,15题) 文字解释(4分,5题) 简答题(9分,5题)
没有计算题。
第一章
1.语音信号处理的实质:是研究用数字信号处 理技术对语音信号进行处理的一门学科。 2.语音信号处理的目的: 通过处理得到一些反映语音信号重要特征的 语音参数,以便高效地传输或储存语音信号 所包含的信息。 通过对语音信号进行某种运算,以达到某种 要求。
3
第2章 语音信号基础知识
1.
声音是一种波,振动频率在20~20 000 Hz之间。 20HZ以下:次声波 20 000HZ以上:超声波
第02章基础知识—4
1、人类的语言器官
1. 人类的语言器官
人体发音器官—肺、气管、喉(包括声
带)和声道 肺是语音产生的能源所在; 声带为产生语音提供主要的激励源; 声道是指声门至嘴唇的所有器官:咽、 鼻腔 、口腔等,它们具有非均匀截面, 且随时间变化,起共鸣器(或谐振器) 的作用。
(2-6)
第02章基础知识—14
3、语音信号产生的数字模型
(b)清音激励 发清音时声道被阻碍形成湍流,所以可把 清音激励模拟成随机白噪声。此处用均值 为0方差为1并在幅值上为平稳分布的序列, 具体实现时可采用随机噪声发生器来产生 此序列。
第02章基础知识—15
3、语音信号产生的数字模型
(2) 声道模型
第02章基础知识—11
3、语音信号产生的数字模型
(1)激励模型
(a)浊音激励 由前面所讲发音过程可知,发 浊音时声带不断地张开和闭合 将产生间歇的准周期性脉冲波 ,其周期为基音周期,单个脉 冲的波形类似于斜三角波,故 数字模型中可用周期为T0单位 取样序列串作为声门脉冲模型 g(n)的输入,其输出就是浊音 激励。 由于人类语音的频率范围主要 集中在300Hz~3400Hz,数字 模型中的信号取样率一般为 8KHz。
2
3.语音信号数字表示的优点 数字技术能完成许多很复杂的信号处理工作; 语音可以看成是音素的组合,具有离散的性质, 特别适合于数字处理; 数字系统具有高可靠性、价廉、紧凑、快速等特 点,很容易完成实时处理任务; 数字语音适于在强干扰信道中传输,易于和数据 一起在通信网中传输,也易于进行加密传输。
第02章基础知识—13
3、语音信号产生的数字模型
周期性的斜三角波脉冲可看做加权的单位脉 冲串激励上述单个斜三角脉冲的结果。而周 期冲激序列及幅值因子可表示成下面的Z变
E(z)=AV/(1-z-1) (2-5)
U(z)=G(z)E(z)=AV/(1-z-1) ·1/ (1-g1z-1)(1-g2z-1)
窄频带的语谱图(narrowband spectrograms) 宽窗 语谱图的产生是用傅里叶转换(Fourier transform), 当我们用较长的分析窗口(analysis windows),约20ms, 对应频宽约为45 Hz,得到的频率分辨率较高,频谱上 可以看到谐振的成分。在语谱图上呈现等距的黑白相间 横线条,其间距就是基频(F0) 。
0
0
第02章基础知识—24
4、语音信号的特性
4.2 语音的声学特性
2. 语音的构成—音节(syllable) 、音素 音素(phoneme):语音发音的最小单位。
我国传统分类 元音(韵母):是当声带振动发出的声音气流在声道中 不受阻碍,这种情况下产生的语音称为元音。元音属于浊 音。 辅音(声母):从声门呼出的声音气流,在声道通路中 某一部分封闭起来或受到阻碍不能畅通,为克服发音器 官的这种阻碍而产生的语音称为辅音。
第02章基础知识—20
Байду номын сангаас
3、语音信号产生的数字模型
(2) 声道模型
(c)混合型 我们可以根据发音的需要自动切换串联或并联通路,此外并联部 分还有一条直通路径,其幅度控制因子为AB,这是专为一些频 谱特性较为平坦的音素如[f]、[p]、[b]而考虑的,以增强反谐振特 性。
第02章基础知识—21
3、语音信号产生的数字模型
Ai V ( z ) Vi ( z ) 1 2 1 B z C z i 1 i 1 i i
P/2
P/2
这就是并联型共振峰模型,每一个二阶因式对应一个共 振峰。每个二阶谐振器的幅度可单独控制。
第02章基础知识—19
3、语音信号产生的数字模型
(2) 声道模型
前面两种共振峰模型各自都只能适用于部分语音,级联或并联 的级数取决于声道的长度,一般成人取3到5级。级联型结构较 为简单,并联型各谐振器幅度可独立控制,综合考虑两者的优 缺点可将两种共振峰模型有机地结合起来就得到一种较为完备 的共振峰模型。
第02章基础知识—8



共振峰是声道的重要声学特性。声道对于一个激励信号的响应, 可以用一个含有多对极点的线性系统来近似描述。每对极点都对 应一个共振峰频率。这个线性系统的频率响应特性称为共振峰特 性,它决定信号频谱的总轮廓,或称谱包络。 语音的频率特性主要是由共振峰决定的。而声道的共振峰特性决 定所发声音的频谱特性,即音色。 元音的音色和区别特征主要取决于声道的共振峰特性。共振峰特 性可以从语音信号频谱分析得到的幅频特性观察到。 在声学语音学中通常考虑F1和F2,但在语音识别技术中至少要 考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为现 实的。 声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数, 称为声道截面积函数,它决定共振峰的特性。
第02章基础知识—27
4、语音信号的特性
4.3语音的时间波形和频谱特性
宽频带的语谱图(wideband spectrograms) 窄窗 若是在转换演算时用较少的取样点,分析窗口大约 3ms ,对应频宽约300 Hz,则频谱上看不到谐振成分, 在语谱图上看不到等距的黑白相间。频率分辨率较低, 反而是时轴上的分辨率较高,看到明显的垂直线条。
第02章基础知识—17
第02章基础知识—18
3、语音信号产生的数字模型
pi e iT e j 2FiT
p e
* i
iT
e
j 2FiT
F=1/T -- 取样频率 i/ -- 共振峰的频宽。 Fi是 -- 共振峰(formant)的中心频率
V ( z ) GVi ( z ) G
第02章基础知识—12
由图可见,它是一个低通滤波器。频率分析表明,其幅度谱按12 dB/倍 频程的速率衰减。如果将其表示为Z变换的全极模型的形式,有 G(z)=1/ (1-g1z-1)(1-g2z-1) 如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门 脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型。需 要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合 成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。
(b)并联型 适用于鼻音、复合元音及大部分辅音,发这些音时发音 腔体具有反谐振特性,必须在模型中加入零点以减弱谐 振强度,故要考虑用零、极点模型:
r b z r R
通常P>R,假设分子与分母无公因
V ( z)
1 ak z
k 1
r 0 P
子且分母无重根,则此式可分解为
k
以下部分分式之和的形式:
第02章基础知识—25
4、语音信号的特性
4.2 语音的声学特性
汉语语音的特点—声、韵、调,音节在汉语 中占有主要地位,它是由声母、韵母和声调按 一定的方式构成的,是语言的最小使用单位; 音节结构简单,与其它语言相比汉语语音音节 和音素都很少。
第02章基础知识—26
4、语音信号的特性
4.3语音的时间波形和频谱特性
相关主题