当前位置：文档之家› 语音信号处理第2章-语音信号基础

语音信号处理第2章-语音信号基础

信息科学与工程学院
东南大学
2.2 语音和语言
语音研究分为两类：
语言学：包括构成语言的语素、词、短语和句子等的不同层次的单位，以及词法、句法、文脉等语法和语义内容等。语言学是语音信号处理的基础。语音学：考虑的是语音产生、语音感知等的过程以及语音中各个音的特征和分类等问题。语音学发展成为三个主要分支：发音语音学、声学语音学、听觉语音学。
信息科学与工程学院东南大学
2.4 语音生成系统和语音感知系统
同时掩蔽
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
短时掩蔽
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
语音信号是非平稳随机过程短时分析：短段时间内表示语音信号时，采用线性时不变模型。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
汉语的每个汉字是一个音节，音节一般由声母、韵母和声调三部分组成。更为细致的将一个音节划分为9个部分，其中1 ～4段属于声母（辅音），6～9段属于韵母（元音）。第5段是二者的过渡段。第7段（主要元音段）是每个音节是具有的。汉语中一般有五个声调，即阴平、阳平、上声、去声以及轻声。
0.4
-0.2 -0.3
20 40 60 80 100 120 140 160
0
20
40
60
80
100
120
140
160
0.3
50
50
0
0
0.2
-50
-50
-100
0
0.5
1
1.5
2
2.5
3
3.5
-100
0
0.5
1
1.5
2
2.5
3
3.5
0.1
0
0.4 0.2
-0.1
0 -0.2
-0.2
-0.4 0 20 40 60 80 100 120 140
40
-0.3
20 0
-0.4
-20
0
1000
2000
3000
4000
-40 -60
5000
6000
7000
信息科学与工程学院
0 0.5 1 1.5 2
东南大学
2.5 3
2.3 汉语语音学
汉语语音的特点：
音系简单。这是指音素少、音节少。音节的结构也比较简单。由于清辅音多，而且多是弱清音，而且开口呼的音节占全部音节的一半以上，所以汉语语音听感上有清亮、高扬和舒服、柔和的感觉。有鲜明的轻重音和儿化韵，所以字词分隔清楚，语言表达准确而丰富。
信息科学与工程学院
东南大学
2.2 语音和语言
元音和辅音的区别
元音另一个重要声学特征就是共振峰：共振峰参数是区别不同元音的重要参数，它一般包括共振峰频率（Formant Frequency）的位置和频带宽度（Formant Bandwidth）。
一般地说：区分语音是男声还是女声、是成人声音还是儿童声音，共振峰频率的高低是重要因素。
信息科学与工程学院东南大学
2.3 汉语语音学
声母和韵母的相互作用——音征互载
声母和韵母的音征并不总是在各自的音段之内，而且又可能跨越两者的边界，即声母里可能会带有韵母的信息，韵母里也可能带有声母的信息，如辅音音渡。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话的声调只有阴平、阳平、上声、去声以及‚轻声‛等五种声调。声调的变化就是浊音基音周期（或基音频率）的变化，各个韵母段中基音周期随时间的变化产生了声调，变化的轨迹称为声调曲线。
信息科学与工程学院东南大学
2.4 语音生成系统和语音感知系统
听觉系统
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统：时频分析和掩蔽
时频分析：如果信号是一个多频率信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度。耳蜗就象一个频谱分析仪，将复杂的信号分解成各种频率分量。掩蔽效应：并非所有的声音都能被人耳听到，这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指，在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。掩蔽效应分为同时掩蔽和短时掩蔽。
信息科学与工程学院
东南大学
2.2 语音和语言
根据发音时声带是否振动，分为浊音和清音的区别。通常元音为浊音，辅音为清音，但也有一部分辅音发声时，声带振动，因此辅音中有一部分是浊音。
信息科学与工程学院
东南大学
0.1
0.02 0.01
0 -0.1
0 -0.01 -0.02 -0.03 0
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话四种声调的典型曲线：
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音发音系统
人的发音器官包括：肺、气管、喉（包括声带）、咽、鼻和口。这些器官共同形成一条形状复杂的管道。喉的部分称为声门。从声门到嘴唇的呼气通道叫做声道（Vocal Tract）。声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的不断改变，而发出不同的语音。
信息科学与工程学院
东南大学
系统模型
极点位置在[0 π/2]内时
信息科学与工程学院
东南大学
信息科学与工程学院
东南大学
系统模型
极点位置在[π/2 π]内时
信息科学与工程学院
东南大学
信息科学与工程学院
东南大学
系统模型
在采样率fs=4000Hz，如果假设共振峰频率为fc=500Hz，则一个二阶的全极点传递函数应该如何设计？则极点为共轭的，因此极点的角频率为：
信息科学与工程学院
东南大学
当a>0
信息科学与工程学院
东南大学
当a<0
信息科学与工程学院
东南大学
系统模型
对于二阶的全极点传递函数
H ( z)
1 1 az 1 bz 2
其对应的幅度响应？由于传递函数中，a、b均为实数，且要求极点在单位圆内，因此传递函数的极点应该是共轭对称的。
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统
人耳由内耳、中耳和外耳三部分组成。外耳由耳翼、外耳道和鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗的变换，即将中耳两端的声阻抗匹配起来，同时对内耳起着保护的作用。内耳的主要构成器官是耳蜗(Cochlea)。它是听觉的受纳器，把声音通过机械变换产生神经发放信号。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
激励模型 • 语音信号的产生模型声道模型
声管模型
级联型
共振峰模型并联型
辐射模型
混合型
信息科学与工程学院
东南大学
系统模型
对于一阶全极点传递函数 1 H ( z) 1 1 az
传递函数所对应的幅度响应实际上是：
|z| 1 | H ( z ) | | z a | | z a |
fc 2 fs 则极点位置为：
[ p cos , p sin j ],[ p cos , p sin j ]
信息科学与工程学院东南大学
p=0.98
信息科学与工程学院
东南大学
P=0.5
信息科学与工程学院
东南大学
系统模型
一阶全零点系统
H ( z ) 1 az
其频谱响应？
1
信息科学与工程学院
东南大学
系统模型
当a>0
信息科学与工程学院
东南大学
系统模型
当a<0时
信息科学与工程学院
东南大学
系统模型
对于二阶的全零点系统
H ( z ) 1 az bz
1
2
零点的位置没有限定要求，那么其幅度响应
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
信息科学与工程学院
东南大学
2.3 汉语语音学
汉字‘天’
0.4 0.3
声母
韵母
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
0
500
1000
1500
2000
2500
3000
3500
4000
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语声母的结构
声母共有21个，[b]、[p]、[m]、[f]、[d]、[t]、 [n]、[l]、[g]、[k]、[h]、[j]、[q]、[x]、[zh]、 [ch]、[sh]、[r]、[z]、[c]、[s]，可分为六大类：擦音、塞音、塞擦音、边音、鼻音、零声母声母除了零声母外，其它都是单辅音
信息科学与工程学院
东南大学
2.2语音和语言
人们讲话时发出的话语叫语音，语音（Speech）是声音（Acoustic）和语言（Language）的组合体。语音：是由一连串的音组成语言的声音。
信息科学与工程学院
东南大学
2.2 语音和语言
人的说话过程可以分为五个阶段：（1）想说阶段（2）说出阶段（3）传送阶段（4）接收阶段（5）理解阶段

e商务文档

语音信号处理第2章-语音信号基础

相关文档推荐：