当前位置:文档之家› 语音信号处理第2章-语音信号基础

语音信号处理第2章-语音信号基础


信息科学与工程学院
东南大学
2.2 语音和语言
语音研究分为两类:
语言学:包括构成语言的语素、词、短语和句 子等的不同层次的单位,以及词法、句法、文 脉等语法和语义内容等。语言学是语音信号处 理的基础。 语音学:考虑的是语音产生、语音感知等的过 程以及语音中各个音的特征和分类等问题。语 音学发展成为三个主要分支:发音语音学、声 学语音学、听觉语音学。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
同时掩蔽
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
短时掩蔽
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
语音信号是非平稳随机过程 短时分析:短段时间内表示语音信号时, 采用线性时不变模型。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
汉语的每个汉字是一个音节,音节一般由声母 、韵母和声调三部分组成。 更为细致的将一个音节划分为9个部分,其中1 ~4段属于声母(辅音),6~9段属于韵母( 元音)。第5段是二者的过渡段。 第7段(主要元音段)是每个音节是具有的。 汉语中一般有五个声调,即阴平、阳平、上声 、去声以及轻声。
0.4
-0.2 -0.3
20 40 60 80 100 120 140 160
0
20
40
60
80
100
120
140
160
0.3
50
50
0
0
0.2
-50
-50
-100
0
0.5
1
1.5
2
2.5
3
3.5
-100
0
0.5
1
1.5
2
2.5
3
3.5
0.1
0
0.4 0.2
-0.1
0 -0.2
-0.2
-0.4 0 20 40 60 80 100 120 140
40
-0.3
20 0
-0.4
-20
0
1000
2000
3000
4000
-40 -60
5000
6000
7000
信息科学与工程学院
0 0.5 1 1.5 2
东南大学
2.5 3
2.3 汉语语音学
汉语语音的特点:
音系简单。这是指音素少、音节少。音节的结 构也比较简单。 由于清辅音多,而且多是弱清音,而且开口呼 的音节占全部音节的一半以上,所以汉语语音 听感上有清亮、高扬和舒服、柔和的感觉。 有鲜明的轻重音和儿化韵,所以字词分隔清楚 ,语言表达准确而丰富。
信息科学与工程学院
东南大学
2.2 语音和语言
元音和辅音的区别
元音另一个重要声学特征就是共振峰:共振峰 参数是区别不同元音的重要参数,它一般包括 共振峰频率(Formant Frequency)的位置和 频带宽度(Formant Bandwidth)。
一般地说:区分语音是男声还是女声、是成人 声音还是儿童声音,共振峰频率的高低是重要 因素。
信息科学与工程学院 东南大学
2.3 汉语语音学
声母和韵母的相互作用——音征互载
声母和韵母的音征并不总是在各自的音段之内 ,而且又可能跨越两者的边界,即声母里可能 会带有韵母的信息,韵母里也可能带有声母的 信息,如辅音音渡。
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话的声调只有阴平、阳平、上声、去 声以及‚轻声‛等五种声调。 声调的变化就是浊音基音周期(或基音频率) 的变化,各个韵母段中基音周期随时间的变化 产生了声调,变化的轨迹称为声调曲线。
信息科学与工程学院 东南大学
2.4 语音生成系统和语音感知系统
听觉系统
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统:时频分析和掩蔽
时频分析:如果信号是一个多频率信号,则产 生的行波将沿着基底膜在不同的位置产生最大 幅度。耳蜗就象一个频谱分析仪,将复杂的信 号分解成各种频率分量。 掩蔽效应:并非所有的声音都能被人耳听到, 这取决于声音的强度和其频率范围。心理声学 中的听觉掩蔽效应是指,在一个强信号附近, 弱信号将变得不可闻,被掩蔽掉了。掩蔽效应 分为同时掩蔽和短时掩蔽。
信息科学与工程学院
东南大学
2.2 语音和语言
根据发音时声带是否振动,分为浊音和清 音的区别。 通常元音为浊音,辅音为清音,但也有一 部分辅音发声时,声带振动,因此辅音中 有一部分是浊音。
信息科学与工程学院
东南大学
0.1
0.02 0.01
0 -0.1
0 -0.01 -0.02 -0.03 0
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语的声调
汉语普通话四种声调的典型曲线:
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音发音系统
人的发音器官包括:肺、气管、喉(包括声带 )、咽、鼻和口。这些器官共同形成一条形状 复杂的管道。 喉的部分称为声门。从声门到嘴唇的呼气通道 叫做声道(Vocal Tract)。声道的形状主要由 嘴唇、颚和舌头的位置来决定。由声道形状的 不断改变,而发出不同的语音。
信息科学与工程学院
东南大学
系统模型
极点位置在[0 π/2]内时
信息科学与工程学院
东南大学
信息科学与工程学院
东南大学
系统模型
极点位置在[π/2 π]内时
信息科学与工程学院
东南大学
信息科学与工程学院
东南大学
系统模型
在采样率fs=4000Hz,如果假设共振峰频率 为fc=500Hz,则一个二阶的全极点传递函 数应该如何设计? 则极点为共轭的,因此极点的角频率为:
信息科学与工程学院
东南大学
当a>0
信息科学与工程学院
东南大学
当a<0
信息科学与工程学院
东南大学
系统模型
对于二阶的全极点传递函数
H ( z)
1 1 az 1 bz 2
其对应的幅度响应? 由于传递函数中,a、b均为实数,且要求极点 在单位圆内,因此传递函数的极点应该是共轭 对称的。
信息科学与工程学院
东南大学
2.4 语音生成系统和语音感知系统
语音听觉系统
人耳由内耳、中耳和外耳三部分组成。 外耳由耳翼、外耳道和鼓膜构成。外耳在对声 音的感知中起着声源定位和声音放大的作用。 中耳包括由锤骨、砧骨和镫骨这三块听小骨构 成的听骨链以及咽鼓管等组成。中耳的作用是 进行声阻抗的变换,即将中耳两端的声阻抗匹 配起来,同时对内耳起着保护的作用 。 内耳的主要构成器官是耳蜗(Cochlea)。它是听 觉的受纳器,把声音通过机械变换产生神经发 放信号。
信息科学与工程学院
东南大学
2.5 语音信号生成的数学模型
激励模型 • 语音信号 的产生模型 声道模型
声管模型
级联型
共振峰模型 并联型
辐射模型
混合型
信息科学与工程学院
东南大学
系统模型
对于一阶全极点传递函数 1 H ( z) 1 1 az
传递函数所对应的幅度响应实际上是:
|z| 1 | H ( z ) | | z a | | z a |
fc 2 fs 则极点位置为:
[ p cos , p sin j ],[ p cos , p sin j ]
信息科学与工程学院 东南大学
p=0.98
信息科学与工程学院
东南大学
P=0.5
信息科学与工程学院
东南大学
系统模型
一阶全零点系统
H ( z ) 1 az
其频谱响应?
1
信息科学与工程学院
东南大学
系统模型
当a>0
信息科学与工程学院
东南大学
系统模型
当a<0时
信息科学与工程学院
东南大学
系统模型
对于二阶的全零点系统
H ( z ) 1 az bz
1
2
零点的位置没有限定要求,那么其幅度响应
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语音节的一般结构
信息科学与工程学院
东南大学
2.3 汉语语音学
汉字‘天’
0.4 0.3
声母
韵母
0.2
0.1
0
-0.1
-0.2
-0.3
-0.4
0
500
1000
1500
2000
2500
3000
3500
4000
信息科学与工程学院
东南大学
2.3 汉语语音学
汉语声母的结构
声母共有21个,[b]、[p]、[m]、[f]、[d]、[t]、 [n]、[l]、[g]、[k]、[h]、[j]、[q]、[x]、[zh]、 [ch]、[sh]、[r]、[z]、[c]、[s],可分为六大类 :擦音、塞音、塞擦音、边音、鼻音、零声母 声母除了零声母外,其它都是单辅音
信息科学与工程学院
东南大学
2.2语音和语言
人们讲话时发出的话语叫语音,语音 (Speech)是声音(Acoustic)和语言 (Language)的组合体。 语音:是由一连串的音组成语言的声音。
信息科学与工程学院
东南大学
2.2 语音和语言
人的说话过程可以分为五个阶段:(1)想 说阶段(2)说出阶段(3)传送阶段(4) 接收阶段(5)理解阶段
相关主题