当前位置：文档之家› 第2讲语音信号处理基础知识

第2讲语音信号处理基础知识

2.2 语音和语言
2.2 语音和语言

当声带振动发出的声音气流从喉腔、咽腔进入口腔从唇腔出去时，这些声腔完全开放，气流顺利通过，这种音称为元音。
2.2 语音和语言
呼出的声流，由于通路的某一部分封闭起来或受到阻碍，气流被阻不能畅通，而克服发音器官的这种阻碍而产生的音素称为辅音。发辅音时由声带是否振动引起浊音和清音的区别，声带振动的是浊音，声带不振动的是清音。（b/p）

语音听觉系统
人的听觉系统
语音听觉系统

人的听觉系统有两个重要特性，一个是耳蜗对于声信号的时频分析特性；另一个是人耳听觉掩蔽效应。如果信号是一个多频率信号，则产生的行波将沿着基底膜在不同的位置产生最大幅度。从这个意义上讲，耳蜗就象一个频谱分析仪，将复杂的信号分解成各种频率分量。并非所有的声音都能被人耳听到，这取决于声音的强度和其频率范围。心理声学中的听觉掩蔽效应是指，在一个强信号附近，弱信号将变得不可闻，被掩蔽掉了。时间掩蔽：同时掩蔽和短时掩蔽频率掩蔽

语音听觉系统
人耳由内耳、中耳和外耳三部分组成。外耳由耳翼、外耳道和鼓膜构成。外耳在对声音的感知中起着声源定位和声音放大的作用。中耳包括由锤骨、砧骨和镫骨这三块听小骨构成的听骨链以及咽鼓管等组成。中耳的作用是进行声阻抗的变换，即将中耳两端的声阻抗匹配起来，同时对内耳起着保护的作用。内耳的主要构成器官是耳蜗(Cochlea)。它是听觉的受纳器，把声音通过机械变换产生神经发放信号。

2.2 语音和语言

发音器官产生元音的三条件
①声道受到声带振动的激励引起共振； ②在语音流的持续过程中，声道不发生极端的狭窄，并
维持较稳定的形状； ③和鼻腔不发生偶合，声音只从口腔辐射出去。
这三个条件中，只要缺少其中之一，则该语音就是辅音。辅音没有明确的共振峰结构。辅音发音时的阻碍的位置叫调音点（Place of Articulation ）、阻碍的方法叫调音方式（Manner of Articulation ）
汉语的声调
汉语普通话四种声调的典型曲线：
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.4 语音生成系统和语音感知系统
语音发音系统
人的发音器官包括：肺、气管、喉（包括声带）、咽、鼻和口。这些器官共同形成一条形状复杂的管道。喉的部分称为声门。从声门到嘴唇的呼气通道叫做声道（Vocal Tract）。声道的形状主要由嘴唇、颚和舌头的位置来决定。由声道形状的不断改变，而发出不同的语音。
汉语由音素构成声母或韵母。有时，将含有声调（汉语通常认为有五个声调）的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音，即音节字。由音节字构成词（其中主要是两音节字构成的两字词，约占74%），最后再由词构成句子。国际上，都是用音标来描述拼音过程的。汉语也不例外。汉语拼音的音标包括：声母表、韵母表和声调符号等。
汉语的声调
汉语是一种声调语言，相同声母和韵母构成
的音节随声调的不同而具有完全不同的意义，对应着不同的汉字。汉语普通话的声调只有阴平、阳平、上声、去声以及“轻声”等五种声调。声调的变化就是浊音基音周期（或基音频率）的变化，各个韵母段中基音周期随时间的变化产生了声调，变化的轨迹称为声调曲线。

汉语音节的一般结构
汉语声母的结构
普通话中的22个声母可分为六大类：
擦音塞音塞擦音边音鼻音零声母除零声母之外，其他所有的声母全部都是单辅音。
汉语韵母的结构

普通话的38个韵母大致可以分为三类
8个单韵母，如[a]、[i]、[u]等 14个复韵母，如[ai]、[ao]等

激励模型

激励模型一般分成浊音激励和清音激励来讨论。发浊音时，由于声带不断张开和关闭，将产生间歇的脉冲波。这个脉冲波的波形类似于斜三角形的脉冲，它的数学表达式如下：
(1 / 2)[1 cos(n / N 1 )], 0 n N 1 g (n) cos[ (n N 1 ) / 2 N 2 ], N 1 n N 1 N 2 0, 其他

二是要通过处理的某种运算以达到某种用途的要求，例如人工合成出语音、辨识出讲话者、识别出讲话的内容等等。
语音中包含的信息
语言（文字）说话人信息：身份、性别、年龄方言：认老乡的主要依据情感（情绪）语种：国外找“亲人”的主要信息来源说话方式（快、慢、耳语）语音品质（口语、朗诵、流畅性、动听度）健康状况：特别是发音器官病变

2.2 语音和语言

决定元音音色的主要因素是舌头的形状及其在口腔中的位置 (简称舌位)、嘴唇的形状(简称口形)等。元音的另一个重要声学特性是共振峰（Formant）。共振峰参数是区别不同元音的重要参数，它一般包括共振峰频率（Formant Frequency）的位置和频带宽度（Formant Bandwidth）。一般地说，女声和童声的基频高于男声，但是实验表明：区分语音是男声还是女声、是成人声音还是儿童声音，更重要的因素是共振峰频率的高低。
16个鼻韵母如[an]、[uang]等
在这38个韵母中有三个（-i、er、ê）是特殊韵母。

应该注意，元音并不等于韵母。元音、辅音是按音素的发音特征分类的；而声母、韵母则是按音节结构分类的。这是两种不同的概念，尽管它们之间有一定的联系。
声母和韵母的相互作用——音征互载

在普通话里，声母和韵母的音征并不总是在各自的音段之内，而且又可能跨越两者的边界，即声母里可能会带有韵母的信息，韵母里也可能带有声母的信息，如辅音音渡。如果把韵母从元音起始就开始算起的话，那么音渡就是韵母中载带的辅音音征，对于某些辅音来说，如不送气塞音[b]、[d]，元音里的音渡正是它们之间相互区别的主要音征。而韵母中的某些音征有声带载带的现象，最典型的就是介音的实现方式。
声道模型级联型

这时认为声道是一组串联的二阶谐振器。从共振峰理论来看，整个声道具有多个谐振频率和多个反谐振频率，所以它可被模拟为一个零极点的数学模型；但对于一般元音，则用全极点模型就可以了。传输函数可分解表示为多个二阶极点的网络的串联：
1 2e BkT cos(2 FkT ) e2 BkT V ( z) Bk T cos(2 FkT ) z 1 e2 BkT z 2 k 1 1 2e
2.2 语音和语言
调音方式等的不同可以把辅音分成如下几类
：塞音、摩擦音、塞擦音、鼻音、边音、颤音、通音。根据发辅音时声带有无振动，可以把辅音分类成浊辅音和清辅音。根据辅音除阻后是否紧跟着送出一股气来，可以把辅音分类成送气辅音和不送气辅音。
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.5 语音信号生成的数学模型
理想的模型是线性的和时不变的。语音信号是非平稳随机过程，其特性是随着时间变化的，所以模型中的参数应该是随时间而变化的。但语音信号特性随着时间变化是很缓慢的。所以可以作出一些合理的假设，将语音信号分为一些相继的短段进行处理，在这些短段中可以认为语音信号特性是不随着时间变化的平稳随机过程。这样在这些短段时间内表示语音信号时，可以采用线性时不变模型。

汉语音节的一般结构

汉语音节一般由声母、韵母和声调三部分组成。汉语普通话中有6000多个常用字每个汉字是一个音节，如将同音字合一处理，则汉语中共有 1332个有调音节，其中可以单念的有1268个。汉语中一般有五个声调，即阴平、阳平、上声、去声以及轻声。如果不考虑声调，则汉语中无调音节共有407个。汉语音节的一般结构，由9个部分组成。其中1～4段属于声母（辅音），6～9段属于韵母（元音），第5段是二者的过渡段。一个音节可能只包含里面的某几段，但是第7段（主要元音段）是每个音节是具有的。
一个二极点的模型。因此，斜三角波形串可视为加权了单位脉冲串激励上述单个斜三角波模型的结果。
激励模型
单位脉冲串及幅值因子则可表示成下面的z变
换形式：
Av E( z) 1 z 1
所以，整个浊音激励模型可表示为：
Av 1 U ( z ) G( z ) E ( z ) 1 z 1 (1 e cT z 1 ) 2
N1为斜三角波上升部分的时间，N2为其下降部分的时间。
声门及声门波
喉内窥镜图像
声门波曲线
激励模型
单个斜三角波波形的频谱的图形如图2-18所
示。由图可见，它是一个低通滤波器。它的变换的全极模型的形式是：
G( z)
1 (1 e
cT
z )
1 2
c是一个常数。显然，上式表示斜三角波形可描述为

重要概念
语音
音节元音、辅音清音、浊音声母、韵母共振峰、音色语谱图、声纹
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.2 语音和语言
语音是人的发声器官发出的一种声波，它具有一定的音色，音调，音强和音长。
一种声音区别声音的长短叫音长，于另一种声音声音的高低，它取决声音的强弱,声波它取决于发音时间的基本特征于声波的频率的振动幅度决定的长短
语音
语音（Speech）=声音（Acoustic）+
语言（Language），是二者的组合体语音是由一连串的音组成语言的声音

e商务文档

第2讲语音信号处理基础知识

相关文档推荐：

e商务文档

第2讲 语音信号处理基础知识

相关文档推荐：

第2讲语音信号处理基础知识