当前位置:
文档之家› 第2讲 语音信号处理基础知识
第2讲 语音信号处理基础知识
2.2 语音和语言
2.2 语音和语言
当声带振动发出的声音气流从喉腔、咽腔进 入口腔从唇腔出去时,这些声腔完全开放, 气流顺利通过,这种音称为元音。
2.2 语音和语言
呼出的声流,由于通路的某一部分封闭起 来或受到阻碍,气流被阻不能畅通,而克服 发音器官的这种阻碍而产生的音素称为辅音。 发辅音时由声带是否振动引起浊音和清音的 区别,声带振动的是浊音,声带不振动的是 清音。 (b/p)
语音听觉系统
人的听觉系统
语音听觉系统
人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时 频分析特性;另一个是人耳听觉掩蔽效应。 如果信号是一个多频率信号,则产生的行波将沿着基底膜在 不同的位置产生最大幅度。从这个意义上讲,耳蜗就象一个 频谱分析仪,将复杂的信号分解成各种频率分量。 并非所有的声音都能被人耳听到,这取决于声音的强度和其 频率范围。心理声学中的听觉掩蔽效应是指,在一个强信号 附近,弱信号将变得不可闻,被掩蔽掉了。 时间掩蔽:同时掩蔽和短时掩蔽 频率掩蔽
语音听觉系统
人耳由内耳、中耳和外耳三部分组成。 外耳由耳翼、外耳道和鼓膜构成。外耳在对声音 的感知中起着声源定位和声音放大的作用。 中耳包括由锤骨、砧骨和镫骨这三块听小骨构成 的听骨链以及咽鼓管等组成。中耳的作用是进行声 阻抗的变换,即将中耳两端的声阻抗匹配起来,同 时对内耳起着保护的作用 。 内耳的主要构成器官是耳蜗(Cochlea)。它是听觉 的受纳器,把声音通过机械变换产生神经发放信号。
2.2 语音和语言
发音器官产生元音的三条件
①声道受到声带振动的激励引起共振; ②在语音流的持续过程中,声道不发生极端的狭窄,并
维持较稳定的形状; ③和鼻腔不发生偶合,声音只从口腔辐射出去。
这三个条件中,只要缺少其中之一,则该语音 就是辅音。 辅音没有明确的共振峰结构。辅音发音时的阻 碍的位置叫调音点(Place of Articulation )、 阻碍的方法叫调音方式(Manner of Articulation )
汉语的声调
汉语普通话四种声调的典型曲线:
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.4 语音生成系统和语音感知系统
语音发音系统
人的发音器官包括:肺、气管、喉(包括声带)、 咽、鼻和口。这些器官共同形成一条形状复杂的管 道。喉的部分称为声门。 从声门到嘴唇的呼气通道叫做声道(Vocal Tract)。声道的形状主要由嘴唇、颚和舌头的位 置来决定。由声道形状的不断改变,而发出不同的 语音。
汉语由音素构成声母或韵母。有时,将含有声调 (汉语通常认为有五个声调)的韵母称为调母。由 单个调母或由声母与调母拼音成为音节。 汉语的一个音节就是汉语一个字的音,即音节字。 由音节字构成词(其中主要是两音节字构成的两字 词,约占74%),最后再由词构成句子。 国际上,都是用音标来描述拼音过程的。汉语也不 例外。汉语拼音的音标包括:声母表、韵母表和声 调符号等。
汉语的声调
汉语是一种声调语言,相同声母和韵母构成
的音节随声调的不同而具有完全不同的意义, 对应着不同的汉字。汉语普通话的声调只有 阴平、阳平、上声、去声以及“轻声”等五 种声调。 声调的变化就是浊音基音周期(或基音频率) 的变化,各个韵母段中基音周期随时间的变 化产生了声调,变化的轨迹称为声调曲线。
汉语音节的一般结构
汉语声母的结构
普通话中的22个声母可分为六大类:
擦音 塞音 塞擦音 边音 鼻音 零声母 除零声母之外,其他所有的声母全部都是单辅音 。
汉语韵母的结构
普通话的38个韵母大致可以分为三类
8个单韵母,如[a]、[i]、[u]等 14个复韵母,如[ai]、[ao]等
激励模型
激励模型一般分成浊音激励和清音激励来讨论。发 浊音时,由于声带不断张开和关闭,将产生间歇的 脉冲波。这个脉冲波的波形类似于斜三角形的脉冲, 它的数学表达式如下:
(1 / 2)[1 cos(n / N 1 )], 0 n N 1 g (n) cos[ (n N 1 ) / 2 N 2 ], N 1 n N 1 N 2 0, 其他
二是要通过处理的某种运算以达到某种用途的要求, 例如人工合成出语音、辨识出讲话者、识别出讲话 的内容等等。
语音中包含的信息
语言(文字) 说话人信息:身份、性别、年龄 方言:认老乡的主要依据 情感(情绪) 语种:国外找“亲人”的主要信息来源 说话方式(快、慢、耳语) 语音品质(口语、朗诵、流畅性、动听度) 健康状况:特别是发音器官病变
2.2 语音和语言
决定元音音色的主要因素是舌头的形状及其在口腔中的位置 (简称舌位)、嘴唇的形状(简称口形)等。 元音的另一个重要声学特性是共振峰(Formant)。共振峰 参数是区别不同元音的重要参数,它一般包括共振峰频率 (Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 一般地说,女声和童声的基频高于男声,但是实验表明:区 分语音是男声还是女声、是成人声音还是儿童声音,更重要 的因素是共振峰频率的高低。
16个鼻韵母如[an]、[uang]等
在这38个韵母中有三个(-i、er、ê)是特殊韵母。
应该注意,元音并不等于韵母。元音、辅音是按音 素的发音特征分类的;而声母、韵母则是按音节结 构分类的。这是两种不同的概念,尽管它们之间有 一定的联系。
声母和韵母的相互作用——音征互载
在普通话里,声母和韵母的音征并不总是在各自的音段之内, 而且又可能跨越两者的边界,即声母里可能会带有韵母的信 息,韵母里也可能带有声母的信息,如辅音音渡。如果把韵 母从元音起始就开始算起的话,那么音渡就是韵母中载带的 辅音音征,对于某些辅音来说,如不送气塞音[b]、[d],元 音里的音渡正是它们之间相互区别的主要音征。 而韵母中的某些音征有声带载带的现象,最典型的就是介音 的实现方式。
声道模型 级联型
这时认为声道是一组串联的二阶谐振器。从共振峰理论来看, 整个声道具有多个谐振频率和多个反谐振频率,所以它可被 模拟为一个零极点的数学模型;但对于一般元音,则用全极 点模型就可以了。 传输函数可分解表示为多个二阶极点的网络的串联:
1 2e BkT cos(2 FkT ) e2 BkT V ( z) Bk T cos(2 FkT ) z 1 e2 BkT z 2 k 1 1 2e
2.2 语音和语言
调音方式等的不同可以把辅音分成如下几类
:塞音、摩擦音、塞擦音、鼻音、边音、颤 音、通音。 根据发辅音时声带有无振动,可以把辅音分 类成浊辅音和清辅音。 根据辅音除阻后是否紧跟着送出一股气来, 可以把辅音分类成送气辅音和不送气辅音。
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.5 语音信号生成的数学模型
理想的模型是线性的和时不变的。 语音信号是非平稳随机过程,其特性是随着时间变 化的,所以模型中的参数应该是随时间而变化的。 但语音信号特性随着时间变化是很缓慢的。所以可 以作出一些合理的假设,将语音信号分为一些相继 的短段进行处理,在这些短段中可以认为语音信号 特性是不随着时间变化的平稳随机过程。这样在这 些短段时间内表示语音信号时,可以采用线性时不 变模型。
汉语音节的一般结构
汉语音节一般由声母、韵母和声调三部分组成。汉语普通话 中有6000多个常用字 每个汉字是一个音节,如将同音字合一处理,则汉语中共有 1332个有调音节,其中可以单念的有1268个。 汉语中一般有五个声调,即阴平、阳平、上声、去声以及轻 声。如果不考虑声调,则汉语中无调音节共有407个。 汉语音节的一般结构,由9个部分组成。其中1~4段属于声 母(辅音),6~9段属于韵母(元音),第5段是二者的过 渡段。一个音节可能只包含里面的某几段,但是第7段(主 要元音段)是每个音节是具有的。
一个二极点的模型。因此,斜三角波形串可视为加权 了单位脉冲串激励上述单个斜三角波模型的结果。
激励模型
单位脉冲串及幅值因子则可表示成下面的z变
换形式:
Av E( z) 1 z 1
所以,整个浊音激励模型可表示为:
Av 1 U ( z ) G( z ) E ( z ) 1 z 1 (1 e cT z 1 ) 2
N1为斜三角波上升部分的时间,N2为其下降 部分的时间。
声门及声门波
喉内窥镜图像
声门波曲线
激励模型
单个斜三角波波形的频谱的图形如图2-18所
示。由图可见,它是一个低通滤波器。它的 变换的全极模型的形式是:
G( z)
1 (1 e
cT
z )
1 2
c是一个常数。显然,上式表示斜三角波形可描述为
重要概念
语音
音节 元音、辅音 清音、浊音 声母、韵母 共振峰、音色 语谱图、声纹
2.1概述 2.2语音和语言 2.3汉语语音学 2.4语音生成系统和语音感知系统 2.5语音信号生成的数学模型 2.6语音信号的特性分析
2.2 语音和语言
语音是人的发声器官发出的 一种声波,它具有一定的音色, 音调,音强和音长。
一种声音区别 声音的长短叫音长, 于另一种声音 声音的高低,它取决 声音的强弱,声波 它取决于发音时间 的基本特征 于声波的频率 的振动幅度决定 的长短
语音
语音(Speech)=声音(Acoustic)+
语言(Language),是二者的组合体 语音是由一连串的音组成语言的声音