当前位置:文档之家› 语音信号处理PPT_第二章 语音信号处理基础知识

语音信号处理PPT_第二章 语音信号处理基础知识

• • •
把从肺部呼出的直流气流变为音源,即变为交流的断续 流或乱流; 喉对音源起共振和反共振的作用,使它带有音色; 从嘴唇或鼻孔去空间辐射的作用;
肺把气流送入喉;喉将来自肺的气流调制为周期性脉冲或类 似随机噪声的激励声源,并送入声道;声道对频谱进行润色 后在嘴唇处的气压变化形成可以传播的声波。 肺相当于动力源,喉相当于调制器,声道相当于滤波器和扩 音器。
3.
韵母
38个韵母:8个单韵母,14个复韵母,16个鼻韵母。 单韵母是由单元音构成的,如:a、o、e、i、u、u。 复韵母是由复合元音构成的韵母,如:ai、ei、ao、ou等。 鼻韵母是由鼻辅音“n”或“ng”收尾的韵母,如:an、en、 uan、ang、eng、iang等。 韵母发音时声带是振动的,音强也较大,波形上可以看到大 的振幅,而且呈现周期性。 注意:元音不等同于韵母,元音、辅音是按音素的发音特征 来分的;而声母、韵母则是按音节结构来分的。

2.5.2 语音信号的语谱图
声纹:语谱图上其不同的黑白程度, 形成的不同的纹路。不同的人有不同的 声纹,利用声纹进行说话人识别。 横杆:与时间轴平行的几条深黑色 条纹,对应共振峰。语谱图中有无横杆 是判断是否是浊音的标志。 竖直条:与时间轴垂直的窄黑条, 每个竖直条相当于一个基音,条纹间隔 表示基音周期。 元音在语谱图上对应横杆(共振峰的存在) 噪声和清擦音表现为乱纹。
2.1 语音和语言 一、语音的定义
语音是由一连串的音组成语言的声音。
语言
语音
声音
对语言的研究分为两方面: 语言学:各个音的排列规则及其含义的研究。 语音学:各个音的物理特性和分类的研究。考虑的是语 音的产生、感知等过程。三个主要的分支:发音语音学、 声学语音学、听觉语音学。
二、人的说话过程
(2)说出阶段:由 (4)接收阶段:听话 (3)传送阶段:说出 (5)理解阶段:大脑 (1)想说阶段:大 上阶段中枢的决 听觉神经中枢收到 者从外耳收集到的 来的话语是一连串 脑产生说话的动 脉冲信息后,辨认 策,以脉冲形式 声波信息,经过中 的声波,凭借空气 机,接着讲话神 出说话的人及其所 向发音器官发出 耳的放大作用,到 为媒介传到听话者 经中枢选择恰当 说的信息,从而听 指令,使它们各 达内耳,经内耳基 耳中。 的单词、短语按 懂讲话者的话。 自相关的肌肉协 底内膜振动转化为 语法规则组合成 调地动作发出声 耳蜗内的毛细胞的 语言。 音来。有关器官 电位变化,由听觉 产生各种动作配 神经传给大脑。 合言语的效果。 同时说话者的听 觉系统相当于一 个“反馈系统”, 来帮忙修改语音。
2.4.2 声道模型
1、级联型
认为声道是一组串联的二阶谐振器。从共振峰理论来看,整个声道具有 多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学 模型; 对于一般元音,则用全极点模型,传输函数:
可分解表示为多个二阶极点的网络的串联:
某一级幅频特性和信号流图
共振峰频 率
2、并联型

对于非一般元音以及大部分辅音,必须考虑采用零极点模型。此时, 模型的传输函数如下:
一、 语音生产系统
发音器官-声道
• •
声道包括口腔、鼻腔和咽腔。 通过对舌、软腭等发声器官 位置的控制,可以有效的改 变声道的形状,形成不同的 谐振特征,从而达到不同发 音的目的。
二、 语音感知系统
人耳是最巧妙的音频信号处理器
外耳 耳翼、外耳道、鼓膜:声音放大和声源定位作用 • 中耳 鼓膜:将声波转换为振动 锤骨、砧骨、镫骨:振动传递与放大 • 内耳 耳蜗:将振动转换为神经信号
2.5.2 语音信号的语谱图
语音的时域分析和频域分析是语音分析的两种重要方法。 显然这两种单独分析的方法均有局限性:时域分析对语音 信号的频率特性没有直观的了解;而频域分析出的特征中 又没有语音信号随时间的变化关系。把时域分析和频域分 析相结合 语谱图。 语谱图 表示语音频谱随时间的变化。横轴为时间,纵轴为频率, 任一给定频率在给定时刻的强弱用相应点得灰度浓淡来表示 (浓则表示对应点频率高)。
一、 语音生成系统
发声器官-喉
喉是一个由软骨、肌肉和韧带构成的复杂系统,喉在发声中的作用主要 是控制声带。通过声带的分开、靠扰发出不同的声音。
一、 语音生成系统
声带有三种状态:呼吸、发浊音、发清音。 • 呼吸:声带的肌肉放松,保持着较宽的声门,来自肺部的 空气可以畅通无阻的通过声门。(声带不振动) • 发浊音:声带紧绷并且互相靠近,狭窄的声门和紧绷的声 带会引起声带的自激振动,形成周期脉冲。(声带振动) • 发清音:发清音和呼吸时声带类似,只是比在呼吸状态下 更加的靠近和紧绷。(声带不振动) 声带的开启和闭合一次的时间就是声带的振动周期也就是基 音周期。
混合型共振峰模型
2.4.3 辐射模型

2.4.4 语音信号的数学模型

2.5.1 语音信号的时域波形和频谱特性
一、时域波形
时间域中,语音信号可以直接用它的时间波形表示出来,横轴是时间, 纵轴为波形的振幅。以下是汉语拼音“sou ke”的时间波形。
2.5 语音信号的特性分析
从图中我们可以发现清辅音[s],[k]和元音[ou],[e]在波形上差别很大。 元音:具有明显的周期性且振幅大,周期对应的是声带振动的频率 辅音:没有明显的周期性,振幅小

二、 语音感知系统
听觉系统特性:时频分析特性,人耳听觉遮掩效应 • 时频分析特性:听觉器官将时域的声音波形转换成在频域的频谱,
从而分辨出不同的声音。

人耳听觉遮掩效应:在一个强信号附近,弱信号将变得不可闻;
掩蔽阈:被掩蔽掉的不可闻信号的最大声压级.
2.4 语音信号生成的数学模型

建立数学模型:
Z变换全极点模型:
低通滤 波器
2.4.1 激励模型

冲激串发 生器 U[n]
2.4.1 激励模型
发清音时,声道被阻塞形成湍流,所以可以把清音激励模拟 为随机白噪声,均值0,方差1。
说明:激励简单地分为清音和浊音是不全面的。但将两种源 经过适当的网络之后,可以得到良好的激励信号。
2.4.2 声道模型
2.3 语音生成系统和感知系统 一、 语音生成系统
人的发音器官包括: 肺、气管、喉(包括声带)、 咽、鼻和口,形成一条形状 复杂的管道 可以把发音器官分为三部分: 肺 喉:有许多软骨组成(声带开闭 的时间就是基音周期) 声道:鼻腔、口腔、咽腔
一、 语音生成系统
语音的形成过程—空气由肺部排入喉部,经过声带进入声道, 最后由嘴辐射出声波,形成语音。 各器官对语音的作用可以分为三步:
3.
音素的分类
(1)国际标准分类 清音:发清音时声带不振动。浊音:发浊音时声带振动。 (2)我国传统分类 元音:是当声带振动发出的声音气流在声道中不受阻碍,这 种情况下产生的语音称为元音。 辅音:从声门呼出的声音气流,在声道通路中某一部分封闭 起来或受到阻碍不能畅通,为克服发音器官的这种阻碍而产 生的语音称为辅音。

通常,N>R,且设分子与分母无公因子及分母无重根,则上式可分解 为如下部分分式之和的形式:
并联型的共振峰模型
3、混合型


上述两种模型中,级联型比较简单,可以用于描述一般元音。当鼻化 元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不 能胜任了。这时腔体具有反谐振特性,必须考虑加入零点,使之成为 零极点模型。采用并联结构的目的就在于此,它比级联型复杂些,每 个谐振器的幅度都要独立地给以控制。但对于鼻音、塞音、擦音以及 塞擦音等都可以适用。 因此,将级联模型和并联模型结合起来的混合模型也许是比较完备的 一种共振峰模型。
三、语音的声学特性
可以根据共振峰频率的高低区分男女声
2.2 汉语语音学

2.2 汉语语音学
2.
声母
21个声母:b p m f d t n l g k h j q x zh ch sh r z c s 。
(y w呢?汉语拼音字母y和w是隔音字母。它们只起避免音节界限发生混淆的作用。例如 把“大衣”(dayi)拼写成“dai”,就会以为是一个音节“带”,i的前面加上了y,音节 界限就分明了。w也是同样的道理。 )
三、语音的声学特性
2.
语音的组成 语音 音节
音素
语音发音的 最小单位
说话时一次发出的, 具有响亮的中心, 并且被明显的感受 到的语音片段
音节: • 由元音(Vowel)和辅音(Consonant)组成 • 汉语普通话中音节具有固定的C-V结构 • 其他语系中存在V-C或C-V-C等结构
三、语音的声学特性
三、语音的声学特性

三、语音的声学特性
F1(Hz)
F2(Hz)
汉语单元音舌位梯形图
( 1) F 1 与 舌 位高 低 有 关,舌位越高F1越 低;由于舌位越低嘴 张 得越大 ,也称 舌位 高低为开口度。 (2)F2与舌位前后密切 相关,舌位越靠前F2 就越高。 (3)F1、F2和嘴唇的 圆展程度有关,嘴唇 越圆,F1、F2越低。 ( 4) F 3 与 舌 位关 系 不 密切,但受舌尖活动 影响;舌尖抬高卷起 时F3就明显下降。
2.2 汉语语音学
4.
声调
汉语是一种声调语言,相同的声母和韵母构成的音节随声调 的不同具有不同的意义。(汉语的还有一个特点就是同音异 义词的大量存在) 汉语普通话中有5种声调: 阴平、阳平、上声、去声、轻声; 声调的变化就是基音频率F0的变化, 各个韵母段中基音周期随时间变化 产生了声调,变化的规律为声调曲线
第二章 语音信号处理基础知识


概述 语音和语言 汉语语言特点 语音生成系统和感知系统 语音信号生成的数学模型 语音信号特性分析
概述
语音信号处理是研究用数字信号处理技术对语音信 号进行处理的一门学科。其目的是要得到一些反应语音 信号重要特征的语音参数,或者通过处理某种运算以达 到某种用途的要求。 例如: 高效地传输和存储语音信号 人工合成语音 说话人识别和语种识别
相关主题