《通信中的语音信号处理》复习大纲
北科大版
1、 了解语音信号处理的目的、实质和发展历史;
实质:是研究用数字信号处理技术对语音信号进行处理的一门学科
目的:通过处理得到一些反映语音信号重要特征的语音参数以便高效地传输或储存语音信号所包含的信息。
通过对语音信号进行某种运算以达到某种要求。
发展历史:1876年电话的发明,贝尔(Bell);
1939年声码器的研制成功—声源+声道;
1947年贝尔实验室发明语谱图仪—语音识别研究的开始;
50年代第一台口授打字机和英语单词语音识别器;
60年代出现了第一台以数字计算机为基础的孤立词语音识别器和有限连续语音识别器;
70年代动态规划技术、隐马尔可夫模型、线性预测技术和矢量量化码书生成方法用于语音编码和识别;
80、90年代语音处理技术产品化—IBM Tangora-5和Tangora-20英语听写机,Dragon Dictate 词汇翻译系统(70000),汉语听写机。CMU语音组研制成功SPHINX系统(997,95.8%);
国内,清华大学、中科院声学所和中科院自动化所在汉语听写机研究方面有一定成果。
(除了属于这种LPC[线性预测分析法]的方法外,还开发了各种数字语音处理方法。到目前为止,相继实现了语音编码、语音分析、语音合成、语音修正、语音识别、说话者识别等各种具体应用系统。)
2、 理解和掌握语音信号的表示和处理方法,常用的语音编码的采样率和相应的数字语音信号的速率;
1.语音表示方法的选择:要保存语音信号中的消息内容;表示形式要便于传输和存储、变换和处理,不至于严重损害消息的内容,有用信息更易于被提取;
2. 语音信号数字表示的优点:
数字技术能完成许多很复杂的信号处理工作;
语音可以看成是音素的组合,具有离散的性质,特别适合于数字处理;
数字系统具有高可靠性、价廉、紧凑、快速等特点,很容易完成实时处理任务;
数字语音适于在强干扰信道中传输,易于和数据一起在通信网中传输,也易于进行加密传输。
3. 语音信号的数字表示方法:波形表示—采样和量化,保持波形;参数表示—激励源和模型参数(第二章)
语音信号的特点—短时平稳性
4. 处理方法:短时时域处理方法—短时能量、短时平均过零率以及短时自相关函数计算
短时频域分析—短时傅立叶分析
线性预测技术—本质上属于时域分析方法,但其结果可以是频域参数
倒谱和同态分析、矢量量化和隐马尔可夫模型
5. PCM编码:采样率:8000次/second,均匀量化:采样率12bps信号速率96kbps,非均匀量化:采样率8bps信号速率64kbps
ADPCM:采样率:8khz速率:32kbps
3、 理解语音信号的产生过程、发生机理和语音信号的声学特性;
产生过程:语音是说话人和听者之间相互传递的信号,传递的媒介是声波,说话人的发音器官做出发声动作,接着空气振动形成声波,声波传到听者的耳朵里,立刻引起听者的听觉反应
发生机理:
声学特性:频率:与音高有关;振幅:与响度有关。
4、 理解和掌握语音信号浊音的基音频率、共振峰,及共振峰的计算方法;
浊音的基音频率(F0):由声带的尺寸、特性和声带所受张力决定,其值等于声带张开和闭合一次的时间的倒数。人类基音频率的范围在60Hz至450Hz左右。
共振峰(formant):声道是一个谐振腔,当激励的频率达到至声道的固有频率,则声道会以最大的振幅振荡,此时的频率称之为共振峰或共振峰频率。声道具有的一组共振峰,声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道某一瞬间的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。实际应用中,头三个共振峰最重要。 理想状态下共振峰的计算:假设声道截面是均匀的(此时可把声道看作一个粗细均匀的圆筒),从喉到唇的距
离L=17 cm,音速c=340 m/s,则共振峰将发生在:
5、 理解语音信号的时域、频域以及语谱图的表示方法;
时域波形:时间、振幅。频域波形-频谱:频率、分贝。
语谱图:用横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量
在频域上,能量集中处就是共振峰(formant)之所在,在语谱图上就是颜色较深的位置。语谱图能提供有关不同时间不同频率的相对音强的有价值的信息,如共振峰频率和基音周期。
在发元音时,音强较大,声带振动而呈现出基频及其谐振频率,也可以明显看到共振峰,能量集中在低频。
如果是发辅音,而且声带不振动,就看不到谐振频率。通常辅音的音强小,颜色看来就比较淡,而且能量较集中在高频。
若是在没有语音的空档,则语谱图上呈现的,就是有一段空白。
6、 (建立一个离散时域的语音信号产生的数字模型)理解和掌握语音信号的线性产生模型:激励模型、声道模型和辐射模型(由于人类语音的频率范围主要集中在300Hz~3400Hz,数字模型中的信号取样率一般为8KHz。)
由此模型框图,我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部
分:(1)激励模型2)声道模型3)辐射模型
浊音激励模型U(z):发浊音时声带绷紧,声带不断张开和关闭产生的脉冲波,类似于斜三角波
清音激励模型:声带不发生振动,气流通过声门直接进入声道,气流被阻碍形成湍流,相当于随机白噪声(此处用均值为0,方差为1并在幅值上为平稳分布的序列)
声道模型V(z):两种建模方法:
(a)声管模型:
(b)共振峰模型:共振峰模型将声道视为一个谐振腔,按此原则导出。
基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型:
(a)级联型(适用于一般单元音,认为声道是一组串联的二阶谐振器,谐振中心频率值等于共振峰,若把语音的各个共振峰所对应的二阶系统级联起来就形成了一个完整的级联型声道模型,且具有明显的谐振特性。)
(b)并联型(适用于鼻音、复合元音及大部分辅音,发这些音时发音腔体具有反谐振特性,必须在模型中加入零点以减弱谐振强度,故要考虑用零、极点模型)
级联或并联的级数取决于声道的长度,一般成人取3到5级。
(c)混合型
辐射模型R(z):在发音腔道内形成的气流经由嘴唇端辐射出来,到达听者耳朵的这段过程,声音信号会衰减,而且有高通滤波的特性。常用一个一阶的数字高通滤波器模拟这个现象
7、 理解语音信号的短时特性的理解,以及语音信号平稳性的理解;
语音信号从整体上来看表征其本质特征的参数都是随时间变化的,这一点可以从语音信号的时域幅度波形上看出,故语音信号是一个非平稳随机过程,不能用处理平稳随机信号的技术对其进行分析处理。
由于语音信号是由人的口腔内一系列肌肉运动构成的发声模型产生的,而口腔肌肉的这种运动相对于语音频率来说是非常缓慢的,故在一个短时间范围内(一般认为10~30ms),其特性基本保持不变,可以将其看作“准稳态随机过程”,这就是语音信号的“短时平稳性”。
任何语音信号的分析处理都必须建立在短时平稳的基础上,即进行“短时分析”:将语音信号分为一段一段来分析其特征参数。其中每一段称为一帧(frame),帧长一般取10~30ms。这样对于语音信号的整体而言,分析出的就是每一帧参数组成的特征参数HzLccFHzLccFHzLccF前三个共振峰:n为第n个共振峰的波长LcncFnnn250045,150043500101743404计算,2,1)(4)12(3322211处的大小在一帧信号的傅立叶变换点为中心的表示在时域以的窗函数+是长度为=其中,nnXnweknwkxnXnXNnPkkjx),(12N][][][),(|),(|121),(2)()()()(zRzVzUzH1()(1),1,1Rzrzrr时间序列。
8、 掌握语音信号的采样和量化过程,如何计算量化器中每个比特字长对信噪比的贡献,以及通过动态范围计算量化字长;
采样:一个数字信号取样之后,变成离散时间信号,接下来就是要用数字方式来表示这个离散时间信号上的每个取样值。
量化:一个电位波形会有固定的电压范围,一个取样值可以是在此电压范围内的任何电位。如果只能用固定数目的位来表示这些取样值,那么这些二进数字就只能代表固定的几个电位值,这个转换就是量化(quantization),而转换之后只允许存在的几个电位值就是量化阶数(quantization level)。执行量化转换的硬件电路,就是量化器(quantizer)。
均匀量化的缺点:对于小信号,其信噪比太低
量化器中每个比特字长对信噪比的贡献大约为6dB。当量化字长为7bit时,信噪比为35dB,此时量化后的语音质量能满足一般通信系统的要求。如需要更大的动态范围,例如55dB,则语音信号的量化字长为10bit以上
9、 理解短时加窗中的矩形窗和汉明窗;
用一个固定长度的窗口(window)套上去,只看窗口内的信号,对这些信号做计算,用以求出在这窗口内的语音特征(speech
features)。这样的处理方式,就叫加窗(windowing),而套上去的这一段语音即称为语音帧(frame)。
通常窗口的长度是取10~40 毫秒(ms),窗口的移动距离,大约会取5~20 ms,让前后的语音帧有部分重叠,这样能观察到语音特征改变的延续性以保证分析的准确性。
矩形窗:
汉明窗:
汉明窗的第一个零值频率位置比矩形窗大一倍左右,即,汉明窗的带 宽大约是同样宽度矩形窗带宽的两倍。同时,在通带外,汉明窗的衰
减较相应的矩形窗大得多。
10、 理解短时能量分析、短时平均过零率和短时相关的定义;
信号{x(n)}的短时能量定义:
En表示在信号的第n个点开始加窗函数时的短时能量,可以看作语音信号的平方经过一个线性滤波器。作用:反映出语音的能量或语音振幅随时间缓慢变化的规律。(浊音段能量比清音段大的多)
1) 区分清音段和浊音段—浊音能量高。2)对声母和韵母分界3)区分无声和有声的分界(信噪比较高的信号)。4) 区分连字的边界5)用于语音识别
En的缺点:对高电平过于敏感,给加窗宽度的选择带来了困难。扩大了振幅不相等的任何两个相邻取样值(此处
的取样值是指某语帧的短时平均能量值)之间的幅度差别,必须用较宽的窗函数才能平滑能量幅度的起伏。为了使En能准确反映语音能量的时变规律:-数据窗w(n)或滤波器h(n)函数形式和宽度的选择相当重要
过零:信号波形穿越时间轴或零值线;对于离散时间信号而言就是相邻的取样值符号改变。平均过零率:单位时间(或单位样本)内过零的次数。
计算一个语音帧内单位时间(或单位样本)越过零线的平均次数,可以得出其短时平均过零率(zero crossingrate)或短时平均过零数。声带振动时,是在发浊音,所以过零率低,声带不振动时,是在发清音,所以过零率就高,没有声音时若有噪音存在,也会有较高的过零率。(浊音、清音过零率的高低不是绝对的,分布有交叉的情况,多种工具同时用)
实际应用——区分清、浊音在背景噪声较大的情况下,从噪声信号中找出语音信号,判断出语音的起点和终点。(语音的端点检测)
相关函数可用于测定两个信号在时域内的相似
性。
自相关函数:用于研究信号本身。例如,信号波形的同步性、周期性等。
互相关函数:用于研究不同信号之间的差异。例如,两个信号完全不同,则互相关函数
接近于零。
语音信号处理的相关分析:短时自相关函数应用:分析语音信号的同步性和周期性。