语音信号处理(第2版)赵力编著
重点考点
第2章语音信号处理的基础知识
1.语音(Speech)是声音(Acoustic)和语言(Language)的组合体。
可以这样定义语音:语音是由一连串的音组成语言的声音。
2.人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。
3.语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。
其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。
音调是指声音的高低,它取决于声波的频率。
声音的强弱叫音强,它由声波的振动幅度决定。
声音的长短叫音长,它取决于发音时间的长短。
4.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。
一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。
音素是语音发音的最小单位。
任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。
5.元音的另一个重要声学特性是共振峰(Formant)。
共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。
6.区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。
7.浊音的声带振动基本频率称基音周期(或基音频率),F0表示。
8.人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。
9.掩蔽效应分为同时掩蔽和短时掩蔽。
10.激励模型:一般分成浊音激励和清音激励。
浊音激励波是一个以基音周期为周期的斜三角脉冲串。
11.声道模型:一是把声道视为由多个等长的不同截面积的管子串联而成的系统。
按此观点推导出的叫“声管模型”。
另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。
12.完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。
13.语谱图:人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形。
第三章语音信号分析
1.贯穿于语音分析全过程的是“短时分析技术”。
2.语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。
3.预滤波的目的有两个:
抑制输入信号各频域分量中频率超出fs/2的所有分量(fs )为采样频率,以防止混叠干扰。
抑制50Hz 的电源工频干扰。
4.预加重的目的:是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。
5.窗口的长度
采样周期Ts=1/fs ,窗口长度N 和频率分辨率Δf 之间存在下列关系: Δf=1/NTs
6.有时窗口长度的选择,更重要的是要考虑语音信号的基音周期。
7.语音信号的时域分析就是分析和提取语音信号的时域参数。
8.短时能量及短时平均幅度分析:P38
9.短时过零率分析:P39 图3-4分析
10.短时平均幅度差函数:P43 AMOF 函数特点;
11.P46 语音的短谱图的临界带特征矢量 概念
12.同态信号处理就是将非线性问题转化为线性问题的处理方法。
13.大体分为乘积同态处理和卷积同态处理两种。
14.复倒谱和倒谱:
虽然D*[ ]与D*-1[ ]系统中的x^(n)和y^(n)信号也均是时域序列,但它们所处的离散时域显然不同于x(n)和y(n)所处的离散时域,所以我们把它称之为“复倒频谱域”。
x^(n)是x(n)的“复倒频谱”,简称为“复倒谱”,有时也称作对数复倒谱。
显然c(n)是序列x(n)对数幅度谱的傅里叶逆变换。
c(n)称为“倒频谱”或简称为“倒谱”,有时也称“对数倒频谱”。
15.与普通实际频率倒谱分析不同,MFCC (Mel-Frequency Cepstral Coefficents ,简称MFCC )的分析着眼于人耳的听觉特性,因为,人耳所听到的声音的高低与声音的频率并不成线性正比关系,而用Mel 频率尺度则更符合人耳的听觉特性。
所谓Mel 频率尺度,它的值大体上对应于实际频率的对数分布关系。
Mel 频率与实际频率的具体关系可用式(3-89)表示:
这里,实际频率的单位是Hz 。
16.基音周期估计方法:自相关函数(ACF)法、峰值提取算法(PPA)、平均度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法P70 原理
17.声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣器的作用。
当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。
共振峰参数包括共振峰频率和频带宽度,它是区别不同韵母的重要参数。
共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。
提取共振峰特性最简便的手段是使用语谱仪。
18.P85 1、3/4/11/13
第四章 语音信号的矢量量化
1.所有M 个量化矢量构成的集合 称为码书或码本;把码书中的每个量化矢量)700/1lg(2595)(f f Mel +=}
{i Y
Yi(i=1,2….M)称为码字或码矢。
2.失真测度(距离测度):是将输入矢量Xi用码本重构矢量Yi来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量间的相似程度。
3.P84 矢量化基本原理
第七章语音编码
1.信源编码、信道编码
信源编码:主要解决有效性问题;通过对信源的压缩、扰乱、加密等一系列处理,力求用最少的数码率传递最大的信息量,使信号更适宜传输和储存。
信道编码:主要解决可靠性问题;尽量使处理过程过的信号在传输的过程中不出错或少出错,即使出了错也要能自动检错和纠错。
2.语音编码分类;
第8章语音合成
1.由人工制作出语音称为语音合成(Speech Synthesis)。
P175
2.语音合成法:P176
从技术方式讲可分为波形合成法、参数合成法和规则合成方法;从合成策略上讲
可分为频谱逼近和波形逼近。
波形合成法一般有两种形式,一种是波形编码合成,它类似于语音编码中的波形编解码方法,该方法直接把要合成的语音的发音波形进行存储或者进行波形编码压缩后存储,合成重放时再解码组合输出。
参数合成法也称为分析合成法,是一种比较复杂的方法。
为了节约存储容量,必须先对语音信号进行分析,提取出语音的参数,以压缩存储量,然后由人工控制这些参数的合成。
规则合成法是一种高级的合成方法。
规则合成方法通过语音学规则产生语音。
合成的词汇表不是事先确定,系统中存储的是最小的语音单位的声学参数,以及由音素组成音节、由音节组成词、由词组成句子和控制音调、轻重音等韵律的各种规则。
3.语音合成研究的目的:是制造一种会说话的机器,使一些以其他方式表示或存储的信息能转换为语音,让人们能通过听觉而方便地获得这些信息。
第9章语音识别
1.语音识别(Speech Recognition)主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。
2.语音识别方法一般有模板匹配法、随机模型法和概率语法分析法三种。
3.为什么要进行实践规整:在进行模板匹配时,这些时间长度的变化会影响测度的估计,从而使识别率降低。
动态时间伸缩算法(DTW)
第14章语音增强
1.目前国内外的研究成果从增强思想上主要分为以下三类:P285
1)采用语音增强算法,提高语音识别系统前端预处理的抗噪声能力,提高输入信号的信噪比。
2)第二类方法是寻找稳健的耐噪声的语音特征参数。
3)第三类方法是基于模型参数适应化的噪声补偿算法。
2.减谱法语音增强技术原理:
减谱法是处理宽带噪声较为传统和有效的方法,其基本思想是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为纯净的语音功率谱。
3.噪声分类:
按类别:可分为环境噪声等的加性噪声和残响及电器线路干扰等的乘法性噪声
按性质:平稳噪声和非平稳噪声
4.LomBard现象:在噪声环境下,说话者情绪会发生变化,从而引起声带的变化(对语音处理系统的影响相对较小)。