1·语音信号处理的三大分支:语音合成(说),语音编码(压缩),语音识别(听),语音增强。
2·语音是怎样生成的:空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。
3·浊音:发音时声带振动的音称为浊音,它能量高,过零率低。
为周期性斜三角脉冲。
清音:声带不振动,能量低过零率高非周期脉冲,可用随机白噪声激励。
4·掩蔽效应:一个声音的听感觉感受受同时存在的另一个声音的影响的现象。
掩蔽效应的应用:它指人耳只对最明显的声音反应敏感,对于不敏感的反应较不敏感,应用此原理人们发明了MP3等压缩的数字音乐格式,只突出记录人耳较为敏感的中频段声音,大大压缩了存储空间。
5·听觉机理:(1)外耳:机械振动,(2)中耳:限幅放大,(3)内耳:耳蜗。
6·语音信号数字模型:1)激励模型、2)声道模型、3)辐射模型。
7·语音生成系统的传递函数:)()z()()(zRVzGzH=8·模型局限性及解决办法:声道的传输函数具有全极点的性质,这对于元音和大多数辅音来说是比较符合实际的,但对于鼻音和阻塞音来说由于出现了零点,这种模型就不够准确了,一种解决办法是在V(z)中引入若干个零点但这样将使模型复杂化,另一种是适当提高阶数P,使得全极点模型能更好的逼近具有此种零点的传输函数。
9·预加重含义:加入一阶高通滤波器。
10·预加重处理目的:目的是为了对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率11·预加重处理技术:一般通过传递函数为:z11H(z)--=α的一阶FIR高通数字滤波器来实现预加重。
12·短时平均能量主要用途:1)可以作为区分浊音和清音的特征参数2)在信噪比较高的情况下短时能量还可以作为区分有声和无声的依据3)可以作为辅助的特征参数用于语音识别中。
13常用的窗有两种:一种是矩形窗,窗函数如下:⎩⎨⎧-≤≤=其他,01,1)(Nnnω可简化为:∑--=--=nNnmnmxmxz)1(|)]1(sgn[)](sgn[|21π另一种是汉明窗,窗函数:⎩⎨⎧≤≤--=其他,0)]1/(2[cos46.054.0NnNnπω14·过零率:单位时间内过零的次数。
浊音:过零率低能量高,清音:过零率高能量高。
15·端点检测目的:从包含语音的一段信号中确定出语音的起点及结束点。
16·自相关函数:时域离散确定信号:∑+∞-∞=+=mkmxMx)()()R(k时域离散随机信号:∑-=++=NNmkmxmxN)()(121)R(k自相关函数性质:1)对称性:R(K)=R(-K)2)在K=0处为最大值,即对于所有K来说)0(|)(|RKR≤3)对于确定信号,R(0)对应于能量对于随机信号R(0)对应于平均功率。
17·浊音和清音的短时自相关函数有以下特点:1)短时自相关函数可以很明显的反映出浊音信号的周期性2)清音的短时自相关函数没有周期性,也不具有明显突出的峰值,其性质类似于噪声。
3)不同的窗对短时自相关函数结果有一定影响。
18·短时自相关函数(求峰值)两个峰值之间的距离为周期。
短时平均幅度差函数(求谷值)两个谷值之间的距离为周期。
19·采用双限门比较的两极判决法:第一级判决:1)先根据语音短时能量的轮廓选取一个较高的门限T1进行一次粗判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外。
2)根据背景噪声的平均能量确定一个较低的门限T2,并从A点往左、从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是双门限方法根据短时能量所判定的语音段。
第二级判决:以短时平均过零率为标准,从C点往左和D点往右搜索,找到短时平均过零率低于某个门限T3的两点E和F,这便是语音段的起止点。
门限T3是由背景噪声的平均过零率所确定的。
20·当n固定时,它们就是序列))(mx(m-nω的傅里叶变换或离散傅里叶变换。
当ω或K固定时,它们就是一个卷积,相当于滤波器的运算。
21·基音周期估值的两种方法:第一种方法:先对语音信号进行低通滤波,在进行自相关计算。
第二种方法,先对语音信号进行中心削波处理,在进行自相关计算。
判别基音周期的方法:1·短时自相关函数法。
2·短时平均幅度差函数。
22·线性预测编码就是利用过去的样值对新样值进行预测,然后将样值的实际值与预测值相减,得到一个误差信号,显然误差信号的动态范围远小于原始语音信号的动态范围,对误差信号的进行量化编码,可大大减少量化所需的比特数,使编码速率降低。
1))()(^s p1i n s n i i a -=∑=P 阶线性预测器传递函数za ipi i z -=∑=1)P (2)Z 域:)()()Gu 1i n s n s n Fi i a --=∑=(线性预测分析条件:⎩⎨⎧==)()(i n e n Gu a iα 系统表达式: Gu(n)*h(n)=s(n) 3)线性预测误差e(n) e(n)=s(n)-s^(n)⎪⎪⎩⎪⎪⎨⎧-==-=∑∑=-=-pi ii p i i i z a z a z s z E z A z s z s n E 111)()()()()()(线性预测方程:0)(-R(k p1=-∑=i k R i i a )23·模型增益G,增益常数G^2=Ep. 24·量化分为标量量化和矢量量化。
标量量化:把抽样后的信号值逐个进行量化。
矢量量化:先把信号序列的每K 个连续样点分成一组,形成k 维欧氏空间中的一个矢量,然后对此矢量进行量化。
25·矢量量化能降低信码率,传输的是角标。
码书:最小失真值所对应的量化矢量Yi,把所有N 个量化矢量构成集合{Yi},. 码字:码书中的矢量称为码字。
26·失真测度:是以什么方法来反映用码字Yi 代替信源矢量X 时所付出的代价,统计平均值:D=E[d(x,Q(x))]27·最佳矢量量化器:在给定条件下,失真最小的矢量量化器,称为这个条件下的最佳矢量量化器。
(2)设计最佳矢量量化器的两个必要条件:1)在给定码书的条件下,寻找信源空间的最佳划分,使平均失真最小。
2)在给定划分的条件下,寻找最佳码书,使平均失真最小。
28·LBG 算法:设置矢量量化器的主任务:设计码书Yn,对于给定码字数目N 的情况下,由两个必要条件可推导出一个矢量量化器的设计算法。
1)算法一:已知信源分布特性设计算法, 2)算法二:已知训练序列的设计算法。
29·初始码书的选取方法:1)随机法:从训练序列中随机选取N 个矢量作为初始码字,构成初始码书Yn={Y1,Y2...Yn].2)分裂法:计算所训练序列 Ts 形心,将之作为第一个码字Y1. 30·降低复杂度的矢量量化系统是树形搜索。
31.设计树形结构方法:1)1)从树叶开始设计:根据码字距离最近配对,并找出码字对中心,(Y000.Y001)--Y00...........(Y00.Y01)---Y0..............且树叶数N=8,2)从树根开始设计:利用分裂法得Y0与Y1,逐次求得Y00 (11)32.在存储量上,二叉树多于全搜索,2)树形搜索矢量量化器的特点:以适当提高空间复杂度来降低时间复杂度。
33.语音编码分类:1)波形编码:重建后波形与原始波形保持一致。
特点:语音质量好,适应能力强,算法简单,易于实现,抗噪声性能强,缺点:所需的编码速率高,一般在16~64kbit/s 。
2)参数编码:以语音信号产生数字模型为基础,对数字语音进行分析,提出一组特征参数,这些参数携带有语音信号主要信息编码,它们只需较少的比特数,在解码后可由这些参数,重新合成语音信号。
特点:可实现低速率语音编码,其编码速率可低至2.4bit/s 以下。
缺点:语音质量差,自然度较低。
3)混合编码:在保留参数编码技术上,引用波形编码准则去优化激励源信号,克服原有波形和参数编码的弱点,汲取所长。
34·语音信号存在大量冗余:样点值之间相关性。
35·信源:PCM 有效性 信道:奇偶性 可靠性36·语音编码设计指标:1)编码速率2)质量:主观MOS 与客观SNR.3)延时 4)复杂度37.语音信号常用方法:分段信噪比。
38.均匀量化PCM 的信噪比:SNR(dB)=6.02--7.2B 。
信噪比与信号方差无关,它仅取决于量化间隔。
39.自适应量化PCM自适应方案分为前馈自适应和反馈自适应。
调整幅度分为量化间隔可变和量化台阶可变。
自适应量化是指量化器特征自适应于输入信号幅度变化。
40.自适应预测编码:如果对残差序列e(n)做量化和编码,在同样信号量化噪声比条件下,所需的量化比特数就可以减少,从而达到压缩编码的目的,给予这一原理方法称为预测编码,当预测系数是适应的随语音信号变化时,又称自适应预测编码41.斜率过载:在译码器中,所恢复的阶梯波的上升或下降有可能跟不上信号的变化,因而产生滞后,这就造成失真。
称为斜率过载2)如何克服斜率过载失真,只要增加量化电平。
42.颗粒噪声:在译码器中所得到的将是峰--峰值等于2的等幅脉冲序列,这便形成一种噪声,称为颗粒噪声。
43.短时傅里叶变换:∑+∞-∞=--=m jwn jwee m n w m x Xn )()()(长时傅里叶变换:∑+∞-∞=-→=m jwnjwm f m x x ee )()()(44自定义预测如何提高信噪比,量化噪比定义:)]([)]([22n E n E SNR q s ==Gp ·SNRq。