当前位置:文档之家› 语音信号处理复习题

语音信号处理复习题

1 研究语音信号处理的目的是什么?人类的通信有哪三种方式,从而说明语音信号处理有哪三个学科分支?它的目的一是要通过处理得到一些反映语音信号重要特征的语音参数以便高效的传输或储存语音信号信息;二是要通过处理的某种运算以达到某种用途的要求。

1.什么叫做语言学?什么叫做语音学?言语过程可分为哪五个阶段?语音中各个音的排列由一些规则所控制,对这些规则及其含义的研究学问称为语言学;另一个是对语音中各个音的物理特征和分类的研究称为语音学。

人的说话过程如图2-1所示,可以分为五个阶段:(1)想说阶段:(2)说出阶段:(3)传送阶段:(4)接收阶段:(5)理解阶段:3、有哪几种描述声道特性的数学模型?请说明声管模型流图是如何得出的?有几种共振峰模型?各有什么特点和适用情况?声道的数学模型有两种观点:1)声管模型将声道看为由多个不同截面积的管子串联而成的系统。

在“短时”期间,声道可表示为形状稳定的管道。

另一种观点是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。

共振峰模型,把声道视为一个谐振腔。

共振峰就是这个腔体的谐振频率。

由于人耳听觉的柯替氏器官的纤毛细胞就是按频率感受而排列其位置的,所以这种共振峰的声道模型方法是非常有效的。

一般来说,一个元音用前三个共振峰来表示就足够了;而对于较复杂的辅音或鼻音,大概要用到前五个以上的共振峰才行。

基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。

(1)级联型声道模型这时认为声道是一组串联的二阶谐振器。

从共振峰理论来看,整个声道具有多个谐振频率和多个反谐振频率,所以它可被模拟为一个零极点的数学模型;但对于一般元音,则用全极点模型就可以了。

它的传输函数可分解表示为多个二阶极点的网络的串联:N=10,M=5时的声道模型如下图所示:(2)并联型声道模型对于非一般元音以及大部分辅音,必须考虑采用零极点模型。

此时,模型的传输函数如下:通常,N>R ,且设分子与分母无公因子及分母无重根,则上式可分解为如下部分分式之和的形式:这就是并联型的共振峰模型。

如图2-21所示(M=5)。

(3)混合型声道模型上述两种模型中,级联型比较简单,可以用于描述一般元音。

当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况时,级联模型就不能胜任了。

这时腔体具有反谐振特性,必须考虑加入零点,使之成为零极点模型。

采用并联结构的目的就在于此,它比级联型复杂些,每个谐振器的幅度都要独立地给以控制。

但对于鼻音、塞音、擦音以及塞擦音等都可以适用。

正因为如此,将级联模型和并联模型结合起来的混合模型也许是比较完备的一种共振峰模型。

2212112cos(2)()12cos(2)k k k k B T B TMk B TB T k k e F T e V z eF T z e z ππ------=-+=-+∏∑∑=-=--=N k kk Rr rrz a z bz V 11)(∑=----=Mi i i i z C z B A z V 1211)(4、 请写出完整的语音信号数学模型的表示式。

什么叫做预加重处理?为什么要进行这些处理?完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。

如图所示:它的传输函数)(z H 可表示为:)()()()(z R z V z U A z H ⋅=由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz 以上按6dB/倍频程(倍频程:若使每一频带的上限频率比下限频率高一倍,即频率之比为2,这样划分的每一频程称为1倍频程)跌落,所以求语音信号的频谱时,频率越高相应的成分越小,高频部分的频谱比低频部分难求,要在预处理中进行预加重处理。

预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。

预加重一般在语音信号数字化后,参数分析之前用预加重数字滤波器来实现。

基音频率F 0 振幅A V语音 s(n) 信号振幅A U冲激序列 发生器 声门脉冲 模型G (Z )随机噪声发声器声道模型 V (Z ) 辐射模型 R (Z )十倍频程-频率按照10⨯增加或按101x 减小,从10Hz 到100Hz 为一个十倍频程;倍频程-频率按2⨯增加或按21x 减小,从10Hz 到20Hz 为一个倍频程。

2倍频和10倍频是一回事对于滤波或运放放大倍数来讲使用dB 来表示的,具体的公式是:()()001w jw A w A +=,0w 是滤波器或运放的一个极点。

采用dB 表示时是()w A log 20*,()w A 要取模,即()()0001w w w w sqrt A **+。

对于n 倍频(靠近0w 的频率不准确,n>0),0112,*w w w n w ≥=(开方中的1可忽略)则有()()()()()0022012*/*log *20log *20w w w w sqrt A w A w A -=-()())*/*log(*20log *2000110w w w w sqrt A +-()())*/*log(*100022w w w w -=)*log(*10n n -=这样,对于两倍频,122w w *=,则此时下降是dB 64log *10-=-当12*10w w =时,dB 20100log *10-=-预加重数字滤波器一般是一阶的数字滤波器()11--=z Z H μ,μ值接近于1。

5、短时平均能量(短时平均幅值)和短时平均跨零数的定义。

窗口函数的长度和形状对它们有什么影响?常用的有哪几种窗口?这两种时域参数的用途。

设第n 帧语音信号()m x n的短时能量用n E 表示,则其计算公式如下:()m x E N m nn ∑-==102短时平均幅度函数n M ,它定义为:()∑-==1N m n n m x M分别采用矩形窗、汉明窗不同窗长得到的语音信号短时能量,可以得到如下结论: ● 在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响; ● Hamming 窗的效果比矩形窗略好;●但是,窗的长短影响起决定性作用。

窗口长度反映语音信号的幅度变化。

窗过大(N 很大),等效于很窄的低通滤波器,不能反映幅度En 的变化;窗过小(N 很小),短时能量随时间急剧变化,不能得到平滑的能量函数。

在11.025kHz 左右的采样频率下,N 选为100~200比较合适。

定义语音信号()m x n的短时过零率n Z 为:()[]()[]∑-=--=11sgn sgn 21N m n n n m x m x Z式中,[]sgn是符号函数,即[]()()⎩⎨⎧<-≥=0101sgn x x x6、短时自相关函数和短时平均幅差函数的定义及其用途。

在选择窗口函数时应考虑什么问题?语音信号的定义语音信号()m x n的短时自相关函数()k R n 的计算公式如下:()()()K k k m x m x k R nk N m nn ≤<+=∑--=0,10这里K 是最大的延迟点数。

浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期。

清音接近于随机噪声,其短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时k 的增大迅速减小。

短时平均幅度差函数:()()()∑--=+-=k N m nnn k m x m x k F 10计算()k F n只需加、减法和取绝对值的运算,与自相关函数的加法与乘法相比,其运算量大大减小,尤其在用硬件实现语音信号分析时有很大好处。

为此,AMDF 已被用在许多实时语音处理系统中。

短时谱的定义。

它可以有哪两种解释?窗口函数的影响。

()ωj n e X 是帧号n 和角频率ω的函数。

可见,当n 不变时,()ωj n e X 是序列()()m x m n w -()+∞<<∞-m 的标准傅里叶变换,此时()ωj n e X 具有与标准傅里叶变换相同的性质。

设语音信号序列和窗口序列的标准傅里叶变换均存在。

当n 取固定值时,()()∑∞-∞=-=m mj j em x eX ωω()()∑∞-∞=-=m mj j em w e Wωω()()ωωωj n j m mj e W e em n w --∞-∞=-⋅=-∑根据卷积定理有:()()()[]ωωωωj n j j j n e W e e X e X --⋅*=因为上式右边两个卷积项均为关于角频率ω的以π2为周期的连续函数,所以也可以将其写成如下的卷积积分形式:()()[]()()[]θπθωππθθωd e X e e W e X j jn j j n +-⋅=⎰21(*)结论:假设()m x 的DTFT 是()ωj e X ,且()m w 的DTFT 是()ωj e W ,那么()ωj ne X 是()ωj e X 和()ωje W 的周期卷积。

由于()ωj n e X 相当于信号谱()ωj e X 与窗函数谱的卷积,根据卷积积分公式(*)可知,为了使得()ωj ne X 能够与()ωj e X 具有相同的性质,则要求()ωj e W 必须是一个冲激函数。

因此应使窗函数的频率分辨率高,主瓣尖锐;同时还要使旁瓣衰减大。

根据信号的时宽带宽积为一常数这一性质,可知()ωj e W主瓣宽度与窗口宽度成反比,N 越大,主瓣越窄,则()ωj n e X 越接近于()ωj e X 。

但窗长太大时,窗选信号已经不满足语音的短时平稳特性,此时,()ωj ne X 已不能正确反映短时语音的频谱,为此,必须要折中选择窗长。

另外,令角频率N k πω2=,则得到离散的短时傅里叶变换,它实际上是()ωj n e X 在频域的取样,如下所示:()()10,2102-≤≤==⎪⎪⎭⎫⎝⎛--=∑N k e m x k X e X N k j N m n n N k j n ππ 在语音信号数字处理中,都是采用()m x n 的离散傅里叶变换()k X n 代替()ωj n e X ,并且可用高效的快速傅里叶变换(FFT)算法完成由()m x n至()k X n 的转换。

当然,这时窗长N 必须是2的整次幂L 2(L 是整数)。

根据傅里叶变换的性质,实数序列的傅里叶变换的频谱具有对称性,因此全部频谱信息包含在长度为12+N个()k X n 里。

另外,为了使()k X n 具有较高的频率分辨率,所取的DFT 以及相应的FFT 点数N 1应该足够多,但有时()m x n 的长度N 要受到采样率和短时性的限制。

()m x n 转()k X n 流程:原信号频率就处在kHz L 53.192~01⨯-之间,即kHz f 5max =,只要在0~5kHz 内求其频谱。

相关主题