信号与系统课程设计报告题目:语音信号处理课程:信号与系统学院:英才实验学院班级:29001010班学生:陈威(2901309029)唐浩月(2903101013)指导教师:许渤朱学勇二O一O年十二月目录CONTENTS摘要 (3)一、引言 (3)二、正文 (4)2.1设计要求 (4)2.2设计原理 (4)2.2.1傅里叶变换对语音信号的处理 (4)2.2.2语音信号模型 (4)2.3设计内容和步骤 (4)2.3.1对语音信号进行频域分析 (6)2.3.2分析男声和女声的差别 (9)2.3.3语音与乐器音频的差别 (10)2.3.4对语音信号降采样 (11)2.3.5中文语音与外文语音进行比较 (13)2.4课程拓展-----清音和浊音的分辨 (14)三、结论 (16)四、设计心得 (16)参考文献 (16)附录A-I 程序代码 (17)【摘要】处在一个高速发展,日新月异的社会中,科学技术无疑扮演着重要的角色。
众所周知,语音信号的处理分析已变得非常流行,基于语音处理分析技术的产品也开始流入市场,充满人们的生活。
这也是本小组致力于该方面研究的原因。
为了研究不同类型的声音信号性质,我们以数学知识为基础,通过快速傅里叶变换及其逆变换等一系列技术手段,从时域图,频域图,语谱图全方位多角度入手,经对大量语音信号素材的处理,分析,对比,类比,对各类语音信号性质有了一定的了解,的除了不少有意义的结论。
【关键词】Matlab, 时域图,频域图,语谱图,快速傅里叶变换,激励模型,滤波【abstract】In a world that is growing more and more complex and competitive by the minutes, science and technology have never been more significant. As we all know that the technology of voice identifying and analyzing is turning into popular, no matter who you are, no matter where you are, these kinds of products must have been full of your life. Therefore, our group focuses on the handling as well as analyzing of voice, research the characters of different kinds of sound signals through the picture of time and frequency. Based on the knowledge of math, we use fft, fftshift to handle and compare them, and earn our conclusion.【key words】Matlab,Time-domain graph,Frequency-domain graph, spectrogram, FFT, incentive models, filtering一、引言随着Matlab仿真技术的推广,科研工作者们已经可以在计算机上对声音信号进行处理,甚至是模拟。
通过计算机作图,采样,我们可以更加直观的了解语音信号的性质。
二、正文2.1 设计要求1、 对语音信号进行频域分析,找语音信号的主要频谱成分所在的带宽,验证为何电话可以对语音信号采用8KHz 的采样速率。
2、 分析男声和女声的差别。
我们知道男声和女声在频域上是有些差别的,一般大家都会认为女声有更多高频的成分,验证这种差别。
同时,提出一种方法,能够对一段音频信号是男声信号、还是女声信号进行自动的判断。
3、 语音与乐器音频的差别。
比较语音信号与乐器音频信号的差别,尤其是在频域上的差别。
4、 .wav 文件的采样速率为44.1KHz ,仍然远远高于我们通常说的语音信号需要的频谱宽度,例如在电话对语音信号的采样中,我们仅仅使用8KHz 的采样速率。
对读入的音频数据进行不同速率的降采样,使用wavplay()命令播放降采样后的序列,验证是否会对信号的质量产生影响。
5、 自己下载获得一段中文语音信号(可以使用诸如“千千静听”等工具将.mp3文件转换成.wav 文件),对中文语音与英文语音进行比较。
2.2 设计原理2.2.1 傅立叶变换对语音信号的处理我们主要的设计原理是离散时间的fourier 变换,离散时间的fourier 变换公式为:(1)(1)1()()Nj k Nj X k x j ω--==∑,(1)(1)1()(1/)()Nj k N k x j N X k ω--==∑,其中(2)/i NN e πω-=。
利用上述公式我们可以对语音信号进行fourier 变换和反fourier 变换。
对语音信号进行fourier 变换后,我们可以得到对应信号的频谱进而画出其频谱图,于是我们就可以很方便的在频域上对语音信号进行分析, 对语音信号进行反fourier 变换后,我们又可以得到相应的语音信号,于是通过对频谱的改变,在进行反fourier 变换,我们就能知道频域对时域的影响。
2.2.2 语音信号模型人体发声的系统包含三部分:有声门产生的激励函数()Z G ,有色很难轨道产生的调制函数()z V ,有嘴唇产生的辐射函数()z R 。
语音的生成系统传递函数有着三个函数及联而成,即()()()()z Z z z H G V R =A 激励模型发浊音时,由于声门不断开启和关闭,产生间隙的脉冲,经仪器测试类似于三角新的脉冲。
也就是说,这使得激励波是一个以基音周期为周期的血三角脉冲串。
单个三角脉冲的数字表达式如下:111()11221[1cos ]02cos[]20n n n N N n N g N n N N N ππ⎧-≤≤⎪⎪-⎪≤≤+⎨⎪⎪⎪⎩式中,N 表示三角波的上升时间和下降时间(由1,2区分),将其转换为Z 变换的全极点形式:()121(1)z cT G e z --=-⋅这里c 是一个常数,T=N1+N2。
显然上式是一个二级点模型。
因此,作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励上述单位斜三角波模型实现。
这个单位脉冲串的幅值因子可以表示成以下z 变换形式:()()11v z A E z -=-故,整个激励可表示为:()()11211(1)v z cT A U ze z ---=⋅--⋅B 声道模型典型的声道模型有两种,即无损声管模型和共振峰模型。
当声波经过声道时,受到声腔共振的影响,在某些频率附近形成谐振。
反映在频谱图上,称之为共振峰。
清音无明显的共振峰,而浊音的共振峰明显。
一般原音可有三到五个共振峰。
对于成人的声道,约为17cm 长,其共振频率计算为:(21)4i i F c L -= i=1,2,3………2.3 设计内容和步骤2.3.1对语音信号进行频域分析,找到语音信号的主要频谱成分所在的带宽,验证为何电话可以对语音信号采用8KHz 的采样速率。
解决这个问题我们很快想到的是通过语音信号的频谱图来进行分析,通过观察频谱图,我们可以很直观的找到语音信号频谱中的主要频率成分所在的带宽(bandwidth ),然后通过其带宽可以清楚的解释为何电话可以对语音信号采用8KHz 的采样速率。
为了验证我们的假设,我们用到了快速傅里叶变换(fft )。
由于matlab 使用技巧不纯熟,刚开始时我们只是简单的将信号做fft 变换。
而在后期的深入讨论中,我们意识到横轴的坐标点存在大的问题。
直接做fft 变换之后其横坐坐标只是比例值,并不是我们想象中的频率。
于是我们将横坐标经过变换之后才最终得到了正确的频谱图。
以下是我们的主要图形(代码见附录):男声信号00.51 1.52 2.53x 105-11语音时域波形00.51 1.52 2.53x 10510002000幅度050010001500200025003000350040004500500010002000频谱图frequency/Hz00.51 1.52 2.53 3.54 4.5x 10410002000频谱图frequency/Hz女声信号为了找到语音信号的主要频谱成分所在的带宽,我们将男声和女声的频谱画出来,如下图(代码见附录):00.51 1.52 2.53 3.5x 105-11语音时域波形00.51 1.52 2.53 3.5x 10520004000幅度0500100015002000250030003500400045005000100020003000频谱图frequency/Hz00.51 1.52 2.53 3.54 4.5x 10420004000频谱图frequency/Hz5001000150020002500300035004000450050000200400600800100012001400160018002000男声的频谱图frequency/Hz通过肉眼,从上面的两图我们可以大概的看出语音信号的主要频谱成分所在的带宽范围为[200,4000]左右,但是我们已经知道人说话的声音频率范围为[300,,3400],为什么图中频率在4000Hz ,甚至5000Hz 之后还会有呢?我们认为主要是由于噪音影响的结果,为了验证这个猜想,于是我们就想如果我们把高频部分用滤波器滤掉,然后再将其做反傅里叶变换,观察其对声音的影响,如果将高频部分滤掉而语音几乎不变,那么则说明其是由于噪音的影响,反之则不是。
050010001500200025003000350040004500500050010001500200025003000女声的频谱图frequency/Hz5001000150020002500300035004000450050000200400600800100012001400160018002000frequency/Hz滤波后的波形当我们把高频率掉之后,再将语音信号做反傅里叶变换之后播放,发现语音信号基本上与以前一致,说明其确实是由于噪音的影响。
由此我们可以认为语音信号的主要频谱成分所在的带宽范围为[300,3500]左右。
当我们知道人的声音频谱范围大致在[300,3500]左右后,我们就能马上说明为何电话可以对语音信号采用8KHz 的采样速率了。
由乃奎斯特采样定理我们知道采样频率2s M ωω>,即只需使采样频率大于7KHz 即可,所以电话对语音信号的采样频率采用8KHz 是完全合理的。