当前位置:文档之家› 声音信号的特征检测

声音信号的特征检测

摘要语言是人类最为重要的交流工具,它具有简易方便,准确自然等其他工具所无法替代的特点。

随着信息社会的迅速发展,计算机已经渗透进人类生活工作的每一个角落,因此人机交互显得尤其重要。

在人机交互的各种通信方式中,语音通信又是最好的交流方式,而声音信号的特征参数的精确度就会直接影响着语音通信的质量和准确度。

因此,声音信号的特征检测在语音信号处理中是一项非常重要的工作。

本文利用MATLAB软件检测声音信号的特征参数,以语音信号为主,首先讨论了声音信号的基本特性,包括声音信号的产生,传播,声学特性等等。

然后又分别讨论了声音信号在时域,变换域的特征参数。

最后详细研究了声音信号的特征参数的检测提取。

第一章声音信号的基本特征1.1声音信号的产生声音是一种波,它是由物体振动产生的,能被人耳听到,它的振动频率在20~20000Hz之间。

自然界中有各种各样的声音,如雷声,树叶被风吹时发出的“飒飒”声,大海波涛汹涌的翻滚声,机械工作时发出的声音等等。

语音也是声音的一种,它是由人的发声器官发出的,语音的振动频率最高可达15000Hz。

语音信号的产生过程分为如下几个阶段:首先,说话人在头脑中产生想要用语言表达的信息;然后将这些信息转换成语言编码,即将这些信息用其所包含的音素序列、韵律、响度。

基音周期的升降等表示出来。

一旦对这些信息编码完成后,说话人会用一些神经肌肉命令在适当的时候控制声带震动,并塑造声道的形状以便发出编码中指定的声音序列。

神经肌肉命令必须同时控制调音运动中涉及的各个部位:唇、腭、舌头以及控制气流进入鼻腔的软腭。

一旦产生了语音信号,并将这些信息传递到听者时,语音的感知过程也就开始了。

听者内耳的基底膜对语音信号进行动态的频谱分析,神经传感器将基底膜输出的频谱信号转换成对听觉神经的触动信号,这一过程和后面将要介绍的特征提取过程有些类似。

作用在听觉神经上的活动信号,在大脑更高层的中枢转化成语言编码,并由此产生具有语义的信息。

人类的语音是由人体发声器官在大脑控制下的生理运动产生的。

人的发声器官包括肺、气管、喉、咽、鼻腔和口腔等,如图1-1所示。

喉以上的部分称为声道,发出声音的不同会导致其形状的变化,所以听到的声音也不同;而喉(包括声带)的部分称为声门,呼吸时左右两声带打开,讲话时则合拢。

声带每开启和闭合一次的时间即振动周期称为音调周期或者基音周期,其倒数称为基因频率,简称基频。

基因频率取决于声带的尺寸和特性,也决定于它所受的张力。

声带振动的频率决定了声音频率的高低,频率快则音频高,频率慢则音调低。

基音的范围约为80-500Hz左右,它随发音人的性别、年龄及具体情况而定,老年男性偏低,小孩和青年女性偏高。

现在我们来讨论一下声音的产生过程。

其原理图如图1-2所示。

根据声带是否震动,语音又分为浊音和清音。

在发声的过程中,肺当声带处于收紧状态时,流经的气流使声带振动,这时产生的声音成为浊音,没有声带振动的音称为清音。

当声带处于松弛状态时,有两种方式能发出声音:一种方式是通过舌头,在声道的某一部分形成狭窄部位,也称为收紧点,当气流经过这个收紧点时会产生湍流,形成噪声型声音。

这时对应的收紧点的位置不同及声道形状的不同,形成不同的摩擦音。

另一种方式是声带处于松懈状态,利用舌头和嘴唇关闭声音,暂时阻止气流。

当气流压力非常高时,突然放开舌与唇,气流被突然释放产生短暂脉冲音。

对应于声道闭紧点的不同位置和声道的形状,形成不同的爆破音。

综上所述,声道是气流自声门之后最为重要的器官,它是一个具有分布参数系统的谐振腔,因而有许多谐振频率。

谐振频率由瞬态的声道外形所决定。

人在说话的时候舌和唇连续运动,使得声道发生外形和尺寸上的改变,随即改变了谐振频率。

谐振频率发生在c,n=1,2,3,...F n=(2n−1)4LC为声速,空气中c=340m/s。

L为声道长度,n表示谐振频率的序号。

这些谐振频率称为共振峰频率,简称为共振峰,它是声道的重要声学特性。

声道对于一个激励信号的响应,可以用一个含有多对极点的线性系统来近似描述。

每对极点都对应一个共振峰频率。

这个线性系统的频率响应特性称为共振峰特性,它决定信号频谱的总轮廓或者谱包络。

声音的频率特性也主要是由共振峰决定的。

其中共振峰特性和元音的音色密切相关。

1.2声音信号的特征1.2.1声音信号的基本特性声音是一种波,它具有以下几种物理特征:○1音质。

它是一种声音区别于其他声音的基本特征。

○2音调。

就是声音的高低。

音调取决于声波的频率,频率快音调就高,频率慢音调就低。

○3响度。

响度表示声音的强弱,它是由声波振动幅度决定的。

○4音长。

它表示声音的长短,是由发音持续时间的长短决定的。

除了有物理特征外,它还具有另一个重要的性质,这就是声音总是能表达一定的意义和思想内容。

而且不仅如此,它还能表达出一定的语气、情感。

因此,声音中所包含的信息是丰富多彩的。

我们平时说话的时候很自然地一次发出来的、有一个响亮的中心的、听的时候也很自然地感到是一个小的语音片段的,称为音节。

音节是构成语音的最小单位,是发声的最小单位。

而一个音节又是由一个或若干个音素构成,音素是语音的最小、最基本的组成单位。

各种音素组合到一起构成了不同的音节,各种音节组合到一起又构成了更大的单位——词,词是文章的基础,是有意义的语言的最小单位。

任何语音都有元音和辅音两种音素。

一个音节由元音和辅音构成。

元音是由声带的振动发出的声音,它是一个音节的主要部分。

每个元音的特点是由声道的形状和尺寸决定的。

所有元音都是浊音。

辅音则是由呼出的气流克服发音器官的阻碍而产生的。

发辅音时如果声带不振动,称为清辅音;发辅音时如果声带振动,则称为浊辅音。

1.2.2声音信号的时域波形及特性在进行声音信号数字化处理时,能最为直观的了解声音信号的方式便是看它的时域波形。

下面我们利用计算机声卡录音,看一下这段声音的时域波形。

要求采样频率为8kHz,每个采样点用16位进行量化,录音时间为1s,内容为“你好”。

图中横轴为时间,纵轴为信号的幅度。

从图1-3(a)中可以看出声音能量的起伏,以及声音信号随时间变化的过程。

图1-3(b)是将“好”的元音部分/ao/拉长后的形状。

图1-3(c)是“好”的辅音/h/的波形图。

图1-3(a )语音信号“你好”的时域波形图1-3(b )元音部分/ao/的波形010002000300040005000600070008000-2-1.5-1-0.50.511.54语音波形010002000300040005000600070008000-3-2.5-2-1.5-1-0.50.511.524语音波形图1-3(c )辅音部分/h/的波形可以看出,元音/ao/的波形具有很强的准周期性并且有较强的振幅。

它的周期对应的就是基音频率。

而/h/的波形类似于白噪声,并且振幅也弱一些。

1.2.3声音信号的频域波形及特性前面我们所研究的时域波形虽然简单直观,但是对于一些复杂的声音信号 ,一些特性只有在频域中才能体现出来 ;并且频谱是表征语音特征的基本参数 。

共振峰即是一个典型的频域参数,它决定了信号频谱的包络。

在声音的发音过程中,声道通常都处于运动状态,但是这个运动状态的时变过程同振动过程相比要缓慢得多,因此我们研究声音信号的时候都要假设其为一种短时平稳信号,一般都假定在10ms~30ms 之内是相对平稳的,但在长时间的周期中声音信号的特性会发生变化,这种变化的不同决定了声音的不同。

根据声音信号这种短时平稳的特点,在每一时刻都可以用该时刻附近的一短段语音信号分析得到一个频谱。

图1-4给出了“你好”的频谱特性。

010002000300040005000600070008000-2500-2000-1500-1000-5005001000150020002500语音波形图1-4 “你好”的频谱1.2.4语谱图前面的频谱分析只能反映出信号的频率变化,而不能表示信号的时间变化特性。

由于语音信号是一种短时平稳信号,可以在每个时刻用其附近的短时段语音信号分析得到一种频谱,将语音信号连续地进行这种频谱分析,可以得到一种二维图谱,横坐标表示时间,纵坐标表示频率,每个像素的灰度值大小反映相应时刻和相应频率的能量。

这种视频图称为语谱图。

能量功率谱的表达式为Px n,ω =12N+1|X n,ω |2其中,X(n, ω)= x k ω n −k e −j ωk ∞k=−∞; ω[n]是一个长度为2N+1的窗函数,X(n, ω)表示在时域以n 点为中心的一帧信号的傅里叶变换在ω处的大小。

在实际情况下,一般不用对每个可能的频率和时间计算相应的能量。

对于频率轴,一般计算2N+1点就足够;对于时间轴,取N 个点也足够了。

图1-5给出了一段语音的语谱图。

图中横轴表示时间,纵轴表示频率,颜色的深浅表示该处能量的大小,一般用能量的对数表示。

图1-5 一段语音的语谱图第二章声音信号的特征分析对于声音信号的分析所采用的主要技术是“短时分析技术”。

声音信号的特征是随时间变化的,是一个非稳态的过程。

但即便如此,由于发声时人的口腔肌肉运动频率相对于语音频率来讲是相对缓慢的,所以在一个短时间范围内,它的基本特征是可以被认为是保持不变的,那么我们就可以将其视为一个准稳态过程。

因此,对于一段较长的语音我们必须将其分为一段一段的“帧”进行处理,帧长一般取10ms~30ms。

对声音信号进行特征分析之前,首先需要对信号进行数字化处理,这一部分我们只做简单讨论。

2.1声音信号的数字化2.1.1采样与量化声音信号在时间和幅度上都是连续变化的模拟信号,如果想在计算机上对其处理必须先进行采样和量化,将它变成在时间和幅度上都离散的数字信号。

所谓采样,就是把模拟信号在时域上进行等间隔抽样,其中两相邻抽样点之间的间隔称为采样周期,倒数为采样频率。

根据奈奎斯特采样定理,采样频率必须大于声音信号最高频率的2倍,只有这样,在恢复信号的时候才能确保原始信号被完整地重构。

在实际语音信号处理中,采样频率一般为8kHz~10kHz.采样后的信号在时间上是离散的,但在幅度上仍然保持连续,所以要进行量化处理。

量化就是将信号的幅度分成若干个有限的区间,并且把同一区间的样本点都用一个幅度值表示,这个幅度值称为量化值。

量化有3种方式:零记忆量化、分组量化和序列量化。

其中零记忆量化是最简单的一种,它的输入-输出特性采用阶梯型函数的形式。

信号经过量化后,一定存在一个量化误差。

其定义为e n=x1(n)-x(n)式中,e(n)为量化误差;x1(n)为量化后的采样值,即量化的输出;x(n)为未量化的采样值,即量化的输入。

经过采样和量化后,一般还要对信号进行预加重。

其实质就是提升高频部分,使信号的频谱变得平坦,便于进行频谱分析或声道参数的分析。

相关主题