当前位置:
文档之家› 说话人识别中特征参数提取的一种新方法
说话人识别中特征参数提取的一种新方法
[$] ’2044XQ,+2::2L%&/J8,J:/0KR,H/295,--,3J/D2M/J/:62;H/:-:0<;:<0/840-6//;.0/;4N7,:,47[F]%!"""#$%&’( )*+,-..$&%/-00-*.,#AA!,"(?):!>@K!>B%
[T] 杨行峻,迟惠生%语音信号数字处理[&]%北京:电子工业出版社,!>>"% ["] 边肇祺,张学工%模式识别[&]%北京:清华大学出版社,!>>>% [@] V/E749J-+,V4-/V%V43<-::/S:K,79/6/79/7:-6/2H/0,9/7:,8,;2:,47<-,7NC2<--,275,S:<0/-6/2H/0549/J-[F]%
! 收稿日期:#!!"%!$%!"
基作金者万项简方目介::数国汪据家自峥(然&(科E!学—基),金男资,硕助士项研目(究D!生&$;&!通)D讯,)联!)系$!人)(王#建)军副教授*
(DC
复 旦 学 报(自然科学版)
第@@卷
本文在使用傅立叶分析和小波分析计算特征参数的基础上,利用 !"#$%&准则构造了一种新的混合特 征参数’这种新的参数在不增加系统计算量的同时,结合了傅立叶分析和小波分析各自的优点,具有更好 的表征说话人特征的能力’实验结果也给出了证明’
=
语音库
! #
!&’(( >!%?@ ?A%AA
!)*( >A%BB ?$%"A
!&’*(( B>%?! ?!%"A
!’&( >"%"> B#%"A
本文介绍了一种说话人识别中特征参数提取的一种新方法,它所得到的特征参数有效地结合了傅立 叶分析和小波分析各自的优点%和其他特征参数相比,具有更好的分类能力和稳定性,而且不增加训练和 识别过程的计算量,具有很好的实用性%
种音素,可以 结 合 两 种 方 法 各 自 的 优 势 来 取 得 更 好 的
效果%如果直接将它们进行叠加,特征的维数即增加了 一倍,这样就增加了训练和识别时的计算量,不利于系 统的实时运行,另外各维的区分度并不相同,有时反而
图! 中心频率的比较 "#$%! &’()*+#,’-’./0-1+*2.+0340-/5
第&期
汪 峥等:说话人识别中特征参数提取的一种新方法
文章编号:!"#$%$&!"(#!!’)!&%!&($%!"
&($
! 说话人识别中特征参数提取的一种新方法
汪 峥,连 翰,王建军
(复旦大学 电子工程系 智能与图像实验室,上海 #!!")))
摘 要:提出了一种新的说话人识别中特征参数的提取方法*在分别使用傅立叶分析和小波分析得到两组特征 参数之后,进一步利用 +,-./0准则进行参数选取,构 造 了 一 种 新 的 混 合 特 征 参 数*在 不 增 加 训 练 和 识 别 时 计 算 量的同时,结合了傅立叶分析和小波分析两者的优点,具有更好的分类能力*实验结果显示,这种新的混合参数 有效地提高了说话人的识别率,能更好地表征说话人的特征*
从表!中可以看出,在语音库!和语音库#两种情况下,基于 ’,-./0比的混合参数都取得了最好的识 别率%它不仅在同期录音时能更好的区分各说话人,而且在说话人的状况随着时间发生变化时,依然能够 较好的表现各个说话人的特征%
表! 不同特征参数的识别正确率比较
123%! (45620,-4748,9/7:,8,;2:,4702:/489,88/0/7:8/2:<0/-
望最大化(I?)算法进行训练,计算简单,且分类效果优于其他分类器%实验中每个说话人由一个高斯混 合模型来表征,模型的阶数取为!>,并取对角化的协方差矩阵% *%* 实验结果
对同一期录音的干净语音进行说话人识别,现在可以达到非常高的识别率%而如果训练和识别的语 音不是同一期的话,由于说话人自身状况的改变,识别率会大为下降%为了更好的检验本文提出的混合特
参考文献:
[!] C4D9EFG,1<8/H;,I%&/JKL;2J/99,-;0/:/D2M/J/:;4/88,;,/7:-840-6//;.0/;4N7,:,47[OP/QR]%.::6:!,///SK 6J40/%,///%40N/,/!"/@>$>/!B@B?/AAB@!B#>%698,#AAAKA@KA!/#AATKA#KA@%
上的小波包子树分解,得到各子带系数 ,-%.,/;#计算每帧语音信号的各小波包子带的能量;
万方数据
1.
![,-%.,/ ]-
0. " /"( 1.
."(,-,…,+ ;
(4)
第=期
汪 峥等:说话人识别中特征参数提取的一种新方法
=FF
其中!为子带序号,"! 为第! 个子带中小波包分解系 数的个数;!将小波包各子带能量 #! 的对数进行离散 小波变换得到小波包系数 67&%
于小波包分析的语音特征’这里使用的听觉感知小波包[4]不同于一般的小波包分解,它为了利用人耳的
听觉感知特性,即 )%*频率和关键带,采用了固定分解树的方法,使它的子频带分布类似于 )%*域滤波器 组’小波包分解树和 )%*域滤波器组以及临界带的中心频率[@]之间的比较见图4’
小波包系数(AB+)的提取过程如下’!输入语音信号经过预加重后进行分帧;"对各帧信号进行如
两种参数在语音库=的训练集上的"#,80+比如图<所示,前面><维是 ?"&&,后面><维是 67&%选
取 "#,80+比最大的><维组成新的混合特征参数("?&)%这样既没有增加系统的计算量,同时结合了两种
参数各自的优势,能更好的表征说话人的特征,具有很好的分类能力%
> 实验与结论
*%! 实验数据和系统平台 实验中采用的语音共有两组,分别称为语音库=和语
征参数表万征方说话数人据的能力,用语音库=和>分别进行了两种情况下的说话人识别实验%
#AA
复 旦 学 报(自然科学版)
第TT卷
使用语音库!时,对每个说话人用"个文件进行训练,使用剩下的!"个文件进行测试;使用语音库# 时,用$个月前的语音进行训练,使用$个月后的语音进行测试%为了便于比较,计算了相应情况下分别 使用 &’((和 )*(,以及文献[!]中感知频率离散小波系数(&’+)()和文献[$]中小波包倒谱系数 ()*(()时系统的识别率!%实验结果如表!所示%
!"""1*’&.+--,3’&4564$+2*+,-..$&%,!>>",#(!):?#KB$%
$%%&’()*’+,+-)./0 1’2/34/)*56/’,7%/)8/6 93/,*’-’()*’+,
组的中心频率按 )%*频率均匀排列,每个滤波器三角形的两个底点是相邻滤波器的中心,相邻滤波器过
渡带的频率响应之和为(,图-为示意图’用三角形滤波器组在频域对能量谱进行带通滤波,滤波后得到
$ 个滤波器的输出,%(&),&3(,-,4,…,$ ’
图- )%*滤波器组 !"5’- )%*6"*7%&89/:#
( 特征参数的提取
!’! 基于傅立叶分析的特征参数 )%*频域倒谱系数()!++)是使用傅立叶分析提取的语音特征参数,它利用如下两个听觉机理来分
析语音频谱’ !人的主观感知频域划分不是线性的,而是类似于指数的形式,它和实际频域之间有下面的公式:
!,%*"((-.*/((#.!2021);
(()
式中 !,%*是以 )%*为单位的感知频域,!01是以 01为单位的实际频域’将语音信号的频谱变换到感知频
会影响整体的分类能力% 在模式识别中一个参数的可分离性可以用 "#,80+准则[9]来测定:
!"#,80+ $ "":0;1#1;80#0--,
(<)
其中!"#,80+称为 "#,80+比,某个参数对训练集样本的 "#,80+比越大,则这个参数的类别区分度越好%";#18#-
是这个参数对各个类的类内方差之和;":01;00-则是这个参数的类间方差和%
#将滤波器组的输出取对数,然后对它做离散余弦变换(;+<)得到 )!++,
[ ] ! $!’’(
"
$
*/%(&)=>#
&"(
$(&)2*?)( $
( "(,-,…,+;
这里 )!++的系数个数( 通常取小于等于$ ’
(-)
!’" 基于小波包分析的特征参数
由于语音信号的非平稳性,可以用小波包分析代替语音信号处理中的傅立叶分析和滤波器组,导出基
关键词:信号处理;傅立叶分析;小波分析;+,-./0比;说话人识别
中图分类号:12(&#*)"
文献标识码:3
说话人识别是利用语音信号和预先提取的说话人特征来确定或鉴别说话人身份的技术*由于每个人 独特的声道特性和发音特点,使其讲话具有区别于他人的特征,这就是说话人识别的基本依据*