当前位置：文档之家› 说话人识别研究综述(好)

说话人识别研究综述(好)

Ｖｏｉｃｅｔｅｃｈｎｏｌｏｇｙ
的预处理过程为：（１）采样量化，语音信号通常以８ｋＨｚ
或更高的采样速率数字化，每个采样至少用８ｂｉｔ表
示；（２）预加重，声音经过８ｋＨｚ或更高采样速率的采
样后转换成数字语音信号，接着通过一个一阶高通滤
ＷＡＮＧＳｈｕ－ｚｈａｏ，ＱＩＵＴｉａｎ－ｓｈｕａｎｇ
（ＤｅｐａｒｔｍｅｎｔｏｆＥｌｅｃｔｒｏｎｉｃＥｎｇｉｎｅｅｒｉｎｇ，ＤａｌｉａｎＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，ＤａｌｉａｎＬｉａｏｎｉｎｇ１１６０２３，Ｃｈｉｎａ）
【Ａｂｓｔｒａｃｔ】Ｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｉｓａｎｉｍｐｏｒｔａｎｔｐａｒｔｏｆｔｈｅｓｐｅｅｃｈｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ．Ｉｔｉｓｏｎｅｏｆｔｈｅｃｕｒｒｅｎｔｒｅｓｅａｒｃｈ
ｈｏｔｓｐｏｔｓ．Ｔｈｅｐｒｉｎｃｉｐｌｅｓｏｆｔｈｅｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎａｒｅｉｎｔｒｏｄｕｃｅｄｉｎｄｅｔａｉｌ．Ｔｈｅｌａｔｅｓｔｄｅｖｅｌｏｐｍｅｎｔｉｎｔｈｅａｒｅａｓｏｆ
ｔｈｅｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ，ｍｏｄｅｌｔｒａｉｎｉｎｇａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｉｓｒｅｖｉｅｗｅｄａｎｄｔｈｅｔｒｅｎｄａｎｄｒｕｂｓａｒｅａｌｓｏｄｉｓｃｕｓｓｅｄ．
文章编号：１００２－８６８４（２００７）０１－００５１－０５
说话人识别研究综述
语音技术
ＹＶｏｉｃｅｔｅｃｈｎｏｌｏｇ
·综述·
王书诏，邱天爽（大连理工大学电子与信息工程学院，辽宁大连１１６０２３）
【摘要】说话人识别是语音信号处理中的重要组成部分，是当前的研究热点之一。详细介绍了说话人识别的基本
典型的参数模型包括高斯混合模型（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅ
Ｍｏｄｅｌ，ＧＭＭ）和隐马尔可夫模型（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，
ＨＭＭ）［１９－２４］；而非参数模型是指说话人模型是由语音特
征经过某种运算直接得来的，典型的非参数模型是模
式为
ｆＭｅｌ＝２５９５ｌｇ（１＋ｆ／７００）
（３）
求取ＭＦＣＣ的具体过程为：（１）对已经过预处理的
语音向量分别进行离散傅里叶变换；（２）将得到的离散
频谱用序列三角滤波器进行滤波处理，得到一组系数
ｍｉ；（３）利用离散余弦变换将滤波器输出变换到倒谱域，离散余弦变换的公式为
时域方法，频域方法和综合利用信号时域、频域特性的
方法。
时域方法直接利用语音信号的采样点计算信号的
波峰、波谷和过零率等，其特点是原理简单、计算量小，
典型的方法是Ｇｏｌｄ和Ｒａｂｉｎｅｒ提出的并行处理方法［１１］。
频域的方法主要是计算信号的自相关函数、功率谱和
最大似然函数等，其精度要高于时域方法，典型的方法
说话人识别研究中主要采用的特征参数主要有：基音周期、明亮度、过零率、线性预测系数（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔｓ，ＬＰＣ）、线性预测倒谱系数（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔｓ，ＬＰＣＣ）、Ｍｅｌ频率倒谱系数（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ，ＭＦＣＣ）、倒谱特征等［６－７］。３．１ＬＰＣＣ参数［８］
原理，从特征提取、模型训练和分类等几个方面就近年的主要研究情况进行综述和评价，并在此基础上探讨了研究
难点和发展前景。
【关键词】说话人识别；特征提取；模型训练；分类
【中图分类号】ＴＮ９１２
【文献标识码】Ａ
ＳｕｒｖｅｙｏｎＳｐｅａｋｅｒＲｅｃｏｇｎｉｔｉｏｎ
波器来作预加重处理以突显高频部分，其传递函数为：
Ｈ（
ｚ）
＝１－
ａ
－
ｚ
１
，
一般
ａ
的值取
０．９５
左右［５］；
（
３）
取音框，
一
般取２５６点为一个音框（３２ｍｓ），音框与音框之间重
叠１２８点（１６ｍｓ），即每次位移１２８点后再取２５６点作
为下一个音框，这样可避免音框之间的特性变化过于
根据参数的稳定性，可把说话人特征参数大致分为两类：一类是反映说话人生理结构的固有特征（例如声道结构等），这类特征主要表现在语音的频谱结构上，包含了反映声道共振的频谱包络特征信息和反映声带振动等音源特性的频谱细节构造特征信息，具有代表性的特征参数有基音和共振锋，这类特征不易被模仿，但容易受健康状况的影响；另一类是反映声道运动的动态特征，即发音方式、发音习惯等，主要表现在语音频谱结构随时间的变化上，包含了特征参数的动态特性，这类特征相对稳定但比较容易模仿，代表性的特征参数是倒谱系数。
有中央消波自相关法［１２］、平均幅度差分函数法和倒谱
法等［３］。自相关法的原理是语音的短时自相关函数在基
音周期整数倍点上有很大的峰值，只要找到最大峰值
点的位置，便能估计出基音周期。
３．３．２倒谱特征［３］
语音信号是激励信号源与声道响应相卷积的结
【Ｋｅｙｗｏｒｄｓ】ｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎ；ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ；ｍｏｄｅｌｔｒａｉｎｉｎｇ；ｃｌａｓｓｉｆｉｃａｔｉｏｎ
１引言
说话人识别作为生物认证技术的一种，是根据语音波形中反映说话人生理和行为特征的语音参数自动鉴别说话人身份的一项技术［１］。因此，需要从各个说话人的发音中找出说话人之间的个性差异，这涉及到说话人发音器官、发音通道和发音习惯之间等不同级别上的个性差异。说话人识别是交叉运用心理学、生理学、语音信号处理、模式识别、统计学习理论和人工智能的综合性研究课题。
ＬＰＣＣ是一个比较重要的特征参数，它能够比较彻底地去除语音产生过程中的激励信息，能较好描述语音信号的共振峰特性。在实际计算中，ＬＰＣＣ不是由信
"#$电声技术２００７年第３１卷第１期
号直接得到的，而是由ＬＰＣ求得。ＬＰＣＣ系数ｃＬｐ（ｎ）与
线性预测系数ａｉ（ｉ＝１，２， …，ｐ）的关系为
果，而“倒谱特征”则是利用了对语音信号进行适当的
同态滤波后，可将激励信号与声道信号加以分离的原
理。倒谱中维数较低的分量对应于语音信号的声道分
量，倒谱中维数较高的分量对应于语音信号的音源激
语音技术
ＹＶｏｉｃｅｔｅｃｈｎｏｌｏｇ
励分量。因此，利用语音信号倒谱可将它们分离，彼此
号随时间的幅度变化。
语音信号的短时平均幅度定义为
∞
# Ｍｎ＝ｘ（ｍ）ｗ（ｎ－ｍ）
（６）
ｍ＝－ ∞
式（６）中用信号绝对值来代替平方和。
３．３．４短时平均过零率［１３］
信号 ! ｘ（ｎ） " 的短时平均过零率定义为
∞
# Ｚｎ＝ｓｇｎ［ｘ（ｎ）］－ｓｇｎ［ｘ（ｎ－１）］ｗ（ｎ－ｍ）
一定的相似性准则形成判断。
输入语音预处理
特性提取
训练识别
模型产生模型存储
相似性准则
判决
图１说话人识别系统框图
２．３预处理［５］通常，输入的语音信号都要进行预处理，预处理过
程的好坏在一定程度上也影响系统的识别效果。一般
! " # 电声技术２００７年第３１卷第１期
语音技术
说话人识别根据实现的任务不同，可分为说话人辨认（ｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎ）和说话人确认（ｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎ）两种类型［２］；说话人识别根据系统对待识别语音内容的不同，又可分为与文本有关（ｔｅｘｔ－ｄｅｐｅｎｄｅｎｔ）和与文本无关（ｔｅｘｔ－ｉｎｄｅｐｅｎｄｅｎｔ）两种方式［３］。
基本上互不干扰，并可避免声道分量受到有随机变化
的音源激励分量的干扰。
３．３．３短时能量与短时平均幅度［１３］
信号 ! ｘ（ｎ） " 的短时能量定义为
∞
#２
Ｅｎ＝［ｘ（ｍ）ｗ（ｎ－ｍ）］
（５）
ｍ＝－ ∞
其中，ｗ（ｎ）是窗函数，一般用矩形窗或汉明窗。短时能
量代表的是一个音框语音信号的能量，可反映语音信
经网络（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＡＮＮ）模型以及支撑
向量机（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ，ＳＶＭ）［１４－１８］。
参数模型是指采用某种特定的概率密度函数来
描述说话人的语音特征在特征空间的分布情况，并以
该概率密度函数的一组参数来作为说话人的模型。
#ｃＬｐ（１）＝ａ１
%
ｎ－１
! $%ｃＬｐ（ｎ）＝ｋ＝１
ｋｎ
ａｎ－ｋｃＬｐ（ｋ）＋ａｎ，
１＜ｎ≤ｐ
（２）
%
ｎ－１

e商务文档

说话人识别研究综述(好)

相关文档推荐：