当前位置:文档之家› 说话人识别研究综述(好)

说话人识别研究综述(好)

Vo ic e t e c h n o lo g y
的预处理过程为: ( 1) 采样量化, 语音信号通常以 8 kHz
或更高 的 采 样 速 率 数 字 化 , 每 个 采 样 至 少 用 8 bit 表
示; ( 2) 预加重, 声 音 经 过 8 kHz 或 更 高 采 样 速 率 的 采
样后转换成数字语音信号, 接着通过一个一阶高通滤
WANG Shu- zhao, QIU Tian- shuang
( Department of Electronic Engineering, Dalian University of Technology, Dalian Liaoning 116023, China)
【Abstr act】 Speaker recognition is an important part of the speech signal processing. It is one of the current research
hotspots. The principles of the speaker recognition are introduced in detail. The latest development in the areas of
the feature extraction, model training and classification is reviewed and the trend and rubs are also discussed.
文章编号: 1002- 8684( 2007) 01- 0051- 05
说话人识别研究综述
语音技术
Y Vo ic e t e c h n o lo g
·综述·
王书诏, 邱天爽 ( 大连理工大学 电子与信息工程学院, 辽宁 大连 116023)
【摘 要】说话人识别是语音信号处理中的重要组成部分, 是当前的研究热点之一。详细介绍了说话人识别的基本
典 型的参数模型包括高斯混合模型( Gaussian Mixture
Model, GMM) 和隐马尔可夫模型(Hidden Markov Model,
HMM) [19-24]; 而非参数模型是指说话人模型是由语音特
征经过某种运算直接得来的, 典型的非参数模型是模
式为
fMel=2 595 lg( 1+f/ 700)
( 3)
求取 MFCC 的具体过程为: ( 1) 对已经过预处理的
语音向量分别进行离散傅里叶变换; ( 2) 将得到的离散
频谱用序列三角滤波器进行滤波处理, 得到一组系数
mi; ( 3) 利 用 离 散 余 弦 变 换 将 滤 波 器 输 出 变 换 到 倒 谱 域, 离散余弦变换的公式为
时域方法, 频域方法和综合利用信号时域、频域特性的
方法。
时域方法直接利用语音信号的采样点计算信号的
波峰、波谷和过零率等, 其特点是原理简单、计算量小,
典型的方法是 Gold 和 Rabiner 提出的并行处理方法[11]。
频域的方法主要是计算信号的自相关函数、功率谱和
最大似然函数等, 其精度要高于时域方法, 典型的方法
说话人识别研究中主要采用的特征参数主要 有 : 基 音 周 期 、明 亮 度 、过 零 率 、线 性 预 测 系 数 ( Linear Prediction Coefficients, LPC) 、线性预测倒谱系数( Linear Prediction Cepstral Coefficients, LPCC) 、Mel 频率倒谱系 数( Mel- Frequency Cepstrum Coefficients, MFCC) 、倒谱 特征等[6- 7]。 3.1 LPCC 参数[8]
原理, 从特征提取、模型训 练 和分 类 等 几个 方 面 就近 年 的 主要 研 究 情况 进 行 综述 和 评 价, 并 在 此 基础 上 探 讨了 研 究
难点和发展前景。
【关键词】说话人识别; 特征提取; 模型训练; 分类
【中 图 分 类 号 】 T N912
【文献标识码】A
Sur vey on Speaker Recognition
波器来作预加重处理以突显高频部分, 其传递函数为:
H(
z)
=1-





一般

的值取
0.95
左 右 [5];

3)
取音框,

般 取 256 点 为 一 个 音 框 ( 32 ms) , 音 框 与 音 框 之 间 重
叠128 点( 16 ms) , 即每次位移 128 点后再取 256 点 作
为下一个音框, 这样可避免音框之间的特性变化过于
根据参数的稳定性, 可把说话人特征参数大致分 为两类: 一类是反映说话人生理结构的固有特征( 例如 声道结构等) , 这类特征主要表现在语音的频谱结构 上, 包含了反映声道共振的频谱包络特征信息和反映 声带振动等音源特性的频谱细节构造特征信息, 具有 代表性的特征参数有基音和共振锋, 这类特征不易被 模仿, 但容易受健康状况的影响; 另一类是反映声道运 动的动态特征, 即发音方式、发 音习惯等, 主要表现在 语音频谱结构随时间的变化上, 包含了特征参数的动 态特性, 这类特征相对稳定但比较容易模仿, 代表性的 特征参数是倒谱系数。
有 中 央 消 波 自 相 关 法[12]、平 均 幅 度 差 分 函 数 法 和 倒 谱
法 等[3]。自 相 关 法 的 原 理 是 语 音 的 短 时 自 相 关 函 数 在 基
音周期整数倍点上有很大的峰值, 只要找到最大峰值
点的位置, 便能估计出基音周期。
3.3.2 倒谱特征[3]
语音信号是激励信号源与声道响应相卷积的结
【Key wor ds】speaker recognition; feature extraction; model training; classification
1 引言
说话人识别作为生物认证技术的一种, 是根据语 音波形中反映说话人生理和行为特征的语音参数自动 鉴别说话人身份的一项技术[1]。因此, 需要从各个说话人 的发音中找出说话人之间的个性差异, 这涉及到说话 人发音器官、发音通道和发音习惯之间等不同级别上 的 个 性 差 异 。 说 话 人 识 别 是 交 叉 运 用 心 理 学 、生 理 学 、 语 音 信 号 处 理 、模 式 识 别 、统 计 学 习 理 论 和 人 工 智 能 的 综合性研究课题。
LPCC 是一个比较重要的特征参数, 它能够比较彻 底地去除语音产生过程中的激励信息, 能较好描述语 音信号的共振峰特性。在实际计算中, LPCC 不是由信
"#$电声技术2007 年 第 31 卷 第 1 期
号直接得到的, 而是由 LPC 求得。LPCC 系数 cLp( n) 与
线性预测系数 ai( i=1, 2, …, p) 的关系为
果, 而“倒谱特征”则是利用了对语音信号进 行适当的
同态滤波后, 可将激励信号与声道信号加以分离的原
理。倒谱中维数较低的分量对应于语音信号的声道分
量, 倒谱中维数较高的分量对应于语音信号的音源激
语音技术
Y Vo ic e t e c h n o lo g
励分量。因此, 利用语音信号倒谱可将它们分离, 彼此
号随时间的幅度变化。
语音信号的短时平均幅度定义为

# Mn= x( m) w( n- m)
( 6)
m=- ∞
式( 6) 中用信号绝对值来代替平方和。
3.3.4 短时平均过零率[13]
信号 ! x( n) " 的短时平均过零率定义为

# Zn= sgn[ x( n) ] - sgn[ x( n- 1) ] w( n- m)
一定的相似性准则形成判断。
输入语音 预处理
特性 提取
训练 识别
模型产生 模型存储
相似性准则
判决
图 1 说话人识别系统框图
2.3 预处理[5] 通常, 输入的语音信号都要进行预处理, 预处理过
程的好坏在一定程度上也影响系统的识别效果。一般
! " # 电声技术 2007 年 第 31 卷 第 1 期
语音技术
说话人识别根据实现的任务不同, 可分为说话 人 辨 认 ( speaker identification) 和 说 话 人 确 认 ( speaker verification) 两种类型[2]; 说话人识别根据系统对待识别 语音内容的不同, 又可分为与文本有关( text- dependent) 和与文本无关( text- independent) 两种方式[3]。
基本上互不干扰, 并可避免声道分量受到有随机变化
的音源激励分量的干扰。
3.3.3 短时能量与短时平均幅度[13]
信号 ! x( n) " 的短时能量定义为

#2
En= [ x( m) w( n- m) ]
( 5)
m=- ∞
其中, w( n) 是窗函数, 一般用矩形窗或汉明窗。短时能
量代表的是一个音框语音信号的能量, 可反映语音信
经网络( Artificial Neural Network, ANN) 模型以及支撑
向量机( Support Vector Machine, SVM) [14-18]。
参数模型是指采用某种特定的概率密度函数来
描述说话人的语音特征在特征空间的分布情况, 并以
该概率密度函数的一组参数来作为说话人的模型。
#cLp( 1) =a1
%
n- 1
! $%cLp( n) = k=1
k n
an- k cLp( k) +an,
1<n≤p
( 2)
%
n- 1
相关主题