当前位置:文档之家› 6说话人识别

6说话人识别

T i
W ot(i ) μi ot(i ) μi
T t ,i
定义对多维特征矢量的可分性测度——散度 ,即D比为,
D μi μ j W 1 μi μ j D比考虑了特征矢量中各维参量之间的相关性。 i, j
T
Ⅴ说话人识别(16)
GMM-UBM
建模
说话人需要建立自己的模型时,就可以通过 自适应UBM来得到个性特征,即修正后的参 数,从而得到自己的GMM。
GMM-UBM优点 实现信道均衡
P(O | ) P(ot | )
t 1 T
由于似然函数和参数集是很复杂的非线性函数关系, 不易用通常办法找到极大值点,必须引入隐状态来 参与计算,因此这也是一个对“不完全数据”进行 最大似然估计的问题。可采用EM算法来估计。
Ⅴ说话人识别(27)
训练数据落在假定的隐状态 i 的概率 P( qt i ot , ) 则重估公式:
Ⅴ说话人识别(2)
说话人识别的分类
按其识别任务分: 说话人辨认(Speaker Identification ) 判断某段语音是若干人中的哪一个人所说,是“多选 一”问题。又可分为开集和闭集两种。 说话人确认(Speaker Verification ) 确定某段语音是否是指定的某个人所说,是“一对一” 的判别问题。 说话人分割和标注(Speaker Segmentation and Labeling) 将多个说话人的数据分割标定为独立的部分。
M 阶GMM是用M个单高斯分布的线性组合来描述。
Ⅴ说话人识别(25)
GMM参数集
ci , μi , Σi ;(i 1...M )
协方差矩阵常取对角阵
2 Σi diag i20 , i2 ,..., iK 1 1

P (o i, )
k 0 K 1
Ⅴ说话人识别
Ⅴ说话人识别(1)
说话人识别(Speaker Recognition): 又称为话者识别,是指通过对说话人语音 信号的分析处理,自动确认说话人是否在所记 录的话者集合中,以及进一步确认说话人是谁。
为什么能识别说话人?
人与人间在发音器官上存在着差异,例如在声 带和声管形状上的差异; 讲话时发音习惯的差异,包括方言、土语、抑 扬顿挫、常用词汇及讲话上的怪僻语等; 说话人特点以复杂的形式反映在其语音波形中。 使得每个人的语音都带有强烈的个人色彩。
2 ik
P( qt i | ot , )(otk tk ) 2
t 1
T
P( q
t 1
T
t
i | ot , )
Ⅴ说话人识别(29)
开始 给定初始模型的阶数 M 初始化模型参数 0
o 对于每个特征参量t
,计算 p (o t i, ) ,并计算
p ( qt i | ot , )

p(O | n ) p(n ) p(n | O) p(O)
p(O | n ) p(n )
N
p(O |
m 1
m
) p(m )
Ⅴ说话人识别(31)
n* arg max P( n | O )
1 n N
有时简化为
n* arg max P(O | n )
1 n N
λ=λ
用重估公式重估模型参数 λ
收敛否? 是 结束

用 EM 算法估计 GMM 模型参数的流程图
Ⅴ说话人识别(30)
识别问题 对于有N个人的说话人识别系统,其中每个 说话人用一个GMM模型来代表,记为 1 , 2 ,..., N 若观测特征矢量序列为 O {o1 , o2 ,..., oT }
1
平衡点
0.5 0.2
(%)
0.1
高方便性
0.1 0.2 0.5
1
2
5
10
20
40
错 误 接 受 的 概 率 (%)
Ⅴ说话人识别(11)
说话人识别的特征提取

在理想情况下,这些特征应该具有如下特点:

具有很高的区别说话人的能力,能充分体现说话人个 体间的差异,而在说话人本身语音发生变化时保持相 对稳定; 在输入语音受到传输通道和噪声的影响时,能够具有 较好的顽健性(robustness);
易于提取和计算,且在特征的各维参数之间应有良好 的独立性,在保持识别率的情况下,有尽可能少的特 征维数; 不易被模仿。



Ⅴ说话人识别(12)
特征参数的评价方法

评价特征对识别的贡献有两种方法:

通过定义F比和D比,来分别表征单个参数和多维特征 矢量在特征空间中的区分能力,以衡量特征参数的有 效性; 在识别过程中通过增减分量的方法,考察每个特征分 量的贡献。


Ⅴ说话人识别(14)

F比
设:
ot(i ) 为第i个说话人第t次发音得到的特征参数;
i
为对不同说话人求平均;
t
为对说话人的不同次语音求平均;
μ i o t( i ) 为对第i个说话人的特征均值的估值; t
μ μ i i 为对所有说话人均值 μ 总均值的估值。 i
μ i μ i 不同说话人特征各自均值的方差 F 2 同一说话人各次特征的方差的均值 ot( i ) μ i t 采用F比较大的特征一般会得到较好的性能。,i
Ⅴ说话人识别(3)
Ⅴ说话人识别(4)
Ⅴ说话人识别(5)
根据识别对象的不同,还可将说话人识别分为 三类: 与文本有关(Text-Dependent) 与文本无关(Text-Independent) 文本提示型(Text-Prompted)
Ⅴ说话人识别(6)
说话人识别技术有着广阔的应用前景 电话信道罪犯缉拿、法庭中电话录音信息的 身份确认、电话语音跟踪,为用户提供防盗 门开启功能等等。 通信领域,说话人识别技术可以应用于诸如 电话银行、电话购物、数据库访问、信息服 务、安全控制、计算机远程登陆等领域。 呼叫中心应用上,说话人识别技术同样可以 提供更加个性化的人机交互界面。
Ⅴ说话人识别(18)
与文本有关的识别方法
识别时可以同时使用语音信号中的语义特征和
说话人特征,所以即使利用比较短的语料,也 能从中提取出较稳定的说话人特征。
与文本有关的说话人识别方法与语音识别的方
法十分相似,最常用的也是基于DTW的方法 和基于HMM方法。
Ⅴ说话人识别(19)
与文本无关的识别方法
Ⅴ说话人识别(10)
说话人确认系统,则常用两个错误率来表示: 错误拒识率(False rejection,简称FR),错误接 受率(False acceptance,简称FA)。
1 FA FR
错 误 概 率
0
a
c
b
判决门限 图 8-2 说话人确认的判决门限和错误概率的关系
性能评价—DET曲线
40
(ok ik ) 2 exp 2 ik 2 2 ik 1
Ⅴ说话人识别(26)
为说话人建立GMM模型,实际上就是通过训练,估 计GMM模型的参数,常用的方法是最大似然的估计 方法 。 给定训练矢量集 O {o1 , o2 ,..., oT } ,优化的对象是:
ቤተ መጻሕፍቲ ባይዱ
减少错误接受的可 能,提高系统的安 全。但是由于错误 拒绝率高,会给用 户使用带来不便。
错 误 拒 绝 的 概 率
20
DET (Detection Error Tradeoff) 曲线
10
5
高安全性
2
等错误率 (ERR)=1%
对于安全性要求不 高的应用场景,可 以适当提高错误接 受率,使得用户容 易进入系统。

Ⅴ说话人识别(24)
GMM本质上是一种多维概率密度函数 M 阶GMM的概率密度函数如下:
P(o ) P(o, i ) ci P(o i, )
M M i 1 i 1

c
i 1
M
i
1
(o μ i )T Σi1 (o μ i ) P(o i, ) N (o,μ i ,Σi ) exp K 1 2 2 2 (2 ) Σi 1
Ⅴ说话人识别(9)
性能的评价 评价说话人识别系统性能的指标有很多,例如 系统的识别率,训练时间的长短和训练语料的 数量、识别响应时间、话者集规模、说话方式 要求以及价格等 。 比如说,声控门锁识别响应时间要求很严格, 但可获得充足的训练语料。司法鉴定,对识别 响应时间的要求可以相对放松,但训练数据的 充足性无法保证。 说话人辨认系统常用的是识别率,以及错误率 (误识率)。
Ⅴ说话人识别(7)
说话人识别的基本原理
训练 输入语音 特征提取 测试 图 8-1
说话人 模型
匹配计算 说话人识别系统原理图
判决
识别 结果
Ⅴ说话人识别(8)
几个问题 1)语音信号的预处理和特征提取。即提取能够 有效表征说话人特征的参数。 2)说话人模型的建立和模型参数的训练。 3)测试语音与说话人模型的匹配计算。 4)识别与判决策略。即根据匹配计算的结果, 采用某种判决准则判定说话人是否是所声称的 说话人(说话人确认)或说话人到底是谁(说 话人辨认)。
传统的有:基于VQ的方法;基于HMM的方法; 基于人工神经网络的方法,以及基于语音识别 的方法等。
基于VQ的方法
把每个待识别说话人的语音看作一个信号源, 用一个码本来表征,码本是从该说话人的训练 语音序列中提取的特征矢量聚类而成。 对于N个人的系统,就需建立N个码本。
Ⅴ说话人识别(23)
近 年 来 , 高 斯 混 合 模 型 ( Gaussian Mixture Model,简称GMM)的方法受到了研究者的普 遍重视。 它的数学模型实质上对应于一个状态的连续 HMM。 但它不像HMM那样通过状态转移概率约束声学 特征类的时序变化,所以GMM比HMM的计算 量要小得多。
相关主题