当前位置：文档之家› 6说话人识别

6说话人识别

T i
W ot(i ) μi ot(i ) μi
T t ,i
定义对多维特征矢量的可分性测度——散度，即D比为，
D μi μ j W 1 μi μ j D比考虑了特征矢量中各维参量之间的相关性。 i, j
T
Ⅴ说话人识别（16）
GMM-UBM
建模
说话人需要建立自己的模型时，就可以通过自适应UBM来得到个性特征，即修正后的参数，从而得到自己的GMM。
GMM-UBM优点实现信道均衡
P(O | ) P(ot | )
t 1 T
由于似然函数和参数集是很复杂的非线性函数关系，不易用通常办法找到极大值点，必须引入隐状态来参与计算，因此这也是一个对“不完全数据”进行最大似然估计的问题。可采用EM算法来估计。
Ⅴ说话人识别（27）
训练数据落在假定的隐状态 i 的概率 P( qt i ot , ) 则重估公式：
Ⅴ说话人识别（2）
说话人识别的分类
按其识别任务分: 说话人辨认（Speaker Identification ）判断某段语音是若干人中的哪一个人所说，是“多选一”问题。又可分为开集和闭集两种。说话人确认（Speaker Verification ）确定某段语音是否是指定的某个人所说，是“一对一” 的判别问题。说话人分割和标注（Speaker Segmentation and Labeling）将多个说话人的数据分割标定为独立的部分。
M 阶GMM是用M个单高斯分布的线性组合来描述。
Ⅴ说话人识别（25）
GMM参数集
ci , μi , Σi ;(i 1...M )
协方差矩阵常取对角阵
2 Σi diag i20 , i2 ,..., iK 1 1
则
P (o i, )
k 0 K 1
Ⅴ说话人识别
Ⅴ说话人识别（1）
说话人识别（Speaker Recognition）：又称为话者识别，是指通过对说话人语音信号的分析处理，自动确认说话人是否在所记录的话者集合中，以及进一步确认说话人是谁。
为什么能识别说话人？
人与人间在发音器官上存在着差异，例如在声带和声管形状上的差异；讲话时发音习惯的差异，包括方言、土语、抑扬顿挫、常用词汇及讲话上的怪僻语等；说话人特点以复杂的形式反映在其语音波形中。使得每个人的语音都带有强烈的个人色彩。
2 ik
P( qt i | ot , )(otk tk ) 2
t 1
T
P( q
t 1
T
t
i | ot , )
Ⅴ说话人识别（29）
开始给定初始模型的阶数 M 初始化模型参数 0
o 对于每个特征参量t
，计算 p (o t i, ) ，并计算
p ( qt i | ot , )

p(O | n ) p(n ) p(n | O) p(O)
p(O | n ) p(n )
N
p(O |
m 1
m
) p(m )
Ⅴ说话人识别（31）
n* arg max P( n | O )
1 n N
有时简化为
n* arg max P(O | n )
1 n N
λ=λ
用重估公式重估模型参数 λ
收敛否? 是结束
否
用 EM 算法估计 GMM 模型参数的流程图
Ⅴ说话人识别（30）
识别问题对于有N个人的说话人识别系统，其中每个说话人用一个GMM模型来代表，记为 1 , 2 ,..., N 若观测特征矢量序列为 O {o1 , o2 ,..., oT }
1
平衡点
0.5 0.2
(%)
0.1
高方便性
0.1 0.2 0.5
1
2
5
10
20
40
错误接受的概率 (%)
Ⅴ说话人识别（11）
说话人识别的特征提取

在理想情况下，这些特征应该具有如下特点：

具有很高的区别说话人的能力，能充分体现说话人个体间的差异，而在说话人本身语音发生变化时保持相对稳定；在输入语音受到传输通道和噪声的影响时，能够具有较好的顽健性（robustness）；
易于提取和计算，且在特征的各维参数之间应有良好的独立性，在保持识别率的情况下，有尽可能少的特征维数；不易被模仿。

Ⅴ说话人识别（12）
特征参数的评价方法

评价特征对识别的贡献有两种方法：

通过定义F比和D比，来分别表征单个参数和多维特征矢量在特征空间中的区分能力，以衡量特征参数的有效性；在识别过程中通过增减分量的方法，考察每个特征分量的贡献。

Ⅴ说话人识别（14）

F比
设：
ot(i ) 为第i个说话人第t次发音得到的特征参数；
i
为对不同说话人求平均；
t
为对说话人的不同次语音求平均；
μ i o t( i ) 为对第i个说话人的特征均值的估值； t
μ μ i i 为对所有说话人均值 μ 总均值的估值。 i
μ i μ i 不同说话人特征各自均值的方差 F 2 同一说话人各次特征的方差的均值 ot( i ) μ i t 采用F比较大的特征一般会得到较好的性能。,i
Ⅴ说话人识别（3）
Ⅴ说话人识别（4）
Ⅴ说话人识别（5）
根据识别对象的不同，还可将说话人识别分为三类：与文本有关(Text-Dependent) 与文本无关(Text-Independent) 文本提示型(Text-Prompted)
Ⅴ说话人识别（6）
说话人识别技术有着广阔的应用前景电话信道罪犯缉拿、法庭中电话录音信息的身份确认、电话语音跟踪，为用户提供防盗门开启功能等等。通信领域，说话人识别技术可以应用于诸如电话银行、电话购物、数据库访问、信息服务、安全控制、计算机远程登陆等领域。呼叫中心应用上，说话人识别技术同样可以提供更加个性化的人机交互界面。
Ⅴ说话人识别（18）
与文本有关的识别方法
识别时可以同时使用语音信号中的语义特征和
说话人特征，所以即使利用比较短的语料，也能从中提取出较稳定的说话人特征。
与文本有关的说话人识别方法与语音识别的方
法十分相似，最常用的也是基于DTW的方法和基于HMM方法。
Ⅴ说话人识别（19）
与文本无关的识别方法
Ⅴ说话人识别（10）
说话人确认系统，则常用两个错误率来表示：错误拒识率(False rejection，简称FR)，错误接受率(False acceptance，简称FA)。
1 FA FR
错误概率
0
a
c
b
判决门限图 8-2 说话人确认的判决门限和错误概率的关系
性能评价—DET曲线
40
(ok ik ) 2 exp 2 ik 2 2 ik 1
Ⅴ说话人识别（26）
为说话人建立GMM模型，实际上就是通过训练，估计GMM模型的参数，常用的方法是最大似然的估计方法。给定训练矢量集 O {o1 , o2 ,..., oT } ，优化的对象是：
ቤተ መጻሕፍቲ ባይዱ
减少错误接受的可能，提高系统的安全。但是由于错误拒绝率高，会给用户使用带来不便。
错误拒绝的概率
20
DET (Detection Error Tradeoff) 曲线
10
5
高安全性
2
等错误率 (ERR)=1%
对于安全性要求不高的应用场景，可以适当提高错误接受率，使得用户容易进入系统。

Ⅴ说话人识别（24）
GMM本质上是一种多维概率密度函数 M 阶GMM的概率密度函数如下：
P(o ) P(o, i ) ci P(o i, )
M M i 1 i 1
有
c
i 1
M
i
1
(o μ i )T Σi1 (o μ i ) P(o i, ) N (o,μ i ,Σi ) exp K 1 2 2 2 (2 ) Σi 1
Ⅴ说话人识别（9）
性能的评价评价说话人识别系统性能的指标有很多，例如系统的识别率，训练时间的长短和训练语料的数量、识别响应时间、话者集规模、说话方式要求以及价格等。比如说，声控门锁识别响应时间要求很严格，但可获得充足的训练语料。司法鉴定，对识别响应时间的要求可以相对放松，但训练数据的充足性无法保证。说话人辨认系统常用的是识别率，以及错误率（误识率）。
Ⅴ说话人识别（7）
说话人识别的基本原理
训练输入语音特征提取测试图 8-1
说话人模型
匹配计算说话人识别系统原理图
判决
识别结果
Ⅴ说话人识别（8）
几个问题 1）语音信号的预处理和特征提取。即提取能够有效表征说话人特征的参数。 2）说话人模型的建立和模型参数的训练。 3）测试语音与说话人模型的匹配计算。 4）识别与判决策略。即根据匹配计算的结果，采用某种判决准则判定说话人是否是所声称的说话人（说话人确认）或说话人到底是谁（说话人辨认）。
传统的有：基于VQ的方法；基于HMM的方法；基于人工神经网络的方法，以及基于语音识别的方法等。
基于VQ的方法
把每个待识别说话人的语音看作一个信号源，用一个码本来表征，码本是从该说话人的训练语音序列中提取的特征矢量聚类而成。对于N个人的系统，就需建立N个码本。
Ⅴ说话人识别（23）
近年来，高斯混合模型（ Gaussian Mixture Model，简称GMM）的方法受到了研究者的普遍重视。它的数学模型实质上对应于一个状态的连续 HMM。但它不像HMM那样通过状态转移概率约束声学特征类的时序变化，所以GMM比HMM的计算量要小得多。

e商务文档

6说话人识别

相关文档推荐：