当前位置:
文档之家› 语音信号处理PPT_第十 十一章_说话人识别 语种识别 语音隐藏
语音信号处理PPT_第十 十一章_说话人识别 语种识别 语音隐藏
识别结果
识别
10.2.4模式匹配方法
1. 2. 3. 4. 5.
概率统计方法 动态时间规整方法(DWT,Dynamic Wraping time) 矢量量化方法(VQ,vector quantization) 隐马尔科夫模型方法(HMM,hidden markov model) 人工神经网络方法(ANN,artifical neural network)
所用特征 倒谱 差值倒谱 基音 差值基音 倒谱与差值倒谱 倒谱、差值倒谱、基音、差值基音 误识率 9.43% 11.81% 74.42% 85.88% 7.93% 2.89%
10.2.3 特征参量评价方法
在给定一种识别方法后,识别的效果主要取决于特征参数的 选取。对于某一维单个的参数而言,可以用F比来表征他在 说话人识别中的有效性。可以选取两种分布的方差之比(F 比)作为有效性准则。
非特定话者基元 HMM
基元HMM生成
训练 语 音 输 入 语音 区间 检测 特征 序列 提取
指定文本输入
阈值设定
文本HMM生成
识别
HMM概率计算
阈值比较
判 定 输 出
图10-7 利用HMM的指定文本型说话人识别系统构造
10.5.3 说话人识别HMM的学习方法
1.仅利用少量的登录说话人学习数据的学习方法
• 应用VQ的说话人识别过程的步骤如下:
1. 训练过程
① ② ③ ④ ① ② 从训练语音提取特征矢量,得到特征矢量集; 通过LBG算法生成码本; 重复训练修正优化码本; 存储码本 从测试语音提取特征矢量序列 由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量 化误差: 1 M Di min[d ( X n , Yl i )] M n 1 1l L i 式中 YL , l 1,2,....L, i 1,2,....N 是第i个码本中第l个码本矢量,而 i 是待测矢量 X n 和码矢量 Yl 之间的距离 选择平均量化误差最小的码本所对应的说话人作为系统的识别结果。
女 男
确认
0
使用人数
图10-3 说话人辨认与确认系统性能与用户数关系
10.3 应用DTW的说话人确认系统
一个应用DTW说话人识别系统如图10-4所示。
语音输入 16BPFG
文本相关
全波整流及积分 A/D转换
对数运算
压缩为4bit频谱特征
特点: 1.在结构上基本沿用 语音识别的系统 2.利用使用过程中的 数据修正原模板
说话人识别中尚需进一步探索的研究课题
2.
实用性的问题
说话人识别系统设计的合理化及优化问题。 如何处理长时和短时说话人的语音波动?如何区别有意 模仿的声音? 说话人识别系统的性能评价问题。 可靠性和经济性。
目前说话人识别的主要研究主要集中在如下几个方面: 1. 语音特征参数的提取和混合 2. HMM模型与其他模型混合,改善说话人识别系统的性能。
说话人识别分类
按其最终完成的任务可以分为两类:
自动说话人确认(简称ASV):确认一个人的身份,只涉及 一个特定的参考模型和待识别模式之间的比较,只做“是” 和“不是”的判决。 自动说话人辨认(简称ASI):必须辨认出待识别的语音是来 自待考察认中的哪一个,有时还要对这个人以外的语音做出 拒绝的判决。
说话人识别 语种识别
语音隐藏
10.8语种辨别的原理和应用
语种辨别(Language Identification )与语音识别 和说话人识别有所不同,它是通过分析处理一个语言片段 以判别其所属语言的语种,本质上也是语音识别的一方面。
10.8.1语种辨别的基本原理和基本方法
世界上的不同语种间有多种区别,比如音素集合、音 位序列、音节结构、韵律特征、词汇分类、语法及语意网 络等,所以在自动语种辨识中有多种可利用的特征。就一 个语种辨识系统的结构而言,则和语音识别及说话人识别 有相似之处,其基本框架结构如图10-9所示。
10.2 说话人识别系统框图
训练 参考模板 识别结果
语音输入
预处理
特征提取
判决
模式匹配
识别
10.2.5 判别方法和阈值的选择
错 误 概 率 误拒率FR
误受率FA
0
a
b
c
判决门限
图10-2 两种错误率与接受门限的关系
10.2.6 说话人识别系统的评价
错误拒绝率FR,错误接受率FA
女
辨认
男
差 错 率
10.2.2特征提取
在理想情况下,选取的特征应当满足下述准则:
能够有效地区分不同的说话人,但又能在同一说话人的语 音发生变化时相对保持稳定。 易于从语音信号中提取 不易被模仿 尽量不随时间和空间变化
10.2.2 特征提取
1. 2. 3. 4.
说话人识别常用参数分类:
线性预测参数及其派生参数(LPC,LPCC) 语音频谱直接导出的参数(MFCC,PLP) 混合参数(Pitch+MFCC, Pitch+LPCC) 其他鲁棒性参数
训练 参考模板 识别结果
语音输入
预处理
特征提取
判决
模式匹配 识别
图10-1 说话人识别系统框图
说话人识别系统框图
训练 参考模板 识别结果
语音输入
预处理
特征提取
判决
模式匹配
识别
10.2.1 预处理
首先对输入语音信号进行数字化,然后进行 端点检测、预加重、加窗、分帧等 和语音识别的区别: 1.抽样频率可能更高。 可以多保留一些说话人的高频信息。 2.帧和帧长选定不同。 应用较长时段语音特征信息以及若干帧范围内 过度特征信息。
说话人识别 语种识别
语音隐藏
刘迪源
10.1概述 10.2说话人识别方法和系统结构 10.3应用DTW的说话人确认系统 10.4应用VQ的说话人识别系统 10.5应用HMM的说话人识别系统 10.6应用GMM的说话人识别系统 10.7说话人识别中尚需进一步探索的研究课题
10.1 概述
自动说话人识别(Automatic Speaker Recognition) 是一种自动识别说话人的过程。说话人识别和语音识 别的区别在于,它不注重包含在语音信号内的文字符 号以及语意内容信息,而是着眼于包含在语音信号中 的个人特征,提取说话人的这些个人信息特征,以达 到识别说话人的目的。
t 1 T t 1 T
T
t
, )X t
t
P(i / X
t T
, )
③ 方差的重估公式:
i2
P(i / X
t 1 t 1
, )( X t i ) 2
t
P(i / X
, )
GMM模型的识别问题
给定一个语音样本,说话人辨认的目的是要确定这个 语音属于N个说话人中的哪一个。基于GMM的说话人 辨认系统结构框图如图10-8所示。
不同说话人特征参数方 差的均值 [ui u]2 i F i 同一说话人特征方差的 均值 [ xa ui ]2 a
其中:
i xa 第i个说话人的第a次话音特征
i图
训练 参考模板
语音输入
预处理
特征提取
判决
模式匹配
说话人识别系统框图
训练 参考模板 识别结果
语音输入
预处理
特征提取
判决
模式匹配
识别
10.2.2 特征提取
个人特征:
1.发音器官的差异(静态特征)
代表性特征参数有倒谱和基音参数
2.发音动作的差异(动态特征)
代表性特征参数是差值倒谱和差值基音 由于基音特征只存在于浊音中,说话人识 别一般采用倒谱特征参数
1 2 3 1
假设输入语音信号矢量的时间序列是
x1 x2 x3
1 f1 ( x)
2 f2 ( x)
2. 识别过程
③
10.5应用HMM的说话人识别系统
10.5.1 基于HMM的与文本有关的说话人识别
训练 语 音 输 入 HMM生成 语音区 间检测 特征序 列提取
HMM概率计算
阈值设定 判 定 输 出
阈值比较
识别 图10-6 利用HMM的与文本有关的说话人识别系统构造
10.5.2 基于HMM的与文本无关的说话人识别
首先利用特定说话人的所有发音数据建立一个和基元类别无关的 话者HMM(与说话人相关的背景模型),然后以此为初始模型,根 据说话人的训练语音内容对个高斯分布的权值进行自适应。
2.利用非特定人语音HMM和登录说话人学习数据的 学习方法
利用大量的非特定人基元HMM和各话者HMM进行组合的方法。
10.6应用GMM的说话人识别系统
字音边带检测
训练 字音特征存储 确认 动态时间匹配
接受 拒绝
判决逻辑
字音积分
图10-4 DTW说话人识别系统
10.4应用VQ的说话人识别系统
VQ码本建立 说话人模型1 . . 说话人模型N 阈值 Ti 训练语音 特征参数提取
测试语音 特征参数提取 说话人1 . . 说话人N 判决
识别结果
图10-5 应用VQ的说话人识别系统
1 P (i ) ,1 i N N
10.7说话人识别中尚需进一步探索的研究课题
1.基础性的课题
关于语音中语意内容和说话人的分离,系统的全面的 进行研究的人还是很少的。 究竟什么特征参数对说话人识别最有效?如何有效的 利用非声道特征? 说话人特征的变化和样本选择问题。 用听觉和视觉的说话人识别研究是用计算机进行说话 人识别的基础。
speaker1 GMM1 语音信号 speaker2 预处理
提取LPC倒谱
识别输出结果
GMM2 speaker N GMMN …