当前位置:文档之家› 语音声纹识别技术及应用

语音声纹识别技术及应用


语音听写
语音搜索
语音翻译
语音声纹识别技术及应用
18
语音识别系统框架
语音
特征提取
训练
语法
模式匹配
拒识
结果
模型
说话人自适应
语音声纹识别技术及应用
19
语音识别过程
语音声纹识别技术及应用
20
HMM基础(1)
隐含Markov模型
a11
a22
a33
a44
观测可见,状态隐含
基本要素
N --- 模型状态数
给定HMM参数 ,在t时刻处于状态i,部分观 察序列为{o1o2…ot} 的概率
后向概率 t i P ot1ot2 oT , qt i |
给定HMM参数 ,在t时刻处于状态i,部分观
察序列为{ot+1ot+2…oT} 的概率
语音声纹识别技术及应用
25
模型评估问题(如何求:P(O|λ)) 前向和后向递推的示意图
A


0
a22 a23
0

0

0
0 0
a33 0
a34 a44

语音声纹识别技术及应用
22
HMM基础(3)
输出概率
bi(x) x属于状态i的概率
a11
a22
a33
a44
a12 S1
a23 S2
S3
a34
S4
b1(.)
b2(.)
b3(.)
b4(.)
语音声纹识别技术及应用
t时刻序列处于状态j、混合高斯密度l的概 率
语音声纹识别技术及应用
35
连续HMM参数重估(3)
pdf的无溢出参数重估公式
语音声纹识别技术及应用
36
识别算法
概率计算: P(O|λ) Viterbi算法
• 对数形式 • 与离散HMM相似,只需替换bjl(x)
语音声纹识别技术及应用
37
实际HMM系统的具体问题
预加重:
yn xn xn 1 0.9 1.0
—减少尖锐噪声影响,提升高频部分

加窗:wnH a0.m54 m0.4i6ncogs
2 n N 1
—减少Gibbs效应
0nN
语音声纹识别技术及应用
7
各种参数的比较
Linear Prediction Cepstrum Coefficients (LPCC)
语音声纹识别技术及应用
8
Mel-频率
目的:模拟人耳对不同频率语音的感知
人类对不同频率语音有不同的感知能力
• 1kHz以下,与频率成线性关系 • 1kHz以上,与频率成对数关系
Mel频率定义
• 1Mel—1kHz音调感知程度的1/1000
语音声纹识别技术及应用
9
Mel-频率
公式: B f 1125ln 1 f / 700
短时能量 N
• 对数
E log x(i)2 i 1
N
• 平方和
E x(i)2 i 1
• 绝对值
N
E x(i)
i 1
过零率(ZCR)
Z

1 2
N 1 n1
sgnsw (n)
sgnsw (n
1)

语音声纹识别技术及应用
6
参数提取的预处理
识别单元是词,判断输入语音中是否含有词表中的词 优点:能够处理连续语音,词表可定制 缺点:速度较慢,词表越大,错误率越多 应用案例:电话呼叫服务,电话安全监听
连续语音识别
识别单元可以是字,词或者句子 优点:应用范围广 缺点:速度慢,识别率不高,尤其是词表较大的时候 应用案例:语音翻译,语音短信,听写机,语音邮件
训练过程中,常常将其设定为常数: aij=0.5
识别过程中,不进行log(aij)的累加 仅考虑bi(.)的作用
语音声纹识别技术及应用
40
模型的自适应(1)
自适应的必要性
• 口音 • 感冒...
MAP自适应算法
• MAP: 最大后验概率准则 • 本质上是重新训练一次,对原B矩阵进行微调 • 特点:简单,对每个HMM单独自适应,只需
a12 S1
a23 S2
S3
a34
S4
π={πi} --- 初始概率分布
A={aij} --- 状态转移矩阵
B={bj(k)} --- 输出概率矩阵
o1 o2 o3 o4 …………
t
oT
语音声纹识别技术及应用
21
HMM基础(2)
转移概率矩阵
aij-状态i到状态j发生跳转的概率
a11 a12 0 0
<
― 状 态 ―
―时间―>
语音声纹识别技术及应用
28
Байду номын сангаас
Viterbi识别算法和路径回溯
语音声纹识别技术及应用
29
模型训练问题(如何求:A、B、π)
优化问题
优化目标:P(O|λ)最大 Lagrange数乘法,辅助函数:
语音声纹识别技术及应用
30
模型训练问题(如何求:A、B、π) Baum-Welch参数重估算法:
● 声音转换
声音的转换只能从高质量向低质量进行,声音的转换不需要专门的软件, 使用Windows的“录音机”转换即可,并且转换功能很强。
如果要进一步处理,可采用CoolEdit(Adobe Audition)工具软件。
语音声纹识别技术及应用
短时能量和过零率
语音分帧
每帧10-30ms, 帧间隔10ms
23
HMM基础(4)
HMM的三个基本问题
- 模型评估问题(如何求:P(O|λ)) - 最佳路径问题(如何求:Q=q1q2…qT) - 模型训练问题(如何求:A、B、π)
语音声纹识别技术及应用
24
模型评估问题(如何求:P(O|λ))
前向概率
t i Po1o2 ot , qt i |
采样率,8kHz(电话或手机),16kHz(麦克风) 时域,频域 端点检测,静音检测或有效音检测(VAD)
语音声纹识别技术及应用
15
语音识别—分类
孤立词识别
识别单元是有限的,单个的词; 优点:速度快,识别正确率高 缺点:应用范围窄,不能识别词表外的词 应用案例:语音命令,手机语音拨号
关键词识别
f -- 频率 B -- Mel-频率
频率-Mel-频率:
频 率
频率(Hz)
语音声纹识别技术及应用
10
Mel-
MFCC
计算流程:
时域信号 MFCC
DFT
线性谱域
Mel
滤波器组
Mel
DCT
对数谱域
谱 域
Log
语音声纹识别技术及应用
11
主要内容
声音处理技术 语音识别技术 声纹识别技术 技术演示
● 音质
对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。 音质与声音还原设备有关。 音质与信号噪声比(SNR)有关。
语音声纹识别技术及应用
声音处理
● 文件
数字化的音频文件主要分为4类: 波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“.wav” 。MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名 是“.mid”。 CD-DA音频文件。标准激光盘文件,扩展名是“.cda”。 压缩音频文件。在数字音频领域,一种MP3格式的压缩音频文件很流行,该 格式的文件简称MP3文件。
• MCE:最小分类误差准则 • 使用场合:小词表识别系统 • 需要细致调整算法参数,才能保证收敛
语音声纹识别技术及应用
43
中文语音识别的特点
相对于西方语言来说,中文有自己的独特之处。中 文是有调语言,发音的基本单元是声母和韵母并且 以音节为自然单位,一个音节就是一个字甚至词, 以至字词的时长很短,混淆度更大。
80年代-HMM模型和人工神经元网络(ANN)在语音识别中 成 功 应 用 。 1988 年 美 国 CMU 大 学 基 于 VQ/HMM 开 发 SICSR系统 SPHINX。
90年代-大规模应用,工业标准,理论进展缓慢。
语音声纹识别技术及应用
17
语音识别—潜在应用
语音监听
语音拨号
语音导航
语音命令
语音声纹识别技术及应用
主要内容
声音处理技术 语音识别技术 声纹识别技术 技术演示
语音声纹识别技术及应用
2
声音处理
● 声音的三要素
声音的三要素是音调、音色和音强 音调代表声音的高低,与频率有关。频率越高,音调越高,反之亦然。 音色是声音的特色。影响声音特色的主要因素是复音,即具有不同频率和 不同振幅的混合声音。 音强是声音的强度,也被称为声音的强度。音强与声波的振幅成正比,振 幅越大,强度越大。
语音声纹识别技术及应用
31
连续HMM算法
连续的含义 参数重估 识别算法
语音声纹识别技术及应用
32
“连续”的含义
连续混合高斯概率密度函数(pdf):
• 每个状态表示为若干函数fn(x)的线性组合 • fn(x)是连续高斯概率密度函数
a11
a22
a33
a44
M
bj o c jl N o, jl ,U jl
语音声纹识别技术及应用
声音处理
获取声音
● 获得CD中的声音
如果希望把音乐CD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转 换成计算机能够处理的数字化声音,这就是“采样”。可以使用Easy CDDA Extractor、CoolEdit等音频处理软件对音频进行编辑和处理。
相关主题