最新语音声纹识别技术及应用
语音声纹识别技术及应用
37
实际HMM系统的具体问题
起始概率的问题
转移概率的问题
模型的自适应 区别性训练
语音声纹识别技术及应用
38
起始概率的问题
自左向右结构的HMM,起始概率为:
[1, 0, 0, … 0]
即:只能从第一个状态开始
语音声纹识别技术及应用
39
转移概率的问题
大量实验证明:转移概率对识别性能的影
主要内容
声音处理技术 语音识别技术 声纹识别技术 技术演示
语音声纹识别技术及应用
12
语音识别
Automatic Speech Recognition (ASR)
的中文含意是自动语音识别。语音识别技 术的目标是让机器能够“听懂”不同人说 的话,实现从声音到文字的转换。
语音声纹识别技术及应用
13
a11 a22 a33 a44
b j o c jl N o, jl ,U jl
M l 1
S1
a12
S2
a23
S3
a34
S4
b1(.)
b2(.)
b3(.)
b4(.)
语音声纹识别技术及应用
33
连续HMM参数重估(1)
需要重估的参数:
• • • •
起始概率 转移概率 各状态中不同pdf的权 各状态中不同pdf的均值和方差
6
参数提取的预处理
预加重: y n x n x n 1
0.9 1.0
—减少尖锐噪声影响,提升高频部分
加窗:Hamming 2 n
w n 0.54 0.46cos N 1 —减少Gibbs效应
0n N
响是微不足道的 训练过程中,常常将其设定为常数: aij=0.5 识别过程中,不进行log(aij)的累加 仅考虑bi(.)的作用
语音声纹识别技术及应用
40
模型的自适应(1)
自适应的必要性
• 口音 • 感冒...
MAP自适应算法
• MAP: 最大后验概率准则 • 本质上是重新训练一次,对原B矩阵进行微调 • 特点:简单,对每个HMM单独自适应,只需 一次发音
语音声纹识别技术及应用
30
模型训练问题(如何求:A、B、π) Baum-Welch参数重估算法:
语音声纹识别技术及应用
31
连续HMM算法
连续的含义
参数重估
识别算法
语音声纹识别技术及应用
32
“连续”的含义
连续混合高斯概率密度函数(pdf):
• 每个状态表示为若干函数fn(x)的线性组合 • fn(x)是连续高斯概率密度函数
语音声纹识别技术及应用
声音处理
获取声音
● 获得CD中的声音 如果希望把音乐CD中的歌曲或乐曲作为素材,需要把这些歌曲或乐曲转 换成计算机能够处理的数字化声音,这就是“采样”。可以使用Easy CDDA Extractor、CoolEdit等音频处理软件对音频进行编辑和处理。 ● 录音 要录制音质好的声音,有两个途径:使用性能优良的录音设备;采用较高 的采样频率。可以使用Windows系统自带的“录音机”进行录音。 ● 声音转换
B f 1125ln 1 f / 700
f -- 频率
频率-Mel-频率:
B -- Mel-频率
语音声纹识别技术及应用
Mel频 率 频率(Hz)
10
MFCC
计算流程:
时域信号
线性谱域
DFT
Mel 滤波器组
Mel
谱 域
MFCC
对数谱域
DCT
Log
语音声纹识别技术及应用
11
识别单元是词,判断输入语音中是否含有词表中的词 优点:能够处理连续语音,词表可定制 缺点:速度较慢,词表越大,错误率越多 应用案例:电话呼叫服务,电话安全监听
连续语音识别
识别单元可以是字,词或者句子 优点:应用范围广 缺点:速度慢,识别率不高,尤其是词表较大的时候 应用案例:语音翻译,语音短信,听写机,语音邮件
语音声纹识别技术及应用
27
最佳路径问题(如何求:Q=q1q2…qT)
Viterbi算法的搜索空间
语音声纹识别技术及应用
<
― 状 态 ―
―时间―>
28
Viterbi识别算法和路径回溯
语音声纹识别技术及应用
29
模型训练问题(如何求:A、B、π)
优化问题
优化目标:P(O|λ)最大 Lagrange数乘法,辅助函数:
语音声纹识别技术及应用
8
Mel-频率
目的:模拟人耳对不同频率语音的感知 人类对不同频率语音有不同的感知能力 • 1kHz以下,与频率成线性关系 • 1kHz以上,与频率成对数关系
Mel频率定义 • 1Mel—1kHz音调感知程度的1/1000
语音声纹识别技术及应用
9
Mel-频率
公式:
语音声纹识别技术ቤተ መጻሕፍቲ ባይዱ应用
24
模型评估问题(如何求:P(O|λ))
前向概率
t i Po1o2 ot , qt i |
给定HMM参数 ,在t时刻处于状态i,部分观 察序列为{o1o2…ot} 的概率
后向概率
t i Pot 1ot 2 oT , qt i |
• 对数 • 平方和 • 绝对值
E log x(i ) 2
N
E x(i ) 2 E x(i )
i 1 i 1 N
i 1 N
过零率(ZCR)
1 N 1 Z sgn sw (n) sgn sw (n 1) 2 n1
语音声纹识别技术及应用
采样率,8kHz(电话或手机),16kHz(麦克风)
时域,频域
端点检测,静音检测或有效音检测(VAD)
语音声纹识别技术及应用
15
语音识别—分类
孤立词识别
识别单元是有限的,单个的词; 优点:速度快,识别正确率高 缺点:应用范围窄,不能识别词表外的词 应用案例:语音命令,手机语音拨号
关键词识别
● 音质
对于数字音频信号,音质的好坏与数据采样频率和数据位数有关。 音质与声音还原设备有关。 音质与信号噪声比(SNR)有关。
语音声纹识别技术及应用
声音处理
● 文件
数字化的音频文件主要分为4类: 波形音频文件。一种最直接的表达声波的数字形式,文件扩展名是“.wav” 。 MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件,扩展名 是“.mid”。 CD-DA音频文件。标准激光盘文件,扩展名是“.cda”。 压缩音频文件。在数字音频领域,一种MP3格式的压缩音频文件很流行,该 格式的文件简称MP3文件。
语音声纹识别技术及应用
43
中文语音识别的特点
相对于西方语言来说,中文有自己的独特之处。中
a11 a22 a33 a44
观测可见,状态隐含 基本要素 N --- 模型状态数
S1 a12 S2
a23
S3
a34
S4
π={πi} --- 初始概率分布 A={aij} --- 状态转移矩阵 B={bj(k)} --- 输出概率矩阵
o1 o2 o3 o4 ………… t oT
语音声纹识别技术及应用
语音声纹识别技术及应用
41
模型的自适应(2)
MLLR算法
• MLLR:最大似然线性回归 • 本质:将原模型的参数进行线性变换后再进 行识别 • 特点:少量语音可以对所有模型进行自适应 ,只要得到线性变换矩阵即可
语音声纹识别技术及应用
42
区别性训练
传统HMM训练算法的缺陷
MCE算法
• MCE:最小分类误差准则 • 使用场合:小词表识别系统 • 需要细致调整算法参数,才能保证收敛
语音声纹识别技术及应用
7
各种参数的比较
Linear Prediction Cepstrum Coefficients (LPCC)
• 假定所处理信号为自回归信号(不适用辅音); • 计算简单,但抗噪性差。 Mel-Frequency Cepstrum Coefficients (MFCC) • 模拟人的听觉模型; • 强调低频部分,屏蔽噪声影响; • 识别率高,但计算量大。 能量 • 辅助作用,需归一化。 音调 • 对算法要求高,适于二次判别。
给定HMM参数 ,在t时刻处于状态i,部分观 察序列为{ot+1ot+2…oT} 的概率
语音声纹识别技术及应用
25
模型评估问题(如何求:P(O|λ))
前向和后向递推的示意图
语音声纹识别技术及应用
26
最佳路径问题(如何求:Q=q1q2…qT)
前向-后向算法的缺点
• 计算量的浪费 • 状态路径不能明确判定 Viterbi算法 • 不完全的状态空间搜索 • 保留状态转移路径的信息
声学特征(MFCC) 解码(Viterbi)
语音声纹识别技术及应用
14
语音识别—基本术语
识别指标: • SER(Sentence Error Rate,句子错误率) • WER(Word Error Rate,词错误率) • CER(Character Error Rate,字错误率) • PER(Phone Error Rate,音节错误率)
a11 a22 a33 a44
S1
a12
S2
a23
S3
a34
S4
b1(.)
b2(.)
b3(.)
b4(.)
语音声纹识别技术及应用
23