当前位置：文档之家› 最新语音声纹识别技术及应用

最新语音声纹识别技术及应用

语音声纹识别技术及应用
37
实际HMM系统的具体问题
起始概率的问题
转移概率的问题
模型的自适应区别性训练
语音声纹识别技术及应用
38
起始概率的问题
自左向右结构的HMM，起始概率为：
[1, 0, 0, … 0]
即：只能从第一个状态开始
语音声纹识别技术及应用
39
转移概率的问题
大量实验证明：转移概率对识别性能的影
主要内容
声音处理技术语音识别技术声纹识别技术技术演示
语音声纹识别技术及应用
12
语音识别
Automatic Speech Recognition (ASR)
的中文含意是自动语音识别。语音识别技术的目标是让机器能够“听懂”不同人说的话，实现从声音到文字的转换。
语音声纹识别技术及应用
13
a11 a22 a33 a44
b j o c jl N o, jl ,U jl
M l 1
S1
a12
S2
a23
S3
a34
S4
b1(.)
b2(.)
b3(.)
b4(.)
语音声纹识别技术及应用
33
连续HMM参数重估(1)
需要重估的参数：
• • • •
起始概率转移概率各状态中不同pdf的权各状态中不同pdf的均值和方差
6
参数提取的预处理
预加重： y n x n x n 1
0.9 1.0
—减少尖锐噪声影响，提升高频部分
加窗：Hamming 2 n
w n 0.54 0.46cos N 1 —减少Gibbs效应
0n N
响是微不足道的训练过程中，常常将其设定为常数： aij=0.5 识别过程中，不进行log(aij)的累加仅考虑bi(.)的作用
语音声纹识别技术及应用
40
模型的自适应(1)
自适应的必要性
• 口音 • 感冒...
MAP自适应算法
• MAP: 最大后验概率准则 • 本质上是重新训练一次，对原B矩阵进行微调 • 特点：简单，对每个HMM单独自适应，只需一次发音
语音声纹识别技术及应用
30
模型训练问题(如何求：A、B、π) Baum-Welch参数重估算法：
语音声纹识别技术及应用
31
连续HMM算法
连续的含义
参数重估
识别算法
语音声纹识别技术及应用
32
“连续”的含义
连续混合高斯概率密度函数(pdf):
• 每个状态表示为若干函数fn(x)的线性组合 • fn(x)是连续高斯概率密度函数
语音声纹识别技术及应用
声音处理
获取声音
● 获得CD中的声音如果希望把音乐CD中的歌曲或乐曲作为素材，需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音，这就是“采样”。可以使用Easy CDDA Extractor、CoolEdit等音频处理软件对音频进行编辑和处理。 ● 录音要录制音质好的声音，有两个途径：使用性能优良的录音设备；采用较高的采样频率。可以使用Windows系统自带的“录音机”进行录音。 ● 声音转换
B f 1125ln 1 f / 700
f -- 频率
频率－Mel-频率：
B -- Mel-频率
语音声纹识别技术及应用
Mel频率频率(Hz)
10
MFCC
计算流程：
时域信号
线性谱域
DFT
Mel 滤波器组
Mel
谱域
MFCC
对数谱域
DCT
Log
语音声纹识别技术及应用
11
识别单元是词，判断输入语音中是否含有词表中的词优点：能够处理连续语音，词表可定制缺点：速度较慢，词表越大，错误率越多应用案例：电话呼叫服务，电话安全监听
连续语音识别
识别单元可以是字，词或者句子优点：应用范围广缺点：速度慢，识别率不高，尤其是词表较大的时候应用案例：语音翻译，语音短信，听写机，语音邮件
语音声纹识别技术及应用
27
最佳路径问题(如何求：Q=q1q2…qT)
Viterbi算法的搜索空间
语音声纹识别技术及应用
<
― 状态 ―
―时间―>
28
Viterbi识别算法和路径回溯
语音声纹识别技术及应用
29
模型训练问题(如何求：A、B、π)
优化问题
优化目标：P(O|λ)最大 Lagrange数乘法，辅助函数：
语音声纹识别技术及应用
8
Mel-频率
目的：模拟人耳对不同频率语音的感知人类对不同频率语音有不同的感知能力 • 1kHz以下，与频率成线性关系 • 1kHz以上，与频率成对数关系
Mel频率定义 • 1Mel—1kHz音调感知程度的1/1000
语音声纹识别技术及应用
9
Mel-频率
公式：
语音声纹识别技术ቤተ መጻሕፍቲ ባይዱ应用
24
模型评估问题(如何求：P(O|λ))
前向概率
t i Po1o2 ot , qt i |
给定HMM参数，在t时刻处于状态i，部分观察序列为{o1o2…ot} 的概率
后向概率
t i Pot 1ot 2 oT , qt i |
• 对数 • 平方和 • 绝对值
E log x(i ) 2
N
E x(i ) 2 E x(i )
i 1 i 1 N
i 1 N
过零率(ZCR)
1 N 1 Z sgn sw (n) sgn sw (n 1) 2 n1
语音声纹识别技术及应用
采样率，8kHz（电话或手机），16kHz（麦克风）
时域，频域
端点检测，静音检测或有效音检测（VAD）
语音声纹识别技术及应用
15
语音识别—分类
孤立词识别
识别单元是有限的，单个的词；优点：速度快，识别正确率高缺点：应用范围窄，不能识别词表外的词应用案例：语音命令，手机语音拨号
关键词识别
● 音质
对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。音质与声音还原设备有关。音质与信号噪声比(SNR)有关。
语音声纹识别技术及应用
声音处理
● 文件
数字化的音频文件主要分为4类：波形音频文件。一种最直接的表达声波的数字形式，文件扩展名是“.wav” 。 MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件，扩展名是“.mid”。 CD-DA音频文件。标准激光盘文件，扩展名是“.cda”。压缩音频文件。在数字音频领域，一种MP3格式的压缩音频文件很流行，该格式的文件简称MP3文件。
语音声纹识别技术及应用
43
中文语音识别的特点
相对于西方语言来说，中文有自己的独特之处。中
a11 a22 a33 a44
观测可见，状态隐含基本要素 N --- 模型状态数
S1 a12 S2
a23
S3
a34
S4
π={πi} --- 初始概率分布 A={aij} --- 状态转移矩阵 B={bj(k)} --- 输出概率矩阵
o1 o2 o3 o4 ………… t oT
语音声纹识别技术及应用
语音声纹识别技术及应用
41
模型的自适应(2)
MLLR算法
• MLLR：最大似然线性回归 • 本质：将原模型的参数进行线性变换后再进行识别 • 特点：少量语音可以对所有模型进行自适应，只要得到线性变换矩阵即可
语音声纹识别技术及应用
42
区别性训练
传统HMM训练算法的缺陷
MCE算法
• MCE：最小分类误差准则 • 使用场合：小词表识别系统 • 需要细致调整算法参数，才能保证收敛
语音声纹识别技术及应用
7
各种参数的比较
Linear Prediction Cepstrum Coefficients (LPCC)
• 假定所处理信号为自回归信号（不适用辅音）； • 计算简单，但抗噪性差。 Mel-Frequency Cepstrum Coefficients (MFCC) • 模拟人的听觉模型； • 强调低频部分，屏蔽噪声影响； • 识别率高，但计算量大。能量 • 辅助作用，需归一化。音调 • 对算法要求高，适于二次判别。
给定HMM参数，在t时刻处于状态i，部分观察序列为{ot+1ot+2…oT} 的概率
语音声纹识别技术及应用
25
模型评估问题(如何求：P(O|λ))
前向和后向递推的示意图
语音声纹识别技术及应用
26
最佳路径问题(如何求：Q=q1q2…qT)
前向－后向算法的缺点
• 计算量的浪费 • 状态路径不能明确判定 Viterbi算法 • 不完全的状态空间搜索 • 保留状态转移路径的信息
声学特征（MFCC）解码（Viterbi）
语音声纹识别技术及应用
14
语音识别—基本术语
识别指标： • SER（Sentence Error Rate，句子错误率） • WER（Word Error Rate，词错误率） • CER（Character Error Rate，字错误率） • PER（Phone Error Rate，音节错误率）
a11 a22 a33 a44
S1
a12
S2
a23
S3
a34
S4
b1(.)
b2(.)
b3(.)
b4(.)
语音声纹识别技术及应用
23

e商务文档

最新语音声纹识别技术及应用

相关文档推荐：