当前位置：文档之家› 语音声纹识别技术及应用

语音声纹识别技术及应用

语音听写
语音搜索
语音翻译
语音声纹识别技术及应用
18
语音识别系统框架
语音
特征提取
训练
语法
模式匹配
拒识
结果
模型
说话人自适应
语音声纹识别技术及应用
19
语音识别过程
语音声纹识别技术及应用
20
HMM基础(1)
隐含Markov模型
a11
a22
a33
a44
观测可见，状态隐含
基本要素
N --- 模型状态数
给定HMM参数，在t时刻处于状态i，部分观察序列为{o1o2…ot} 的概率
后向概率 t i P ot1ot2 oT , qt i |
给定HMM参数，在t时刻处于状态i，部分观
察序列为{ot+1ot+2…oT} 的概率
语音声纹识别技术及应用
25
模型评估问题(如何求：P(O|λ)) 前向和后向递推的示意图
A

0
a22 a23
0

0

0
0 0
a33 0
a34 a44

语音声纹识别技术及应用
22
HMM基础(3)
输出概率
bi(x) x属于状态i的概率
a11
a22
a33
a44
a12 S1
a23 S2
S3
a34
S4
b1(.)
b2(.)
b3(.)
b4(.)
语音声纹识别技术及应用
t时刻序列处于状态j、混合高斯密度l的概率
语音声纹识别技术及应用
35
连续HMM参数重估(3)
pdf的无溢出参数重估公式
语音声纹识别技术及应用
36
识别算法
概率计算: P(O|λ) Viterbi算法
• 对数形式 • 与离散HMM相似，只需替换bjl(x)
语音声纹识别技术及应用
37
实际HMM系统的具体问题
预加重：
yn xn xn 1 0.9 1.0
—减少尖锐噪声影响，提升高频部分

加窗：wnH a0.m54 m0.4i6ncogs
2 n N 1
—减少Gibbs效应
0nN
语音声纹识别技术及应用
7
各种参数的比较
Linear Prediction Cepstrum Coefficients (LPCC)
语音声纹识别技术及应用
8
Mel-频率
目的：模拟人耳对不同频率语音的感知
人类对不同频率语音有不同的感知能力
• 1kHz以下，与频率成线性关系 • 1kHz以上，与频率成对数关系
Mel频率定义
• 1Mel—1kHz音调感知程度的1/1000
语音声纹识别技术及应用
9
Mel-频率
公式： B f 1125ln 1 f / 700
短时能量 N
• 对数
E log x(i)2 i 1
N
• 平方和
E x(i)2 i 1
• 绝对值
N
E x(i)
i 1
过零率(ZCR)
Z

1 2
N 1 n1
sgnsw (n)
sgnsw (n
1)

语音声纹识别技术及应用
6
参数提取的预处理
识别单元是词，判断输入语音中是否含有词表中的词优点：能够处理连续语音，词表可定制缺点：速度较慢，词表越大，错误率越多应用案例：电话呼叫服务，电话安全监听
连续语音识别
识别单元可以是字，词或者句子优点：应用范围广缺点：速度慢，识别率不高，尤其是词表较大的时候应用案例：语音翻译，语音短信，听写机，语音邮件
训练过程中，常常将其设定为常数： aij=0.5
识别过程中，不进行log(aij)的累加仅考虑bi(.)的作用
语音声纹识别技术及应用
40
模型的自适应(1)
自适应的必要性
• 口音 • 感冒...
MAP自适应算法
• MAP: 最大后验概率准则 • 本质上是重新训练一次，对原B矩阵进行微调 • 特点：简单，对每个HMM单独自适应，只需
a12 S1
a23 S2
S3
a34
S4
π={πi} --- 初始概率分布
A={aij} --- 状态转移矩阵
B={bj(k)} --- 输出概率矩阵
o1 o2 o3 o4 …………
t
oT
语音声纹识别技术及应用
21
HMM基础(2)
转移概率矩阵
aij－状态i到状态j发生跳转的概率
a11 a12 0 0
<
― 状态 ―
―时间―>
语音声纹识别技术及应用
28
Байду номын сангаас
Viterbi识别算法和路径回溯
语音声纹识别技术及应用
29
模型训练问题(如何求：A、B、π)
优化问题
优化目标：P(O|λ)最大 Lagrange数乘法，辅助函数：
语音声纹识别技术及应用
30
模型训练问题(如何求：A、B、π) Baum-Welch参数重估算法：
● 声音转换
声音的转换只能从高质量向低质量进行，声音的转换不需要专门的软件，使用Windows的“录音机”转换即可，并且转换功能很强。
如果要进一步处理，可采用CoolEdit(Adobe Audition）工具软件。
语音声纹识别技术及应用
短时能量和过零率
语音分帧
每帧10-30ms, 帧间隔10ms
23
HMM基础(4)
HMM的三个基本问题
- 模型评估问题(如何求：P(O|λ)) - 最佳路径问题(如何求：Q=q1q2…qT) - 模型训练问题(如何求：A、B、π)
语音声纹识别技术及应用
24
模型评估问题(如何求：P(O|λ))
前向概率
t i Po1o2 ot , qt i |
采样率，8kHz（电话或手机），16kHz（麦克风）时域，频域端点检测，静音检测或有效音检测（VAD）
语音声纹识别技术及应用
15
语音识别—分类
孤立词识别
识别单元是有限的，单个的词；优点：速度快，识别正确率高缺点：应用范围窄，不能识别词表外的词应用案例：语音命令，手机语音拨号
关键词识别
f -- 频率 B -- Mel-频率
频率－Mel-频率：
频率
频率(Hz)
语音声纹识别技术及应用
10
Mel-
MFCC
计算流程：
时域信号 MFCC
DFT
线性谱域
Mel
滤波器组
Mel
DCT
对数谱域
谱域
Log
语音声纹识别技术及应用
11
主要内容
声音处理技术语音识别技术声纹识别技术技术演示
● 音质
对于数字音频信号，音质的好坏与数据采样频率和数据位数有关。音质与声音还原设备有关。音质与信号噪声比(SNR)有关。
语音声纹识别技术及应用
声音处理
● 文件
数字化的音频文件主要分为4类：波形音频文件。一种最直接的表达声波的数字形式，文件扩展名是“.wav” 。MIDI音频文件。一种计算机数字音乐接口生成的数字描述音频文件，扩展名是“.mid”。 CD-DA音频文件。标准激光盘文件，扩展名是“.cda”。压缩音频文件。在数字音频领域，一种MP3格式的压缩音频文件很流行，该格式的文件简称MP3文件。
• MCE：最小分类误差准则 • 使用场合：小词表识别系统 • 需要细致调整算法参数，才能保证收敛
语音声纹识别技术及应用
43
中文语音识别的特点
相对于西方语言来说，中文有自己的独特之处。中文是有调语言，发音的基本单元是声母和韵母并且以音节为自然单位，一个音节就是一个字甚至词，以至字词的时长很短，混淆度更大。
80年代－HMM模型和人工神经元网络（ANN）在语音识别中成功应用。 1988 年美国 CMU 大学基于 VQ/HMM 开发 SICSR系统 SPHINX。
90年代－大规模应用，工业标准，理论进展缓慢。
语音声纹识别技术及应用
17
语音识别—潜在应用
语音监听
语音拨号
语音导航
语音命令
语音声纹识别技术及应用
主要内容
声音处理技术语音识别技术声纹识别技术技术演示
语音声纹识别技术及应用
2
声音处理
● 声音的三要素
声音的三要素是音调、音色和音强音调代表声音的高低，与频率有关。频率越高，音调越高，反之亦然。音色是声音的特色。影响声音特色的主要因素是复音，即具有不同频率和不同振幅的混合声音。音强是声音的强度，也被称为声音的强度。音强与声波的振幅成正比，振幅越大，强度越大。
语音声纹识别技术及应用
31
连续HMM算法
连续的含义参数重估识别算法
语音声纹识别技术及应用
32
“连续”的含义
连续混合高斯概率密度函数(pdf):
• 每个状态表示为若干函数fn(x)的线性组合 • fn(x)是连续高斯概率密度函数
a11
a22
a33
a44
M
bj o c jl N o, jl ,U jl
语音声纹识别技术及应用
声音处理
获取声音
● 获得CD中的声音
如果希望把音乐CD中的歌曲或乐曲作为素材，需要把这些歌曲或乐曲转换成计算机能够处理的数字化声音，这就是“采样”。可以使用Easy CDDA Extractor、CoolEdit等音频处理软件对音频进行编辑和处理。

e商务文档

语音声纹识别技术及应用

相关文档推荐：