当前位置:文档之家› 说话人识别系统~

说话人识别系统~

H s 1 s1
其中 为预加重系数,可取为 1 或比 1 稍小的值,一般取, =0.95。
(2)端点检测 端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效地端
点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具 有良好的识别性能。
共 30 页 第7页
3.1 说话人识别基本原理……………………………………………5 3.2 设计要求…………………………………………………………5 3.3 结构设计…………………………………………………………5 第 4 章 设计方案……………………………………………………………7 4.1 预处理模块………………………………………………………7 4.2 特征参数 ………………………………………………………13 4.3 训练模型 ………………………………………………………17 4.4 识别模型 ………………………………………………………21 第 5 章 实验结果…………………………………………………………22 第 6 章 应用程序…………………………………………………………25 心得体会……………………………………………………………………28 参考文献……………………………………………………………………29
下面为端点检测波形示意图,以便于理解。
共 30 页 第9页
燕山大学专业综合训练说明书
图 2 端点检测示意图
(3)分帧 由于语音信号的准平稳特性,使得只在短时段上才可视为一个平稳过程,所以绝大
第一周
第二周

作 检索、查阅资料,

学习基础知识,构 学习矢量量化法
划 建说话人识别整体
系统。
第三周
第四周
编写程序。
程序调试与撰写报 告。
参 考
Matlab 方面资料、语音信号处理方面资料


答疑地点
A203-1
指导教师签字 Tel:13031860583
答疑时间
周六晚 19 点至 22 点; 周日晚 19 点至 22 点。
共 30 页 第4页
燕山大学专业综合训练说明书
第 3 章 说话人识别系统设计相关知识
3.1 说话人识别基本原理
说话人识别的基本原理是为每一个说话人建立一个能够描述这一说话人个性特征的 模型 。在目前话音特征与说话人个性特征还未很好的从语音特征中得到分离的情况下, 为每一个说话人建立的说话人模型实际是说话人的语音特征模型。
语音信号 X n的短时平均过零率定义为:
Zn
sgnxm sgnxm 1wn m
m
其中:
sgnxm
1, xn 1, xn
0, 0
共 30 页 第8页
燕山大学专业综合训练说明书
wn 为窗口函数,其作用与求短时平均能量时一样。一般取
wn
1 2 N
,0
n
N
1,
0, else
实际应用中常常用到短时过零率的修正参数,它是一帧语音波形穿越某个非零电平 的次数。此电平适当地设置为一个接近零的值时,对于清音仍然有很高的值,而对于无 声则很低。
说话人识别系统具体结构如下图所示:
图 1 说话人识别系统图
共 30 页 第6页

燕山大学专业综合训练说明书
第 4 章 设计方案
我们可以将一个说话人识别系统分成如下几个模块:预处理模块、特征提取模块、 训练模块和识别模块等。
4.1 预处理模块
语音信号的预处理分为四个部分:预加重、端点检测、分帧和加窗。下面对每一部 分进行详细的叙述。
在进行说话人识别时,取与测试音匹配距离最小的说话人模型所对应的说话人作为 说话人识别的结果。
3.2 设计要求
要实现说话人识别,应解决如下基本问题: (1)语音信号的预处理和特征提取, 即提取能够有效表征说话人个性特征的参数。实 际上现在采用的特征都是从语音信号模型中得到的, 它们既包含说话人的语音特征,又 包含说话人的个性特征,并且相互交织在一起, 以复杂的形式存在于语音参数中,目前还 没有建立起准确分离和提取这两种特征的技术。 (2)说话人模型的建立和模型参数的训练。这包括模型结构的表示和参数估计算法。 (3)测试音与说话人模型的匹配距离计算。实际上,采用的说话人模型结构对应于说 话人识别的不同方法。随着技术的发展, 说话人识别的方法不断出现,包括矢量量化, 模 板匹配法,隐马尔可夫模型,高斯混合模型, 人工神经网络方法等。 (4)识别或判决策略。根据匹配距离的计算结果判决说话人是否是所声称的说话人 (说话人确认)或说话人到底是谁(说话人辨认)。
En
N 1
X
mW n
m2
m0
令 hn w2 n,则有:
N 1
En X m2 • hn m m0
语音信号的短时平均幅度为:
N 1
Mn X m wn m m0
En 和 M n 都反映信号强度。
过零分析是考察信号时域波形通过时间轴的情况。对于离散时间信号,如果相邻的
取样值符号改变则称为过零。过零数就是样本改变符号的次数,单位时间内的过零数称 为平均过零数。对于窄带信号,平均过零数作为信号频率的一种简单度量是很精确的。
3.3 结构设计
说话人识别系统分为两个阶段:训练阶段和识别阶段。 在训练阶段,系统根据每个使用者说出的若干训练语句建立相应的模型或模型参量
共 30 页 第5页
燕山大学专业综合训练说明书
参考集;而在识别阶段,在待识别人说的语音信号中导出的参量,要与在训练过程中得 到的参考参量集或模型模板加以比较,并且根据一定的相似性准则进行判定。对于说话 人辨认来说,所提取的参量要与训练过程中的每一个人的参考参量加以比较,并把与它 距离最近的那个参考量所对应的使用者辨认为是发出输入语音的说话人。
目前,较为常用的生物特征认证方法有三种,分别是基于指纹、声纹、人脸的认证 技术。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为 差异,每个人的语音都带有强烈的个人特征色彩,这使得通过分析语音信号来识别说话 人成为可能。说话人识别系统属于生物识技术的一种,是一项根据语音波形中反映说话 人生理和行为特征的语音参数识别说话人身份的技术。与语音识别不同的是,说话人识 别利用的是语音信中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个 性;而音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强共性。
短时能量和短时过零率都是随机参数,不同性质的语音各自有不同的概率分布。对 于静音、清音和浊音三种情况,浊音的短时平均幅度大而短时过零率最低;清音的短时 平均幅度居中而短时过零率最高;静音的短时平均幅度最低而短时过零率居中。它们的 条件概率分布都接近于正态分布。
端点检测采用短时能量和过零率相乘的办法来判断。检测前,先要为短时能量和过 零率确定两个门限,故称之为双门限端点检测。低能量门限取背景噪声平均能量的 2 倍, 高能量门限取多帧语音数据的平均能量。将信号分为静音段、过渡段、语音段和结束段。 在静音段,如果短时能量或过零率超过了低门限,就开始标记起始点,进入过渡段;在 过渡段,如果两个参数值都回落到低门限以下,则又恢复到静音段;如果两个参数中的 任一个超过了高门限,就表明进入语音段。在语音段,如果两个参数同时低于低门限, 则进入结束段,并判断接下来的语音信号的静音帧数长短,长则继续扫描结束点,短则 标记语音结束。当信号持续时间达不到一定时长时,则可以确定其为噪音,抛弃已经标 记的起始点继续扫描。
(1)预加重 对于输入的语音信号,首先用低通滤波器滤掉高频部分以防止还原信号时在时域内
产生混叠干扰,然后用高通滤波器抑制 50HZ 的电源干扰,这就是抗混叠失真滤波。依据 Nyquist 采样定理,用不低于 2fa 的采样频率对原始模拟信号采样,经过 A/D 转换得到 数字信号。
由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在 800HZ 以 上,按 6dB/倍频程跌落,所以求语音信号频谱时,频率越高相应的信号成分越小,高频 部分的频谱比低频部分难求,为此要进行预加重。预加重的目的是将更为有用的高频部 分的频谱进行提升,使信号的频谱变得平坦,保持在低频到高频的整个频带内,能用同 样的信噪比求频谱,以便于进行频谱分析或声道参数分析。预加重一般用具有 6dB/倍频 程的提升高频特性的数字滤波器来实现,其传递函数为:
基层教学单位主任签字
2012 年 8 月 27 日
共 30 页 第1页
燕山大学专业综合训练说明书
目录
第 1 章 摘要…………………………………………………………………3 第 2 章 前言…………………………………………………………………4 第 3 章 说话人识别系统设计相关知识……………………………………5
燕山大学专业综合训练说明书
目前的端点检测技术大都是基于语音信号的时域特征来进行的,一般采用两种时域 特征:短时能量和短时过零率,通过设定它们的门限来进行检测。
短时能量序列反映了语音振幅随时间缓慢变化的规律。幅度随时间的变化,清音段 一般比浊音段要小,可以用来区分清音段和浊音段;可以用来区分声母和韵母的分界, 无声和有声的分界。短时能量定义为:
共 30 页 第2页
燕山大学专业综合训练说明书
第1章 摘 要
说话人识别系统属于生物识别技术的一种,是一项根据语音波形中反映说话人生理 和行为特征的语音参数识别说话人身份的技术。它是指通过说话人的语音来自动识别说 话人的身份。目前,与文本无关的说话人识别的常用方法有很多,本文应用的是基于非 参数模型的矢量量化 VQ(VectorQuantization)方法。VQ 在孤立词语音识别系统中得到了 很好的应用,特别是有限状态矢量量化技术,对于语音识别更为有效。基于 VQ 的孤立词 语音识别系统具有分类准确,存储数据少,实时响应速度快等综合性能好的特点。借助 MATLAB 工具,设计基于 VQ 码本训练程序和识别程序,识别特定人的语音。其系统处理 过程主要是先对语音进行预加重、端点检测、分帧、加窗处理四个部分的处理,然后提 取特征矢量参数(采用 MFCC 系数),然后对模版语音用矢量量化方法进行训练得到语音 模版,最后用测试语音测试系统性能。其中系统的设计要分为预处理模块、特征提取模 块、训练模块和识别模块等,各个部分结合在一起实现说话人识别功能。 关键词:训练 ,说话人识别, VQ ,MATLAB
相关主题