当前位置：文档之家› 语音信号处理第6章说话人识别

语音信号处理第6章说话人识别

一般来说，同时满足上述全部要求的特征通常是不可能找到的，只能使用折衷方案。
6.2.2 特征的选取
说话人识别中常用的参数类别： 1）线性预测参数及其派生参数：包括部分相关系数、声道面积比函数、线谱对系数以及LPC倒谱系数等。 2）语音频谱直接导出的参数：包括功率谱、基音轮廓、共振峰及其带宽、语音强度及其变化等。 3）混合参数 4）其他鲁棒性参数：包括Mel频率倒谱系数，以及经过噪声谱减或者信道谱减的去噪倒谱系数等。
所用特征倒谱误识率 9.43%
差值倒谱基音差值基音
倒谱与差值倒谱倒谱、差值倒谱、基音、差值基音
11.81% 74.42% 85.88%
7.93% 2.89%
6.2.3 特征参量评价方法
同一说话人的不同语音会在参数空间映射出不同的点，若对同一人来说，这些点分布比较集中，而对不同说话人的分布相距较远，则选取的参数就是有效的。
6.2
说话人识别原理及系统结构
说话人识别系统可分为两个阶段：训练（注册）阶段和识别阶段。 1）在训练阶段，系统的每一个使用者说出若干训练语料，系统根据这些训练语料，通过训练学习建立每个使用者的模板或模型参数参考集。 2）在识别阶段，把从待识别说话人说出的语音信号中提取的特征参数，与在训练过程中得到的参考参量集或模型模板加以比较，并且根据一定的相似性准则进行判定。
生活领域 ★
• 声纹监听 • 多人识别 • 声纹比对
技术难题：跨信道、噪声
6.2
说话人识别原理及系统结构
识别识别结果模式匹配识别决策
语音输入
预处理
特征提取
训练
模板库
专家知识
说话人识别系统由预处理、特征提取、模式匹配和识别决策等几大部分组成。除此之外，完整的说话人识别系统还
应包括模板库的建立、专家知识库的建立和判决阈值选择等部分。
式中说话人内特征矢量的协方差矩阵W为
3）指定文本型说话人识别中，每一次识别时必须先由识别装置向说话人指定需发音的文本内容，只有在系统确认说话人对指定文本内容正确发音时才可以被接受，这样可减轻本人语声被盗用的危险。
潜在的应用
金融领域？公安领域？
• 银行（电话，网上） • 证券 • 银行卡，身份卡 • 声纹密匙 • 高档酒店，会员俱乐部，贵族商城等 • 玩具 • 汽车 • 个人电脑（家庭分级密码）
第6章说话人识别
概述说话人识别原理及系统结构应用VQ的说话人识别系统应用GMM的说话人识别系统研究展望
6.1
概述
自动说话人识别(ASR )是一种自动识别说话人的过程。说话人识别是从语音中提取不同特征，然后通过判断逻辑来判定该语句的归属类别。说话人识别不注重包含在语音信号中的文字符号及其语义内容信息，而是着眼于包含在语音信号中的个人特征，以达到识别说话人的目的。因此，相比于语音识别，说话人识别相对简单。自动说话人识别按其最终完成的任务可分为两类：自动说话人确认和自动说话人辨认。自动说话人确认是确认一个人的身份，只涉及一个特定的参考模型和待识别模式之间的比较，系统只需做出“是”或“不是”的二元判决；而对于自动说话人辨认，系统则必须辨认出待识别的语音是来自待考察的个人中的哪一个，有时还要对这个人以外的语音做出拒绝的判断。
6.2.1 预处理
1）话筒自适应和输入电平的设定
输入语音信号的品质对语音识别性能的影响很大，因此，对话筒的耐噪声性能要求很高。此外，为了保持识别性能稳定，必须具备对话筒以及前端设备性能的测定以及根据测试结果对输入语音的变形进行校正的功能。 2）降噪当话筒与嘴有一定距离的时候，以及在汽车里或户外等周围环境噪声大的时候必须对输入信号进行降噪处理。 3）语音区间的端点检测

端点检测的目的是从语音信号流中自动地分割出识别基元，即用数字处理技术来找出语音信号中的各种段落的始点和终点的位置。
6.2.1 预处理
端点检测难度：
1）由于电平的变化，难于设置对各次试验都适用的阈值； 2）咂嘴声、呼吸气流或其它某些杂音会使语音波形产生一个很小的尖峰，可能超过所设计门限值； 3）突发性干扰会使短时参数变得很大，持续很短时间后又恢复为寂静特性，这种干扰应该计入寂静段中；
6.1
概述
自动说话人识别按输入的测试语音来分，可分为三类，即与文本无关、与文本有关和文本指定型： 1）与文本无关的说话人识别指的是不规定说话内容的说话人识别，即识别时不限定所用的语音内容；
2）与文本有关的说话人识别指的是规定内容的说话人识别，即只能用规定内容的语句进行识别。但是，这两种识别存在一个问题，即如果事先用录音装置把说话人本人的讲话内容记录下来，然后用于识别，则存在被识别装置误接受的危险；
6.2.2 说话人识别特征的选取
特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征，是最重要的环节之一。选取的特征应当满足下述准则：
1）能够有效地区分不同的说话人，但又能在同一说话人的语音发生变化时相对保持稳定；
2）易于从语音信号中提取； 3）不易被模仿； 4）尽量不随时间和空间变化。
4）弱摩擦音和鼻音的特性与噪声极为接近，其中鼻韵往往还拖得很长；
5）如果输入信号中有50Hz工频干扰或者A/D变换点的工作点偏移时，用短时过零率区分无声和清音的方法就变的不可靠。
6.2.1 预处理
优秀的端点检测算法应具有： 1）门限值对对背景噪声的变化有一定的适应性； 2）将短时冲击噪声和人的咂嘴等瞬间超过门限值的信号纳入无声段而不是有声段； 3）对于爆破音的寂静段，应将其纳入语音的范围而不是无声段； 4）应该尽可能避免在检测中丢失鼻韵和弱摩擦音等与噪声特性相似、短时参数较少的语音； 5）应该避免使用过零率作为判决标准而带来的负面影响。
1）两种分布的方差之比（F 比）：
[ i ]2 i 不同说话人特征参数均值的方差均值 F (i ) 同一说话人特征的方差均值 [ xa i ]2 a ,i
2）评价多维特征矢量的有效性的可分性测度（D比）：
D ( i )T W 1 ( i ) i

e商务文档

语音信号处理第6章说话人识别

相关文档推荐：

e商务文档

语音信号处理第6章 说话人识别

相关文档推荐：

语音信号处理第6章说话人识别