当前位置:
文档之家› 语音信号处理第6章 说话人识别
语音信号处理第6章 说话人识别
一般来说,同时满足上述全部要求的特征通常是不可能找 到的,只能使用折衷方案。
6.2.2 特征的选取
说话人识别中常用的参数类别: 1)线性预测参数及其派生参数:包括部分相关系数、声道 面积比函数、线谱对系数以及LPC倒谱系数等。 2)语音频谱直接导出的参数:包括功率谱、基音轮廓、共 振峰及其带宽、语音强度及其变化等。 3)混合参数 4)其他鲁棒性参数:包括Mel频率倒谱系数,以及经过噪 声谱减或者信道谱减的去噪倒谱系数等。
所用特征 倒谱 误识率 9.43%
差值倒谱 基音 差值基音
倒谱与差值倒谱 倒谱、差值倒谱、基音、差值基音
11.81% 74.42% 85.88%
7.93% 2.89%
6.2.3 特征参量评价方法
同一说话人的不同语音会在参数空间映射出不同的点,若 对同一人来说,这些点分布比较集中,而对不同说话人的 分布相距较远,则选取的参数就是有效的。
6.2
说话人识别原理及系统结构
说话人识别系统可分为两个阶段:训练(注册)阶段和识 别阶段。 1)在训练阶段,系统的每一个使用者说出若干训练语料, 系统根据这些训练语料,通过训练学习建立每个使用者的 模板或模型参数参考集。 2)在识别阶段,把从待识别说话人说出的语音信号中提 取的特征参数,与在训练过程中得到的参考参量集或模型 模板加以比较,并且根据一定的相似性准则进行判定。
生活领域 ★
• 声纹监听 • 多人识别 • 声纹比对
技术难题:跨信道、噪声
6.2
说话人识别原理及系统结构
识别 识别结果 模式匹配 识别决策
语音输入
预处理
特征提取
训练
模板库
专家知识
说话人识别系统由预处理、特征提取、模式匹配和识别决 策等几大部分组成。除此之外,完整的说话人识别系统还
应包括模板库的建立、专家知识库的建立和判决阈值选择 等部分。
式中说话人内特征矢量的协方差矩阵W为
3)指定文本型说话人识别中,每一次识别时必须先由识别 装置向说话人指定需发音的文本内容,只有在系统确认说 话人对指定文本内容正确发音时才可以被接受,这样可减 轻本人语声被盗用的危险。
潜在的应用
金融领域? 公安领域?
• 银行(电话,网 上) • 证券 • 银行卡,身份卡 • 声纹密匙 • 高档酒店,会员 俱乐部,贵族商 城等 • 玩具 • 汽车 • 个人电脑(家庭 分级密码)
第6章 说话人识别
概述 说话人识别原理及系统结构 应用VQ的说话人识别系统 应用GMM的说话人识别系统 研究展望
6.1
概述
自动说话人识别(ASR )是一种自动识别说话人的过程。说 话人识别是从语音中提取不同特征,然后通过判断逻辑来 判定该语句的归属类别。说话人识别不注重包含在语音信 号中的文字符号及其语义内容信息,而是着眼于包含在语 音信号中的个人特征,以达到识别说话人的目的。因此, 相比于语音识别,说话人识别相对简单。 自动说话人识别按其最终完成的任务可分为两类:自动说 话人确认和自动说话人辨认。自动说话人确认是确认一个 人的身份,只涉及一个特定的参考模型和待识别模式之间 的比较,系统只需做出“是”或“不是”的二元判决;而 对于自动说话人辨认,系统则必须辨认出待识别的语音是 来自待考察的 个人中的哪一个,有时还要对这 个人以外的 语音做出拒绝的判断。
6.2.1 预处理
1)话筒自适应和输入电平的设定
输入语音信号的品质对语音识别性能的影响很大,因此, 对话筒的耐噪声性能要求很高。此外,为了保持识别性能 稳定,必须具备对话筒以及前端设备性能的测定以及根据 测试结果对输入语音的变形进行校正的功能。 2)降噪 当话筒与嘴有一定距离的时候,以及在汽车里或户外等周 围环境噪声大的时候必须对输入信号进行降噪处理。 3)语音区间的端点检测
端点检测的目的是从语音信号流中自动地分割出识别基元, 即用数字处理技术来找出语音信号中的各种段落的始点和 终点的位置。
6.2.1 预处理
端点检测难度:
1)由于电平的变化,难于设置对各次试验都适用的阈值; 2)咂嘴声、呼吸气流或其它某些杂音会使语音波形产生一 个很小的尖峰,可能超过所设计门限值; 3)突发性干扰会使短时参数变得很大,持续很短时间后又 恢复为寂静特性,这种干扰应该计入寂静段中;
6.1
概述
自动说话人识别按输入的测试语音来分,可分为三类,即 与文本无关、与文本有关和文本指定型: 1)与文本无关的说话人识别指的是不规定说话内容的说话 人识别,即识别时不限定所用的语音内容;
2)与文本有关的说话人识别指的是规定内容的说话人识别, 即只能用规定内容的语句进行识别。但是,这两种识别存 在一个问题,即如果事先用录音装置把说话人本人的讲话 内容记录下来,然后用于识别,则存在被识别装置误接受 的危险;
6.2.2 说话人识别特征的选取
特征提取就是从说话人的语音信号中提取出表示说话人个 性的基本特征,是最重要的环节之一。 选取的特征应当满足下述准则:
1)能够有效地区分不同的说话人,但又能在同一说话人的 语音发生变化时相对保持稳定;
2)易于从语音信号中提取; 3)不易被模仿; 4)尽量不随时间和空间变化。
4)弱摩擦音和鼻音的特性与噪声极为接近,其中鼻韵往往 还拖得很长;
5)如果输入信号中有50Hz工频干扰或者A/D变换点的工作 点偏移时,用短时过零率区分无声和清音的方法就变的不 可靠。
6.2.1 预处理
优秀的端点检测算法应具有: 1)门限值对对背景噪声的变化有一定的适应性; 2)将短时冲击噪声和人的咂嘴等瞬间超过门限值的信号纳 入无声段而不是有声段; 3)对于爆破音的寂静段,应将其纳入语音的范围而不是无 声段; 4)应该尽可能避免在检测中丢失鼻韵和弱摩擦音等与噪声 特性相似、短时参数较少的语音; 5)应该避免使用过零率作为判决标准而带来的负面影响。
1)两种分布的方差之比(F 比):
[ i ]2 i 不同说话人特征参数均值的方差均值 F (i ) 同一说话人特征的方差均值 [ xa i ]2 a ,i
2)评价多维特征矢量的有效性的可分性测度(D比):
D ( i )T W 1 ( i ) i