声纹识别(1)教学提纲
声纹识别发展的分水岭
第三分水岭是在2011年,在 第十一届全国人机语音通讯学术会 议上,邓力分享了他在微软DNNbased speech recognition的研 究结果,将识别率提升了30%, 这将声纹识别的准确率一下子提升 了一个层次。DNN能从大量样本中 学习到高度抽象的说话人特征,并 对噪声有很强的免疫力,至此深度 学习被引入业界,国内对声纹识别 技术的关注点也放到了深度学习上。
趋势
从近几年情形可以看出,相比于指纹识别、人脸识别等生物识别 技术,声纹识别是“低调”的,但市场需求的确存在,且市场热度也 有上升趋势。
尽管前景可观,但就目前而言,声纹识别要想真正成熟并落地, 还需要克服一些难题。
因此,严格说来,声纹识别当“独行侠”的机会微乎其微。只有 在智能家居等相对局限的场景中才能够独立提供服务。在更多场景下, 则是通过与人脸、语音等其他识别技术配合,进行身份确认。
声纹识别发展的分水岭
第二个分水岭是2010年左右,这时候出现了iVector/PLDA算法。 iVector最大的亮点在于,把语音映射到了一个固定的且低维的向量上, 这意味这所有机器学习的算法都可以用来解决声纹识别的问题了,因 此这是一个巨大的进步。PLDA是一种信道补偿算法,因为在iVector 中,既包含说话人的信息,也包含信道信息,而我们只关心说话人的 信息,所以才做信道补偿,目前PLDA是最好的信道补偿算法,但噪 声对结果依然有很大的影响。
发声器官被操纵的方式
• 发声器官包括唇、齿、舌等,他们之间相互作用就会产生清晰的语音。而他们 之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话 的过程中,通过模拟周围不同人的说话方式,就会逐渐形成自己的声纹特征。
声纹识别发展的分水岭
第一个分水岭是2000年。在2000年以前,进行声纹识别验证, 主要是基于模板匹配,这种算法基于信号比对,通常要求比对双方的 内容相同,比如要验证说“床前明月光”的人是谁,那验证人也必须 要说“床前明月光”才能验证,如果他说“疑似地上霜”的话,验证 就不能完成。2000年以后,开始出现基于高斯混合模型的声纹识别算 法,高斯混合模型是典型基于统计学习理论的方法,该算法采用大量 数据为每个说话人训练模型,使用高斯混合模型验证已经与文本无关 了,即要验证“床前明月光”的说话人时,说“疑似地上霜”也能够 验证成功。之后产生的许多主流研究方法都是在高斯混合模型的基础 上改进的,但高斯混合模型注册语音的时间过长,无法满足实际应用 场景的需求,因此需要新的技术来突破限制。
音域特征:音域的高低就是通常所说的声音饱满还是干瘪
不同人的声音在语谱图中共振峰的分布情况不同,声纹识别正是通 过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人, 从而实现“闻声识人”的功能。
声纹识别可以说有两个关键问题,一是特征提取, 二是模式匹配(模式识别)。
特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性 高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是 “个性化”特征,而说话人识别的特征对说话人来讲必须是“共性特 征”。虽然目前大部分声纹识别系统用的都是声学层面的特征,但是表 征一个人特点的特征应该是多层面的,包括:(1)与人类的发音机制的解 剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等 等)、鼻音、带深呼吸音、沙哑音、笑声等;(2)受社会经济状况、受教 育水平、出生地等影响的语义、修辞、发音、言语习惯等;(3)个人特点 或受父母影响的韵律、节奏、速度、语调、音量等特征。
声纹识别(Voiceprint Recognition, VPR),也称为说话人 识别(Speaker Recognition),包括两类:说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。
说话人辨认技术: 用以判断某段语音 是若干人中的哪一 个所说的,是“多 选一”问题;
声纹识别
Voiceprint Recognition, VPR
声纹识别
技术简介 发展状况 实现原理 实际应用
声纹识别:通过对一 种或多种语音信号的特征 分析来达到对未知声音辨 别的目的,简单的说就是 辨别某一句话是否是某一 个人说的技术。
该项技术最早是在40年代末由贝尔实验室开发,主要 用于军事情报领域。随着该项技术的逐步发展,60年代末 后期在美国的法医鉴定、法庭证据等领域都使用了该项技术, 从1967年到现在,美国至少5000多个案件都通过声纹识别 技术提供了有效的线索和有力的证据。
说话人确认技术: 用以确认某段语音 是否是指定的某个 人所说的,是“一 对一判别”问题。
声纹(Voiceprint):是用电声学仪器显示的携带言语信息的声波频谱。
人类语言的产生是人体语言中枢与 发音器官之间一个复杂的生理物理过程, 人在讲话时使用的发声器官--舌、牙齿、 喉头、肺、鼻腔在尺寸和形态方面每个 人的差异很大,所以任何两个人的声纹 图谱都有差异。每个人的语音声学特征 既有相对稳定性,又有变异性,不是绝 对的、一成不变的。这种变异可来自生 理、病理、心理、模拟、伪装,也与环 境干扰有关。
尽管如此,由于每个人的发音器官 都不尽相同,因此在一般情况下,人们 仍能区别不同的人的声音或判断是否是 同一人的声音。
声音摄谱仪
声纹识别的理论基础:每一个声音都具有独特的特 征,通过该特征能将不同人的声音进行有效的区分。
声腔的尺寸
• 包括咽喉,鼻腔和口腔等,这些器官的形状,尺寸和位置决定了声带张力的大 小和声音频率的范围。因为每个人的发声腔都是不同的,就像指纹一样,所以 每个人的声音也就有独特的特征。
人在讲话时使用的发பைடு நூலகம்器官在尺寸和形态方面每个人的差异很大,
所以任何两个人的声纹图谱都有差异,主要体现在如下方面:
共鸣方式特征:咽腔共鸣、鼻腔共鸣和口腔共鸣
嗓音纯度特征:不同人的嗓音,纯度一般是不一样的,粗略地可分为高纯度(明亮)、低 纯度(沙哑)和中等纯度三个等级
平均音高特征:平均音高的高低就是一般所说的嗓音是高亢还是低沉