当前位置：文档之家› 声纹识别原理、技术及应用

声纹识别原理、技术及应用

声纹识别原理、技术及应用
洪青阳副教授厦门大学信息科学与技术学院 E-mail: qyhong@
主要内容
1 2 3 4 5 6 生物识别技术声纹识别基本原理文本相关声纹识别及应用文本无关声纹识别及应用文本提示声纹识别及应用总结及展望
生物识别技术

当今信息社会中，在国家安全、金融、司法等社会各个领域均需要个人身份验证。生物特征识别(Biometrics Authentification) 技术是通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合，利用人体固有的生理特性（如指纹、人脸、虹膜、声音等）来进行个人身份的鉴定。生物特征识别技术比传统的身份鉴定方法更具安全、保密和方便性，且具有不易遗忘、防伪性能好、不易伪造或被盗、随身“携带”和随时随地可用等优点。
信道补偿
背景模型超向量（-1）
GSV训练(包含NAP信道补偿)
GMM-NAP-SVM-Tnorm系统
实验数据

以NIST评测中2006年的男性数据作为测试集，以SRE04的数据作为UBM 的开发集，以SRE08年的数据作为有害因子映射和潜在因子分析的训练集和T-norm的开发集，同样也作为SVM负例的数据。测试集来源于SRE06的core-core对，有两种类型，由表2给出：一种是同信道训练测试对1conv4w-1conv4w，另一种是跨信道测试对 1conv4w-1convmic。跨信道测试对中，训练数据来自电话信道，而测试数据来自麦克风。
主要算法
SCHMM(半连续隐马尔科夫模型) GMM-UBM
文本无关
GMM-UBM GMM-SVM(支持向量机) GMM-UBM-LFA i-vector/PLDA
HMM(自适应算法MLLR/MAP) GMM-UBM
文本提示
经典方法(GMM-UBM)
GMM-UBM说话人确认系统说话人需要建立自己的模型时，就可以通过MAP自适应 UBM来得到个性特征，即修正后的参数，从而得到自己的 GMM。

技术难题：跨信道、噪声
训练阶段
研究热点
识别阶段
实验室理想条件 √ 实际应用场合（跨信道、噪声背景） ×
跨信道
跨信道因素采集设备类型座式麦克风、头戴式麦克风、计算机内置麦克风、录音笔、手机、固定电话移动传输信道： GSM 、 CDMA2000 、 WCDMA 、传输信道 TD-SCDMA、LTE等固定电话传输信道：IP、PSTN等
0~9语谱图
4000 3000 2000 1000 0 0 0.5 1 1.5 2 2.5 3 x 10
4
4000 3000 2000 1000 0
0
5000
10000
15000
f001_1(0-9口令)
4000 3000 2000 1000 0 0 0.5 1 1.5 2 2.5
f002_1(0-9口令)
虹膜识别
很低
约10%
视网膜识别声纹识别
未知较低
未知较低
声纹唯一性
鼻鼻腔硬腭齿龈上唇牙齿下唇下颚骨舌骨鼻咽软腭口腔小舌舌根
会咽喉管
甲状软骨气管
声带环状软骨食道
由于每个人的声音器官，诸如声带、口腔、鼻腔、舌、齿、唇、肺等，在发音时呈现千姿百态，抑或有着哪怕是微小的差异，以及年龄、性格、语言习惯等多种原因，再加上发音容量的大小不一，发音频率的不尽相同，因而导致这些器官发出的声音必然有着各自的特点，形成每个人独具一格的声纹(Voiceprint)，可用语谱图观察出来。
1( x ) ( x i )T i 1 i P ( x | i, ) exp{ } 1/ 2 K / 2 2 (2 ) i
Dim 2 Dim 1
高斯混合模型(GMM)
ci
Parameters
μi i
p( x )
Dim 2
Dim 1
Nicolas Malyska, Sanjeev Mohindra, Karen Lauro, Douglas Reynolds, and Jeremy Kepner
文本相关0~9口令
文本相关声纹识别的应用
电话银行账户交易
文本相关
各类账户密码重设
司法矫正
智能终端
隐私保护
应用设计及案例（1）

声纹识别的应用设计

数据安全性
前向兼容能力
操作点设置
模型库备份及恢复
交互流程
应用设计及案例（2）

应用实例

司法社区矫正中的应用
司法社区矫正，是指将社区矫正对象置于社区内，由专门的国家机关负责并组织社会力量对其采取监督管理、教育、帮助措施，矫正其犯罪心理和行为恶习，促进其顺利回归社会的非监禁
线性不可分
红线在曲线上方
黑线在曲线下方
黑线在曲线下方
线性可分(曲线上下)
SVM（4） ——核函数
SVM表达式：
SVM（5） ——核函数

核函数：使低维空间线性不可分的数据在高维空间线性可分或近似线性可分。常用核函数：

GSV生成
通用背景模型 MAP 高斯超向量 GSV
语音
提取语音特征
说话人模型

涌现出北京得意音通、厦门天聪公司等专业的声纹识别技术开发商。其中厦门天聪公司已开发出手机声纹锁、社区矫正声纹识别系统以及声纹动态口令。
分类方式一

按识别任务分类

声纹辨认 (Identification)
前端处理
是哪个人的声音？
说话人1 M 说话人2 … 说话人N A X
闭集开集
说话人编号
高斯混合模型(GMM)
GMM本质上是一种多维概率密度函数 M 阶GMM的概率密度函数如下：
P( x | )

i 1
M
P ( x, i | )

i 1
M
ci P( x | i, )
Model
其中
c
i 1
M
i
1
p( x | )
M 阶GMM是用M个单高斯分布的线性组合来描述。
GMM缺点：

主要内容
1 2 3 4 5 6 生物识别技术声纹识别基本原理文本相关声纹识别及应用文本无关声纹识别及应用文本提示声纹识别及应用总结及展望
基于GMM的文本相关声纹识别
基于GMM的文本相关声纹识别
• 固定口令(0~9) • 采用Znorm得分归一化 • EER<3% • 技术已经成熟可商用。

声纹辨认

刑侦破案、嫌疑人追踪情报过滤、反恐侦查、国防军事监听呼叫中心、个性化应用，等等金融证券交易、银行交易司法鉴定、法庭证据社区矫正声纹门禁智能手机、民用安全/娱乐/数码设备，等等

声纹确认

国内产业化进展

中科院声学所、清华大学、中国科技大学、厦门大学等科研机构和高等院校已研制成功各具特色的声纹识别系统。
机密 8
语谱图分析

语音信号的语谱(Sonogram)图分析：把和时序相关的傅里叶分析结果显示的图形称为语谱图 (Sonogram，或者 Spectrogram )，它表示语音频谱随时间变化的三维图形。
Sonogram (Spectrogram : time, frequency, amplitude)
4000 3000 2000 1000 0
3 x 10
4
0
5000
10000
15000
f001_2(0-9口令)
f002_2(0-9口令)
声纹识别(VPR)

什么是“声纹识别”

声纹识别（说话人识别），就是从某段语音中识别出说话人的身份的过程。与指纹类似，每个人说话过程中蕴涵的语音特征和发音习惯等也几乎是唯一的。
UBM
UBM——通用背景模型 UBM也是一个GMM，只是这个GMM需要用大量的不同说话人的语音数据经过训练来表示说话人无关的特征分布，这种特征是大多数说话人的共性特征。
UBM采用比较大的高斯混合数(M阶)
NIST评测：2048 mixtures 实网应用：512 mixtures 手机应用：64~128mixtures
刑罚执行活动。
声纹识别主要用来解决其“人机分离”的难题。

智能移动终端上的应用
SIVI声纹锁是一款安卓（Android）操作系统上的智能手机应用，用于保护手机的上的应用软件。
SIVI声纹锁
SIVI声纹锁
主要内容
1 2 3 4 5 6 生物识别技术声纹识别基本原理文本相关声纹识别及应用文本无关声纹识别及应用文本提示声纹识别及应用总结及展望

DET曲线图
主要内容
1 2 3 4 5 6 生物识别技术声纹识别基本原理文本相关声纹识别及应用文本无关声纹识别及应用文本提示声纹识别及应用总结及展望
声纹识别基本原理
特征提取过程
语音信号
分帧
预加重
加窗
FFT
MFCC
DCT
log
MEL滤波器
MFCC参数计算过程
声纹建模方法
类型
文本相关

文本相关（Text-Dependent）

要求说特定的文本（与训练阶段一致，或现场提示）必定是语种相关的
性能评价标准

对于说话人辨认系统，其性能的评价标准主要是正确识别率。对于说话人确认(SV)系统，其最重要的两个指标是错误拒绝率(FRR)与错误接受率(FAR)，前者是拒绝真实的说话人，又称“拒真率”，后者是接受冒认者而造成的错误，又称“认假率”，两者均与阈值的设定相关。等错率(EER)：FRR与FAR相等。

e商务文档

声纹识别原理、技术及应用

相关文档推荐：