当前位置:文档之家› 声纹识别原理、技术及应用

声纹识别原理、技术及应用

声纹识别原理、技术及应用
洪青阳副教授 厦门大学信息科学与技术学院 E-mail: qyhong@
主要内容
1 2 3 4 5 6 生物识别技术 声纹识别基本原理 文本相关声纹识别及应用 文本无关声纹识别及应用 文本提示声纹识别及应用 总结及展望
生物识别技术


当今信息社会中,在国家安全、金融、司法等 社会各个领域均需要个人身份验证。 生物特征识别(Biometrics Authentification) 技术是通过计算机与光学、声学、生物传感器 和生物统计学原理等高科技手段密切结合,利 用人体固有的生理特性(如指纹、人脸、虹膜、 声音等)来进行个人身份的鉴定。 生物特征识别技术比传统的身份鉴定方法更具 安全、保密和方便性,且具有不易遗忘、防伪 性能好、不易伪造或被盗、随身“携带”和随 时随地可用等优点。
信道补偿
背景模型 超向量 (-1)
GSV训练(包含NAP信道补偿)
GMM-NAP-SVM-Tnorm系统
实验数据


以NIST评测中2006年的男性数据作为测试集,以SRE04的数据作为UBM 的开发集,以SRE08年的数据作为有害因子映射和潜在因子分析的训 练集和T-norm的开发集,同样也作为SVM负例的数据。 测试集来源于SRE06的core-core对,有两种类型,由表2给出:一种 是同信道训练测试对1conv4w-1conv4w,另一种是跨信道测试对 1conv4w-1convmic。跨信道测试对中,训练数据来自电话信道,而测 试数据来自麦克风。
主要算法
SCHMM(半连续隐马尔科夫模型) GMM-UBM
文本无关
GMM-UBM GMM-SVM(支持向量机) GMM-UBM-LFA i-vector/PLDA
HMM(自适应算法MLLR/MAP) GMM-UBM
文本提示
经典方法(GMM-UBM)
GMM-UBM说话人确认系统 说话人需要建立自己的模型时,就可以通过MAP自适应 UBM来得到个性特征,即修正后的参数,从而得到自己的 GMM。

技术难题:跨信道、噪声
训练阶段
研究热点
识别阶段
实验室理想条件 √ 实际应用场合(跨信道、噪声背景) ×
跨信道
跨信道因素 采集设备 类型 座式麦克风、头戴式麦克风、计算机内置麦克风、 录音笔、手机、固定电话 移 动 传 输 信 道 : GSM 、 CDMA2000 、 WCDMA 、 传输信道 TD-SCDMA、LTE等 固定电话传输信道:IP、PSTN等
0~9语谱图
4000 3000 2000 1000 0 0 0.5 1 1.5 2 2.5 3 x 10
4
4000 3000 2000 1000 0
0
5000
10000
15000
f001_1(0-9口令)
4000 3000 2000 1000 0 0 0.5 1 1.5 2 2.5
f002_1(0-9口令)
虹膜识别
很低
约10%
视网膜识别 声纹识别
未知 较低
未知 较低
声纹唯一性
鼻 鼻腔 硬腭 齿龈 上唇 牙齿 下唇 下颚骨 舌骨 鼻咽 软腭 口腔 小舌 舌根
会咽 喉管
甲状软骨 气管
声带 环状软骨 食道
由于每个人的声音器官,诸如声带、口腔、鼻腔、舌、齿、 唇、肺等,在发音时呈现千姿百态,抑或有着哪怕是微小 的差异,以及年龄、性格、语言习惯等多种原因,再加上 发音容量的大小不一,发音频率的不尽相同,因而导致这 些器官发出的声音必然有着各自的特点,形成每个人独具 一格的声纹(Voiceprint),可用语谱图观察出来。
1( x ) ( x i )T i 1 i P ( x | i, ) exp{ } 1/ 2 K / 2 2 (2 ) i
Dim 2 Dim 1
高斯混合模型(GMM)
ci
Parameters
μi i
p( x )
Dim 2
Dim 1
Nicolas Malyska, Sanjeev Mohindra, Karen Lauro, Douglas Reynolds, and Jeremy Kepner
文本相关0~9口令
文本相关声纹识别的应用
电话银行 账户交易
文本相关
各类账户 密码重设
司法矫正
智能终端
隐私保护
应用设计及案例(1)

声纹识别的应用设计

数据安全性
前向兼容能力
操作点设置
模型库备份及恢复
交互流程
应用设计及案例(2)

应用实例

司法社区矫正中的应用
司法社区矫正,是指将社区矫正对象置于社区内,由专门的国家机关负责并组织社会力量对其 采取监督管理、教育、帮助措施,矫正其犯罪心理和行为恶习,促进其顺利回归社会的非监禁
线性不可分
红线在曲线上方
黑线在曲线下方
黑线在曲线下方
线性可分(曲线上下)
SVM(4) ——核函数
SVM表达式:
SVM(5) ——核函数

核函数:使低维空间线性不可分的数据在高维 空间线性可分或近似线性可分。 常用核函数:

GSV生成
通用背景模型 MAP 高斯超向量 GSV
语音
提取语音特征
说话人模型

涌现出北京得意音通、厦门天聪公司等专业的 声纹识别技术开发商。其中厦门天聪公司已开 发出手机声纹锁、社区矫正声纹识别系统以及 声纹动态口令。
分类方式一

按识别任务分类

声纹辨认 (Identification)
前端处理
是哪个人 的声音?
说话人1 M 说话人2 … 说话人N A X
闭集 开集
说话人编号
高斯混合模型(GMM)
GMM本质上是一种多维概率密度函数 M 阶GMM的概率密度函数如下:
P( x | )

i 1
M
P ( x, i | )

i 1
M
ci P( x | i, )
Model
其中
c
i 1
M
i
1
p( x | )
M 阶GMM是用M个单高斯分布的线性组合来描述。
GMM缺点:


主要内容
1 2 3 4 5 6 生物识别技术 声纹识别基本原理 文本相关声纹识别及应用 文本无关声纹识别及应用 文本提示声纹识别及应用 总结及展望
基于GMM的文本相关声纹识别
基于GMM的文本相关声纹识别
• 固定口令(0~9) • 采用Znorm得分归一化 • EER<3% • 技术已经成熟可商用。

声纹辨认

刑侦破案、嫌疑人追踪 情报过滤、反恐侦查、国防军事监听 呼叫中心、个性化应用,等等 金融证券交易、银行交易 司法鉴定、法庭证据 社区矫正 声纹门禁 智能手机、民用安全/娱乐/数码设备,等等

声纹确认

国内产业化进展

中科院声学所、清华大学、中国科技大学、厦 门大学等科研机构和高等院校已研制成功各具 特色的声纹识别系统。
机密 8
语谱图分析

语音信号的语谱(Sonogram)图分析:把和时序 相关的傅里叶分析结果显示的图形称为语谱图 (Sonogram,或者 Spectrogram ),它表示语 音频谱随时间变化的三维图形。
Sonogram (Spectrogram : time, frequency, amplitude)
4000 3000 2000 1000 0
3 x 10
4
0
5000
10000
15000
f001_2(0-9口令)
f002_2(0-9口令)
声纹识别(VPR)

什么是“声纹识别”


声纹识别(说话人识别),就是从某段语音中识别出说 话人的身份的过程。 与指纹类似,每个人说话过程中蕴涵的语音特征和发音 习惯等也几乎是唯一的。
UBM
UBM——通用背景模型 UBM也是一个GMM,只是这个GMM需要用大量的 不同说话人的语音数据经过训练来表示说话 人无关的 特征分布,这种特征是大多数说话人的共性特征。
UBM采用比较大的高斯混合数(M阶)
NIST评测:2048 mixtures 实网应用:512 mixtures 手机应用:64~128mixtures
刑罚执行活动。
声纹识别主要用来解决其“人机分离”的难题。

智能移动终端上的应用
SIVI声纹锁是一款安卓(Android)操作系统上的智能手机应用,用于保护手机的上的应用软 件。
SIVI声纹锁
SIVI声纹锁
主要内容
1 2 3 4 5 6 生物识别技术 声纹识别基本原理 文本相关声纹识别及应用 文本无关声纹识别及应用 文本提示声纹识别及应用 总结及展望


DET曲线图
主要内容
1 2 3 4 5 6 生物识别技术 声纹识别基本原理 文本相关声纹识别及应用 文本无关声纹识别及应用 文本提示声纹识别及应用 总结及展望
声纹识别基本原理
特征提取过程
语音信号
分帧
预加重
加窗
FFT
MFCC
DCT
log
MEL滤波器
MFCC参数计算过程
声纹建模方法
类型
文本相关

文本相关(Text-Dependent)


要求说特定的文本(与训练阶段一致,或现场提示) 必定是语种相关的
性能评价标准

对于说话人辨认系统,其性能的评价标准主要是 正确识别率。 对于说话人确认(SV)系统,其最重要的两个指标 是错误拒绝率(FRR)与错误接受率(FAR),前者是 拒绝真实的说话人,又称“拒真率”,后者是接 受冒认者而造成的错误,又称“认假率”,两者 均与阈值的设定相关。 等错率(EER):FRR与FAR相等。
相关主题