662012年第4期一、前言
声纹特征是人体重要生物特征之一,具有较强的稳
定性和个体特殊性。
语音作为证据用于司法鉴定方面,我国在1988年由中
国刑事警察学院文检系率先成立了全国第一个声纹鉴定实
验室,引进了美国KAY公司生产的7800型声谱仪。1989
年,公安部物证鉴定中心(时为公安部第二研究所)成立
了以案件鉴定为目的的声纹鉴定实验室,并引进新一代
KAY-5500声谱仪,推动了声纹技术在办案实践中的应
用。我国司法声纹鉴定技术经过20年的发展,以公安部物
证鉴定中心、最高人民检察院检察信息技术中心、广东省
公安厅、司法部司法鉴定中心等为代表的司法鉴定技术水
平已经取得长足进步。
近年来在声纹自动识别领域,我国也涌现出国际一
流研发团队,已经具备开展国际前沿技术研究、引领声纹
信息在公安领域实现大范围使用的实力。二、声纹自动识别技术
(一)声纹技术发展及现状
(二)声纹自动识别技术20世纪40年代初,美国贝尔实验室发明了声谱仪,并
且首先开始了声纹鉴定技术研究工作,并于60~70年代取
得重要进展,取得99.65%的正确率。此后声纹鉴定逐渐成
为案件侦查的一个重要技术。
目前声纹鉴定技术分为专家鉴定和自动识别两大领
域。专家鉴定方面,主要采用语音学分析方法,应用语音
学及统计分析技术,通过语音工作站测量、分析说话人的
语音声学特征(如声源特征、发音时的声道形状特征、发
音时的口腔及双唇特征以及语音信号时变频谱特征等),
然后采用统计判别方法对说话人语音是否同一作出判定。
语音学分析法是目前国内外司法领域说话人普遍采用的方
法,我国开展声纹鉴定的机构绝大多数均采用此方法。
声纹自动识别也称语音信号处理法,其基本原理声纹自动识别技术与声纹库建设应用
李敬阳胡国平王莉
1.公安部物证鉴定中心2.智能语音技术公安部重点实验室3.安徽省语音信息安全重点实验室122312
摘要:
关键词:本文首先简述声纹自动识别技术,接下来围绕声纹库建设应用的核心需求和技术要点,对声纹库建设所涉及的声纹
采集标准及专业设备研发、两级联动声纹库管理系统、高性能声纹检索引擎研发以及声纹采集入库等四项重要工作
进行思考和分析,阐述了近两年来各项工作所取得的进展,并对声纹库建设进行展望。
声纹自动识别 检索 数据库67PToliceechnology2012年第4期声纹鉴定技术研究
(见图1)是由系统对说话人语音的特征参数进行分离提
取和线性或非线性处理,建立语音模型,然后由系统运算
进行模式匹配,确定出与其最接近的若干已知说话人语
音,得出相似度的结果,其结果是多选的。还可以进一步
细分为说话人辨认(SpeakerIdentification)和说话人确认
(SpeakerVerification)。
声纹自动识别技术近几年在美国等国家深受重视,
例如美国国家标准技术署(NationalInstituteofStandard
andTechnology,NIST)举办的说话人识别评测,就是
针对实际应用需求,测试环境多、复杂度大,这些测试
能够准确体现参测系统在接近真实环境中的实际表现,
被认为是国际上水平最高、最严谨、最公平、结果最权
威的说话人语音识别系统测试。受邀参加评测的均为世
界顶级专业研究开发机构,包括美国麻省理工大学
(MIT)、意大利都灵理工大学(LPT)、法国科学研
究中心(LIMSI)等。近几年,我国清华大学、中国科学
院声学所、科大讯飞语音实验室也参加了测试。根据
2008、2010年NIST举办的全球说话人识别评测结果,
以科大讯飞为代表的我国声纹自动识别技术已经达到国
际领先水平。衡量声纹自动识别系统水平的一项重要指
标是在一定库容量下的等错误率,等错误率越低说明准
确度越高。目前国内外不同声纹自动识别系统水平参差
不齐,好的系统在NIST所制定的覆盖3000多人、10多个
语种以及各种信道的复杂情况测试集合上,对于2~3分
钟语音声纹识别的等错误率已经降到2.65%,达到实际
应用要求,成为司法说话人鉴定系统一个必不可缺的部
分。它能够准确快速筛选嫌疑人,并提供可靠的相似概
率,其结果与专家鉴定结论相互印证,极大提高了案件
侦破的效率和准确率。但是目前多数系统在解决海量数
据、不同信道以及噪声影响等关键技术方面效果还不理
想,离实际应用还有一些差距。[1]三、声纹库建设与应用
(一)声纹库建设的意义
随着近年来电信诈骗、绑架、敲诈勒索等案件呈现
不断上升趋势,声纹特征在公共安全领域的应用价值日益
突显。但目前相对于指纹和DNA而言,我国声纹的采
集、建库及管理应用能力等方面还有较大差距。当前,如
何在大量人群中快速准确地排查到犯罪嫌疑人,成为破案
关键所在。据文献报道,美、英等发达国家均建有犯罪人
员语音库,可以通过声纹自动识别技术快速锁定犯罪嫌疑
人,将侦查范围缩至极小,案件的侦破效率很高。
声纹库建设是我国公安机关“三项建设”的重要内
容之一,是集成了现代化声纹技术、信息技术和科学管理
的重要公安业务基础性工作,能够为处置重大突发事件、
侦破重大、疑难案件提供特殊而重要的技术支撑。与指纹
库、DNA库类似,声纹库建设是一项有着重要实战价值
的工作,具体表现在声纹特征具有非接触式采集的优点,
和已有DNA库和指纹库相关结合,可形成立体生物特征
库,建成后直接为多警种服务,是利用高科技手段在侦破
案件和诉讼活动中应用的一个新的增长点,将能有效提高
公安机关侦查破案的效率和能力,成为落实科技强警的重
要实践之一。
声纹库建设过程为:基于标准的声纹信息采集流
程,对被采集人员的声纹进行采集入库。声纹库的典型应
用模式是:当获得检材后,基于声纹检索技术,从声纹库
中获得与检材声纹最相似的前若干候选(列表),这些候682012年第4期前期研讨结果,声纹库管理系统拟采用省、部两级联动的
声纹库存储管理系统及声纹检索引擎,在各个基层信息采
集室部署专业声纹采集设备,并在市局部署声纹检索应用
客户端。整套系统各环节分工定义如图3所示。
声纹信息采集终端:主要部署在各基层信息采集室
中。采集系统按照标准声纹采集流程执行,要求填写被采
集人基本信息,具体包括姓名、身份证号、籍贯、口音、
文化水平、声音特点(如沙哑、尖、浑厚)等,采集端同
时集成对所采集声纹信息的质量评估功能,以确保所采集
的声纹信息达到入库要求。最终合格的声纹信息(以多通
道录音数据形式)及附带标注信息,通过专网上传汇总到
所在省级声纹库中。
省级声纹库管理中心:配备声纹库管理系统及声纹
检索引擎服务器集群。声纹库管理系统负责管理和保存本
省所有被采集人员的声纹信息。声纹检索引擎服务器负责
从上传的多通道录音数据中提取出用于声纹检索的声纹信
息,并上传到部级声纹库管理中心。声纹检索引擎服务器
同时处理各应用终端提交的声纹检索任务。
部级声纹库管理中心:配备声纹库管理系统及声纹
检索任务调配系统,负责保存全国声纹信息(不包括语音
数据部分)以及对应的身份等信息,以便作为省级声纹库
管理中心的备份。负责声纹检索任务调配系统、处理各省
中心提交的跨省声纹检索协查任务。
声纹应用终端:主要部署在各市局点,提供声纹信
息查找、下载及声纹检索任务提交和检索结果查看功能。
当某个地市出现了需要进行声纹检索的需求时,可以上传
检材,并指定检索范围(全省还是全国)和已知犯罪嫌疑选(列表)提交给鉴定专家进行进一步的声纹鉴定以确定
目标人或为案件侦查提供重要线索。声纹库建设及应用模
式如图2所示。
声纹建库的内容,参考指纹库及DNA库的建设经
验,主要包括以下四部分内容,下面逐一展开说明。
首先必须确保入库声纹的质量。因此需要通过科
学、系统的研究来制定针对自然人的声纹信息标准采集流
程,同时需要研制声纹采集的标准设备,并建立可操作的
声纹采集标准流程,形成公共安全行业标准,为声纹库建
设提供标准支撑,也确保采集入库的各个声纹能够发挥应
有的价值。
根据声纹自动识别技术现状及未来趋势分析,声纹
采集规范的制定应该特别注重以下几个方面:
(1)有效克服信道差异对识别结果的干扰,比如采
用多通道同时录音的方式提高声纹采集精度,且多个信道
的组合能够有效覆盖目前各种主流信道;
(2)充分考虑声纹信息采集内容的完整性;
(3)采集过程要有明确的可操作性。
高性能声纹检索引擎是声纹库建设及价值发挥的核
心。声纹库建设中,必须基于目前声纹识别领域的最新进
展,并且针对基于一个声纹检材片段在百万级声纹库中进
行检索以确定目标嫌疑人范围这一特殊任务,组织有实力
的技术团队进行针对性攻关。
明确声纹检索的关键指标,即在有限候选前提下,
声纹检索的召回率能够达到多少。根据未来可能实际应用
场景的预测和评估,声纹检索的性能应达到在包含50万个
自然人声纹的声纹库中,基于30秒有效语音以上的检材,
声纹检索引擎所给出的前100候选中,包含真正目标人的
召回率在98%以上。
要达到上述声纹检索性能,必须解决以下技术问题:
(1)文本无关的声纹识别;
(2)研究细节区分性算法来处理声纹的相似性;
(3)提高声纹检索的信道鲁棒性;
(4)检索速度及可扩展性问题,针对一个检材在百
万级声纹库中的声纹检索任务,耗时需要达到100秒以
内。
声纹库管理系统也是声纹库建设的重要工作,根据1.声纹采集设备的研制及标准的制定
2.高性能声纹检索引擎的研发
3.两级联动声纹库管理系统的研制(二)声纹库建设的主要内容