说话人识别技术研究马 建 郭建东(电子科技大学计算机学院四川成都610054)
【摘 要】 说话人识别,是指通过说话人的语音来自动识别说话人的身份,它主要包括特征提取和模式匹配两个部分。随着计算机技术和人工智能的发展,通过说话人识别实现特定场合的实体鉴别已经具有非常重要的研究和应用价值。【关键词】 说话人识别;说话人辨认;说话人确认
人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官———舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可能来自生理、病理、心理、模拟、伪装,也可能与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,说话人的鉴定仍能区别不同的人或法定是同一人的声音,从而可以进行个人身份识别。说话人识别(SpeakerRecognition),根据应用环境不同可分为两类,即说话人辨认(SpeakerIdentification)和说话人确认(SpeakerVerification)。说话人辨认是通过一段语音确认身份的过程,在说话人辨认中,我们需要将待识声音和已知人群中的每一个人的特征逐一进行比较,从中辨别出说话人,系统的决策选择数目为说话者的数目。因此,说话人辨认系统的性能是随着说话人集合的规模增大而降低。说话人确认是证实某一说话人是否是他所声称的身份的过程。在说话人确认中,只需将待识声音与注册说话人自己的模型比较,以确定是否是注册者本人的声音,系统只需给出正确或错误两种选择。因此,说话人确认系统的性能是与说话人集合的规模无关。两类系统的不同之处如表1所示。表1 说话人识别的两类系统比较[1]说话人辨认说话人确认说话人未必合作说话人主动合作存在发音伪装问题存在发音模仿问题必须与N个已知模式进行比较只需与一个已知模式进行比较系统响应可以缓慢系统响应必须快速词汇表可以各个不相同词汇表限于标准试验短语通道特性可能不良或不同通道特性往往可以调整信噪比可能太低信噪比通常可调 与语音识别不同的是,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。说话人识别可能被用三种方式进行:文本相关的(Text-Dependent)、文本提示的(Text-Prompted)和文本无关的(Text-Independent)三种。与文本有关的说话人识别系统要求用户按照规定的内容发音,每个人的声音模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。而与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。无论是与文本有关还是无关,系统都面临一个共同的问题,即无法区分一个声音是现场声音还是录音。但文本提示的说话人识别系统可以有效地避免这种情况发生。具体实现时,可采用随机或其他方法来生成提示文本,如随机的数字串或句子,以使假冒者无法事先录音。在说话人辨认方面,根据待识别的说话人是否在注册的说话人集合内,说话人辨认可以分为开集(open-set)辨认和闭集(close-set)辨认。闭集的说话人辨认是指系统具有这样的先
验知识;测试的说话人肯定是训练集中出现过的说话人。而开集的说话人辨认则指所测试的说话人还有可能是训练集中没有出现过的人。开集的说话人辨认和说话人确认通常都通过一个阈值来判断测试的说话人是不是在训练集中。说话人识别系统主要包括两个部分:特征提取和模式匹配(如图1所示)。特征提取的任务是选取惟一表现说话人身份
的有效且稳定可靠的特征;模式匹配的任务是对训练和识别时的特征模式进行相似性的匹配。
图1 说话人识别系统的典型结构特征提取
说话人的模型不是由语音信号得到的,而是通过从语音信号中提取特征而得到的,是说话人语音特征的模型。测试音只有在经过特征提取后才与说话人的模型进行比较和匹配,训练语音也只有进行语音特征提取后才能得到其特征的模型,因此特征提取是说话人识别系统中的重要组成部分。与计算机处理相对应,可以将人类的声音特征划分为以下三个层次:声道声学层次,在分析短时信号的基础上,抽取对通道、时间等因素不敏感的特征;韵律特征层次,抽取独立于声学、声道等因素的超音段特征,如方言、韵律、语速等;语言结构层次,通过对语音信号的识别,获取更加全面和结构化的语义信息。说话人识别系统主要针对较低层次的声道声学特征进行建模,主要有基音(Pitch)周期、共振峰(Format)、基于线性预测(LinearPredictive)的倒谱(Cepstrum)、基于付氏变换的FFT
倒谱、基于语音信号的滤波器组分析的Mel倒谱和语音谱的过渡信息(TransitionalInformation)等。总之,较好的特征提取,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能等等。模式匹配测试音的特征与说话人模型进行匹配,计算匹配距离。说话人确认时,只与所声称的说话人的模型进行匹配和匹配距离计算;说话人辨认时,与所有人的模型进行匹配和匹配距离计算。目前针对各种特征而提出的模式匹配方法的研究越来越深入,大致可归为三类:基于非参数模型的方法、基于参数模型
8福 建 电 脑 2005年第1期的方法、基于神经网络模型的方法。典型的非参数模型有模板匹配、矢量量化模型(VectorQuantizationModel)等。模板匹配方法用语音信号某些特征的长时间的均值来辨认说话人,这一均值我们也称为统计平均。使用模板匹配方法,就是对待识语音计算平均值。并与已经储存的每一说话人训练平均值进行比较。在模板模型系统中,补偿说话率偏差的最流行方法是动态时间规整(DTW)方法。矢量量化模型作为一种非参数模型,是目前文本无关的说话人识别方法的评估基准。从语音信号中提取的说话人特征,常是一多维矢量的时间序列。矢量量化模型就是从这些矢量中寻找到少数具有代表性的典型矢量进而构的说话人模型。寻找代表矢量(码本)为一矢量聚类问题,可通过聚类等算法来实现。用矢量量化模型识别说话人的过程如下:对某一说话人,其训练语音的特征矢量序列通过聚类算法可聚为M类,求每类中的所有矢量的均值(或选择类中的一个成员)就得到了每类的码本矢量。M个码本矢量构成了该说话人的矢量量化模型。在识别过程中,将待识语音的每一特征矢量到某一说话人的M个三本矢量的一个最小距离进行累加,累加和最小的说话人作为识别结果。这种方法的识别精度较高,且判断速度快。参数模型是指采用某种概率密度函数来描述说话人的语音特征空间的分布情况,并以该概率密度函数的一组参数来作为说话人的模型。这些参数可以用从训练语音中提取的特征参量来估计。说话人识别系统中经常采用的概率模型有:高斯模型、高斯混合模型(GassianMixtureModel,GMM)、隐马尔可夫模型(HiddenMarkovMode,HMM)等。每一说话人的语音特征在特征空间中都形成了特定的分布,可以用这一分布来描述说话人的个性。高斯混合模型(GMM)是用多个高斯分布的线性组合近似说话人的特征分布,识别是将最能够产生测试音特征的说话人分布模型对应的说话人作为识别结果。HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。说话人识别系统中采用的神经网络模型有多层感知器(Multi-LayerPerceptron,MLP)、径向基函数(RadialBasis
Function,RBF)、时延神经网络(Time-DelayNeuralNetwork,TDNN)、自组织特生映射(Self-OrganizingFeatureMap,SOM)等。人工神经网络模仿人脑的信息处理机制,把大量结构非常简单的计算单元相互连接起来,实现高度并行和分散的信息处。尤其适合于说话人识别这类与人的感知有关的信息处理问题。它可以通过从示例中学习,实现网络具有的自我组织、自适应、自学习能力。从语音中说话人个性特征与说话人的对应关系上讲。说话人识别是一个非常复杂的非线性分类问题,
而人工神经网络,尤其是多层感知器结构的人工神经网络有着传统分类方法所不能比拟的分类能力。人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱,网络规模随说话人数目的增加可能会大到难以训练的程度。对于说话人确认系统,表征其性能的最重要的两个参量是错误拒绝率和错误接受率。前者是拒绝真实的说话人而造成的错误,后者是接受假冒者而造成的错误,二者与阈值的设定相关。说话人确认系统的错误率与用户数目无关,而说话人辨认系统的性能与用户数目有关,并随着用户数目的增加,系统的性能会不断下降。说话人识别应用前景与其他生物识别技术,诸如指纹识别、掌形识别、虹膜识别等相比较,声纹识别除具有不会遗失和忘记、不需记忆、使用方便等优点。其主要应用领域包括以下几方面:
(1)说话人核对:包括电话预约业务的声音确认转帐、汇
款、余额通知、股票行情咨询等。(2)搜索罪犯:判断犯罪现场记录的声音是多个嫌疑犯中
的哪一个人的声音,有时可能嫌疑犯中不包有真正的罪犯,此时常常需要将说话人辨认与确认合起来。(3)医学应用:如使声纹识别系统响应患者的命令,从而实
现对机器假肢的控制等。(4)军事领域应用:通过电子侦听,在众中信号找出侦听对
象信号;通过语音辨别确认己方指挥员的命令而不致为敌方查假信号所欺骗。