42第30卷 第4期 湖南科技学院学报 V ol.30 No.4 2009年4月 Journal of Hunan University of Science and Engineering Apr.2009隐马尔可夫模型(HMM)及其应用王志堂1蔡淋波2(1.湖南科技学院 教育科学系, 湖南 永州 425100;2. 五邑大学 信息学院,广东 江门 529020) 摘 要:隐马尔可夫模型(HMM)是序列数据处理和统计学习的一种重要概率模型,具有建模简单、数据计算量小、运行速度快、识别率高等特点,近几年来已经被成功应用到许多工程任务中。
文章介绍了隐马尔可夫模型,并对HMM 及其改进的HMM 在语音处理技术、人脸识别和人脸表情识别中的应用进行了叙述。
关键词:隐马尔可夫模型; 语音处理; 人脸识别; 人脸表情识别中图分类号:TP391.4 文献标识码:A 文章编号:1673-2219(2009)04-0042-030 引 言隐马尔可夫模型(HMM )最早于1957年被提出[1],在20世纪80年代被成功应用于声学信号建模。
近年来,也有文献把HMM 应用于金融市场的波动性分析、经济预算、神经生理学与生物遗传等方面。
在理论方面Leroox 与Bickel and Ratov 分别给出了隐马尔可夫模型在大数定律与中心极限定理方面的一些性质[2,3]。
目前HMM 主要应用在工程领域,如图像处理、语音人工合成、地震勘探、生物信号处理等,并取得了具有科学意义和应用价值的重要成果。
因此,结合实际应用,进一步研究各种新型隐马尔可夫模型及其性质,具有十分重要的意义[4]。
本文介绍了隐马尔可夫模型,概括了HMM 及其改进的HMM 在语音处理技术、人脸识别和人脸表情识别中的应用。
1 HMM 的基本理论HMM 是一个双内嵌式随机过程,即HMM 是由两个随机过程组成,一个是隐含的状态转移序列,它对应一个单纯的Markov 过程;另一个是与隐状态有关的观测序列。
并且在这两个随机过程中,有一个随机过程(状态转移序列)是不可观测的,只能通过另一个随机过程的输出观测序列进行推断,所以称之为隐马尔可夫模型,其基本要素包括:(1) 模型的状态数N 。
如果S 是状态集合,则{}N S S S S ,,,21"=。
模型在时间t 的状态记为,S q t ∈,1收稿日期:2008-12-18 修改日期:2009-01-20 基金项目:广东省自然科学基金项目(07010869);北京大学视觉与听觉信息处理国家重点实验室开放课题基金项目 (0505);浙江大学CAD &CG 国家重点实验室开放课题(A0703)。
作者简介:王志堂(1984-),男,助教,主要研究方向为电子技术应用。
蔡淋波(1982-),女,硕士研究生,主要研究方向为图像处理、信号处理。
≤t ≤T ,T 是观察序列的长度。
模型经历的状态序列记为{}t q q q Q ,,,21"=。
(2) 观察符号数M 。
设V 是所有观察符号的集合,则{}M v v v V ,,,21"=。
(3) 状态转移的概率分布A 。
状态转移的概率分布可表示为{}ija A =,其中=ija{}i t j t S q S q P ==+|1,N j i ≤≤,1,且满足∑==≥Nj ijij aa 11,0,表示时刻t 从状态t S 转移到时刻t +1状态j S 的转移概率。
(4) 状态i S 条件下输出的观测变量概率分布B 。
假设观测变量的样本空间为V ,在状态i S 时输出观测变量的概率分布可表示为:=B(){}V v N i v b i ∈≤≤,1,,其中()=v b i {}i t t S q v Q f ==|,t Q 为时刻t 的观测随机变量,可以是一个数值或向量,观测序列记为{}t O O O O ,,,21"=。
值得注意的是,此处观测变量的样本空间和概率分布可以为离散型,也可为连续型。
(5) 系统初始状态概率分布π。
系统初始状态概率分布可表示为{}N i i ≤≤=1,ππ,其中=i π {}i S q P =1。
综上可知,要描述一个完整的HMM ,需要模型参数{}π,,,,B A M N 。
为了简化,常用下面的形式来表示,即{}πλ,,B A =。
此外,对于一个标准HMM 模型,需要解决模型训练、隐状态估计和似然计算三个基本问题。
2 HMM 及其扩展在模式识别中的应用2.1 HMM 在语音处理中的应用HMM 是序列数据处理和统计学习的一种重要概率模型,近几年来已经被成功应用到许多语音处理的任务中。
文献[5]中给出了一种基于隐马尔可夫模型的中文科研论文头部信息抽取过程以及模型结构的学习和参数的训练等关键问题的解决方法。
对中文论文头部信息的抽取固定在标题、作者、单位、地址、邮编、摘要、关键词、中图分类号、文献标识码、文章编号、栏目和电子邮箱12个抽取域。
43抽取过程描述如下:(1)对论文头部进行预处理。
主要是依据回车和逗号、分号等标点符号对头部信息进行语义块切分,然后在语义块基础上进行信息抽取,这样可以有效提高抽取准确率和召回率。
另外还要根据“摘要:”、“中图分类号:”等特定标签将相应抽取域标识;(2)根据一些特征对部分语义块(如标题、单位等)进行词语切分,然后计算各个词语或语义块的输出概率;(3)在给定的HMM 模型下,用韦特比算法进行计算,求出状态序列,即语义块相关联的域,然后按关联结果抽取各语义项。
文献[6]提出了基于两层隐马尔可夫模型的可视语音合成技术。
对于上层,建立各态历经的26个状态的隐马尔可夫模型,以口型序列作为观察值序列进行训练,统计口型变化的动力学,训练的结果是每个状态近似对应一类口型。
下层基于上层的训练结果,对上层各状态对应的口型类建模,进一步分析各口型类与相应语音之间的对应关系。
通过下层的隐马尔可夫模型参数精确描述与每个口型类对应的语音时序变化特性。
相对于语音的概率密度分布表示法,隐马尔可夫模型更能反映出语音的动态时序变化特性,特别是在建模过程中,可以有效结合语音的上下文相关性约束,即对于每个口型帧,利用其对应的语音去训练模型时,结合该语音帧前后的各帧信息,如图1所示,展示了语音隐马尔可夫模型所反映的口型和语音之间对应关系。
再结合上层对口型转移规律的统计信息实现可视语音合成,两层模型的统计约束参数解决了语音到口型多对多的对应问题,合成出了准确率高、连贯、自然的口型序列,并且该方法可实现完全自动化。
图1 基于隐马尔可夫模型的语音到口型映射2.2 HMM 在人脸识别中的应用HMM 是用概率统计的方法来进行时序数据识别模拟的分类器。
最早将 HMM 应用于人脸识别的文献[7-8]根据人脸由上至下各个区域(如头发、额头、眼睛、鼻子和嘴巴)具有自然不变的顺序这一相似共性,即可用一个 1D-HMM 表示人脸。
根据人脸水平方向也具有相对稳定的空间结构,因此可将沿垂直方向划分的状态分别扩充为一个 1D-HMM ,共同组成了 P2D-HMM 。
文献[9]提出基于HMM 的自动人脸识别方法,建立人脸模型如图2所示,与其它人脸识别方法的性能比较如表1所示。
表1是基于HMM 人脸识别方法和其他人脸识别方法的性能比较。
表1 人脸识别方法恨性能比较方法 提取特征 识别率(%) 识别时间(S)1D-2HMM 象素灰度值 87.0Eigenface 90.5P2D-2HMM 象素灰度值 94.5 240Elastic Matching 80.0 PDNN 96.0 <0.1ConventionalNN96.2 <0.51D-2HMM DCT 系数 84.0 2.5P2D-2HMM DCT 系数 1001D-2HMM KLT 系数 86.2 2.5 P2D-2HMM DCT 系数 97.2 4.6SVM/HMM ICA 系数 97.0 2.1a33a12图 2 用 HMM 建立人脸模型的基本原理图文中提出的方法显示出了较高的识别率,对姿态和环境的变化也具有较好的鲁棒性。
与个别方法相比可能未达到所记载的最高的检测率和识别率,但文中的系统通过逐步完善检测识别方法,建立结构简单的模型,识别快速准确,所以本系统的总体性能还是有一定的优越性的。
2.3 HMM 在人脸表情识别中的应用HMM 在人脸表情识别中应用模型步骤如下:(1)评估问题:得到观察序列=O {}t O O O ,,,21"和模型λ=(π, A , B ),利用前向-后向算法快速计算出在该模型下,观察事件序列发生的概率P (O /λ)。
(2)解码问题:利用Viterbi 算法选择对应的状态序列{}t q q q S ,,,21"=,使S 能够合理地解释观察序列O 。
即揭开模型的隐含部分,在优化准则下找到最优状态序列。
(3)学习问题:利用Baum-Welch 算法调整模型参数λ=(π, A , B ),即得到模型中的五个参数,使得P (O /λ)最大。
人脸表情识别的任务就在于通过表情图像来分析和建立HMM ,对表情进行训练和识别。
人脸表情HMM 状态的划分和确定如图3所示,实验结果表2所示。
表2 实验结果表情正确错误正确率平均识别率中性 1000100%87.14%高兴 93793%87.14%惊讶 901090%87.14%愤怒 871387%87.14%恐惧 821882%87.14%厌恶 802080%87.14%悲伤 782278%87.14%眉毛眼睛下巴嘴鼻子图3 人脸表情HMM状态的划分和确定3 结束语隐马尔可夫模型在统计学中是一个十分重要的模型,有着广泛的应用。
有关HMM的方法很多,如二阶隐马尔可夫模型,改进的隐马尔可夫模型,自回归隐半马尔可夫模型,嵌入式隐马尔可夫模型等等。
文章简要介绍了隐马尔可夫模型,并对几种HMM在自然语音识别、人脸识别及人脸表情识别中的应用做了介绍。
目前,经典隐马尔可夫模型的应用研究已趋成熟,但研究出HMM与其它各种算法相结合的方法,将其应用到各类工程问题中,将是未来研究的主要方向。
参考文献:[1]龚光鲁, 钱敏平. 应用随机过程教程[M]. 北京:清华大学出版社, 2004: 249.[2]Leroux B G. Maximum-likelihood estimation forhiddenMarkov models[J]. Stochastic Processes and their Appl, 1992, 40: 127-143.[3]Bickel P J, Ritov Y. Asmptoticnormality of themaximum-likelihood estimator for general hiddenMarkov models[J]. The Annals of Statistics, 1998, 26(4): 1614-1635. [4] Freitag D, McCallum A. Information extraction with HMMstructures learned by stochastic optimization[A].Proceedings of the Eighteenth Conference on Artificial Intelligence [C]. Edmonton: AAAI Press, 2002:584-589. [5]于江德, 樊孝忠, 尹继豪. 隐马尔可夫模型在自然语音处理中的应用[J],计算机工程与应用, 2007, 28(22): 5514-5516.[6]尹宝才, 李敬华, 贾熹滨等. 基于两层隐马尔可夫模型的可视语音合成[J]. 北京工业大学学报, 2006, 32(5): 416-418.[7]Samaria F, Young S. HMM based architecture for faceidentification[J]. Image and ComputerVision, 1994, 12(8): 537 - 583.[8]Nefian A V, Hayes M H. Face detection and recognitionusing Hidden Markov Models[A]. Proceedings of the International Conference on Image Processing[C], 1998.141 - 145.(责任编校:刘志壮)Hidden Markov Model(HMM) and Its ApplicationWang Zhi-tang1 Cai Lin-bo2(1 .Department of Educational Science, Hunan University of Science and Engineering, Hunan Yongzhou, 425100, China;2 .School of Information, Wuyi University, Jiangmen Guangdong 529020,China)Abstract: Hidden Markov Model (HMM) is one of important sequence data processing and statistical study probabilistic model.With the characteristics of simple model, small data computation, high running rate and high recognition rate,it have already been succeeded in many projects in recent years. This article introduces the Hidden Markov Model, and reviews the application of HMM & improved HMM in speech processing technology, face recognition and facial expression recognition.Keywords: Hidden Markov Model; Speech processing; Face recognition; Facial expression recognition44。