当前位置：文档之家› 基于EM算法的高斯混合模型参数估计

基于EM算法的高斯混合模型参数估计

（6 ）
p （x|θ ）=Σαipi（x|θi）
i=1
（13 ）
M
其中 θ （i-1）为已知的当前参数估计值。在式（6 ）中，X 和 θ
y~f （y|X ，θ（i-1））
（i-1）
其中参数 θ= （α1，…，αM，θ1，…，θM），且Σαi=1。观测
i=1
N
为常数，θ 为待优化的参数。 Y
0
引言
EM 算法是一种从 “ 不完全数据 ” 中求解模型参数
θ={θ1，…，θM}，这个密度函数由参数 θ 完全决定。已知 N
个观测值 x1，…，xN，假设它们是从分布密度为 p （x|θ ）的总体中独立抽取的。记 X={x1，…，xN} ，则：
N
的极大似然估计的方法，所谓 “ 不完全数据 ” 一般有两种情况：① 由于观察过程本身的限制或者错误，造成观察数据成为错漏的不完全数据； ② 参数的似然函数直接优化十分困难，而引入额外的参数（隐含的或丢失的）后就比较容易优化。于是定义原始观察数据加上额外数据组成 “ 完全数据 ”，原始观察数据自然就成为 “ 不完全数据 ”。
αy py （xi|θy ）
i i i
g
g
αy py （xi|θy ）
i i i
g
g
p （xi|θ ）
g
M
（17 ）
I1，这是一个条件极值问题，因此需要引入一个拉格朗
日乘子 λ ，解方程：
鄣鄣αl
Σα p
k=1 k
g
k
（xi|θk ）
g
进而可得：
N
ΣΣlog α ≠
l=1 i=1
研究与开发
基于 EM 算法的高斯混合模型参数估计
余爱华
（正德职业技术学院，南京 211106 ）摘要：讨论在一般的混合分布条件下，用 EM 算法，在最小熵原理的优化准则下的数据拟合问题。简单推导有限混合高斯分布的 EM 算法，并针对其收敛速度慢的缺点设计一种有效的选取参数初始值的方法。实验结果表明 , 该方法有助于 EM 算法以较快的速度在参数真值附近收敛。关键词：混合模型；极大似然估计； EM 算法
研究与开发
假设 X 为非完全数据，并且存在一个不可观测的数据 Y= ｛y i ｝ i=1 ，它的取值表示某一个观测数据来自某一类，由此隐变量假设可知，yi∈{1, … ,M} ，yi=k 表示第 i 个观测数据属于第 k 类。如果知道 y 的取值，那么：
N M
对于 l∈{1，…，M} ，
Q （θ ，θ ）＝Σlog （L （θ|X ，y ））p （y|X ，θ ）
y∈D N
i i i
N
Σp（l|x ，θ ），l=1，…，M
i g i=1
∧
（23 ）
为了得到参数估计 θl ，须知道 x 的条件概率密度函数形式。这里假设 x 服从高斯分布，均值为 μl，方差为 Σl ，即 θl = （μl,Σl ）。这样有，
从式（4）可以看出，密度函数 p （z|θ ）是由边沿密度函数 p （x|θ ）、隐变量 y 的假设、参数 θ 初始估计值以及隐变量与观测变量之间的关系决定。下面讨论密度函数 p（z|θ ）的具体形式。由式（4）给出的密度函数可以定义一个新的似然函数：
M M l ，yi N g j j
N
Σ…Σδ 仪p（y |x ，θ ）
yl=1 yN=1 M j=1 M
＝
≠ Σ
yl=1 N j=1 ，j≠i
…
p （l|x ，θ ） ΣΣ… Σ 仪 p（y |x ，θ ） ≠
g g j j i yi-1=1 yi=1 yN=1 j=1 ，j≠i g M g
M
N
log （p （X ，Y|θ ））=log仪p （xi，yi|θ ）
M
N
（ l ）p （l|xi，θg）+λ
=0 ≠ 鄣 Σα - 1 鄣
l=1 l
M
，（22 ）
p （y|X ，θ ）=仪p （yi|xi，θ ）
i=1
ggBiblioteka （18 ）l=1 ，…，M
得：
αl ＝ 1 N
∧
其中 Y = {y1，…，yN} 是隐变量 Y 的一次样本实现，且独立同分布。由此可知，如果给出参数初始估计值，并且假设存在隐变量 y ，由式（18）就得到 y 的边沿分布密度函数。由式（8）、（15 ）、（18）可知，完全数据的似然函数为 :
i=1 N
= 仪［Σp （yj|xj，θ ）］p （l|xi，θ ）
yj=1 g
i
=Σlog （p （xi，yi|θy ））
i=1 N
=p （l|xi，θ ）
（20 ）
=Σlog （p （xi，yi|θy ））py （yi|θy ））
i=1 N
i i i
由式（19）和式（20），得：
M N g
其中 f （y|X，θ （i-1））是不可观测数据 Y 的边沿分布密度函数，并且依赖于观测数据 X 和当前参数 θ（i-1），D 为 y 的取值空间。在一些特殊情况下，边沿分布 f（y|X，θ（i-1））是
X 和 θ （i-1）的简单解析函数，但通常这个函数很难得到。
髷
现代计算机
2011.08
其中 Θ 表示参数空间。为了便于求出使 L （θ|X ）达到极大的 θ ，通常对式（1）两边取对数，即：
N
ln （L （θ|X ））=Σln （p （xi|θ ））
i=1
（2 ）
将式（2）分别对 θi 求偏导，令偏导数等于零，得方程组：
鄣 ln （L （θ|X ））=0 ，i=1 ，…，M 鄣θi
pl （x| μl,Σl ）= 1
g
g
N g
=ΣΣlog ［αy py （xi|θy ）］仪p （yj|xj，θ ）
p （z|θ ）=p （x ，y|θ ）=p （y|x ，θ ）p （x|θ ）
（4 ）
其中 y 服从某一分布 fY（y ）。那么 :
EY［h （θ ，Y ）］＝
乙h（θ，Y）f （y）dy芊q（θ）
y Y
∧
（11 ）
从式（11）可知 EY［h （θ ，Y）］是关于 θ 的函数，以通过简单的最优化方法得到参数 θ 的估计值 θ 。期望值
L （θ|Z ）=L （θ|X ，Y ）芊p （X ，Y|θ ）
（5 ）
EY［h（θ，Y）］的计算也就是 EM 算法的 E-step 。 EM 算法的第二步 M-step：最大化期望值 Q（θ，θ（i-1）），
即找到一个 θ i，满足：
θ i＝argmin (Q（θ，θ（i-1））)
Θ
（12 ）
的数据是 Y ，完全数据 X= （Y ，Z ），Z 是缺失数据，θ 是模型参数。 θ 关于 Y 的后验分布 p （θ|Y ）均很复杂，难以进行各种不同统计计算。假如缺失数据 Z 已知，则可能得到一个关于 θ 的简单的添加后验分布 p （θ |y ，z ），利用 p （θ|y ，z ）的简单性我们可以进行各种统计计算。然后，我们可以对 Z 的假定作检查和改进，如此进行，我们将一个复杂的极大化或抽样问题转化为一系列简单的极大化或抽样问题。
EM 算法的第一步 E-step ：即给定观测 X 值和当
前参数估计值，计算完全数据对数似然函数 logp （X，Y|
知道它们是从混合密度为 p（x|θ）的总体中独立抽取的，
M
θ）关于未知数据 Y 的期望。为此，定义对数似然函数的
期望：
Q （θ ，θ（i-1））=E ［logp （X ，Y|θ ）｜X ，θ（i-1）］
p （X|H ）=仪p （xi|θ ）芊L （θ|X ）
i=1
（1 ）
函数 L （θ|X ）称为似然函数。当 X 固定时，L （θ|X ）是
θ 的函数。极大似然参数估计的实质就是求出使 L（θ|X）
达到极大时 θ 值，即：
θ=argmin （L （θ|X ））
Θ
EM 算法基本原理可以表述如下：我们可以观察到
现代计算机
2011.08
髶
研究与开发
际应用中的一种有效方法。
由乘法公式，得 :
f（y，X|，θ（i-1））=f（y|X，θ（i-1））f（X|θ（i-1））
（9 ）
2
EM 算法
EM 算法是进行极大似然估计的一种有效方法，它
由于因子 f（x|θ（i-1））与 θ 无关，所以在实际问题处理中，用 f（y，X|θ（i-1））代替 f（y|X，θ（i-1））不影响式（8 ）中似然函数的最优化。定义二元函数：
h （θ ，Y ）芊logL （θ|X ，Y ）
（10 ）
主要应用于下面两种非完全数据参数估计： ① 观测数据不完全，这是由于观测过程的局限性所导致；② 似然函数不是解析的，或者似然函数的表达式过于复杂从而导致极大似然函数的传统估计方法失效，第二种情况在模式识别中经常遇到。假设 X 是服从某一分布的非完全观测数据集，且存在一个完全数据集 Z= （X ，Y ），则 Z 的密度函数为：
（7 ）
样本的对数似然函数表达式为：

e商务文档

基于EM算法的高斯混合模型参数估计

相关文档推荐：