当前位置:文档之家› 基于EM算法的高斯混合模型参数估计

基于EM算法的高斯混合模型参数估计

(6 )
p (x|θ )=Σαipi(x|θi)
i=1
(13 )
M
其中 θ (i-1)为已知的当前参数估计值 。 在式 (6 ) 中 ,X 和 θ
y~f (y|X ,θ(i-1))
(i-1)
其中参数 θ= (α1,…,αM,θ1,…,θM),且Σαi=1。 观测
i=1
N
为常数 ,θ 为待优化的参数 。 Y
0
引 言
EM 算法是一种从 “ 不完全数据 ” 中求解模型参 数
θ={θ1,…,θM},这个密度函数由参数 θ 完全决定 。 已知 N
个观测值 x1,…,xN, 假设它们是从分布密度为 p (x|θ ) 的 总体中独立抽取的 。 记 X={x1,…,xN} ,则 :
N
的 极大似然估计的方法 , 所谓 “ 不完全 数 据 ” 一 般 有 两 种情况 :① 由于观察过程本身的限制或者错误 , 造成观 察数据成为错漏的不完全数据 ; ② 参数的似然函数直 接优化十分困难 , 而引入额外的参数 ( 隐含的或丢失 的 ) 后就比较容易优化 。 于是定义原始观察数据加上额 外数据组成 “ 完全数据 ”, 原始观察数据自然就成为 “ 不 完全数据 ”。
αy py (xi|θy )
i i i
g
g
αy py (xi|θy )
i i i
g
g
p (xi|θ )
g
M
(17 )
I1, 这是一个条件极值问题 , 因此需要引入一 个 拉 格 朗
日乘子 λ , 解方程 :
鄣 鄣αl
Σα p
k=1 k
g
k
(xi|θk )
g
进而可得 :
N
ΣΣlog α ≠
l=1 i=1
研究与开发
基于 EM 算法的高斯混合模型参数估计
余爱华
( 正德职业技术学院 , 南京 211106 ) 摘 要 : 讨论在一般的混合分布条件下 , 用 EM 算法 , 在最小熵原理的优化准则下的 数 据 拟合 问 题 。 简单推导有限混合高斯分布的 EM 算法 , 并针对其收敛速度慢的缺点设计 一 种 有效 的 选 取 参数初始值的方法 。 实 验 结 果表 明 , 该 方法 有 助 于 EM 算 法 以 较快 的 速 度在 参 数 真值 附 近 收敛 。 关键词 : 混合模型 ; 极大似然估计 ; EM 算法
研究与开发
假设 X 为非完全数据 , 并且存在一个不可观测的 数据 Y= {y i } i=1 , 它的取值表示某一个观测数据来自某 一类 , 由此隐变量假设可知 ,yi∈{1, … ,M} ,yi=k 表示第 i 个观测数据属于第 k 类 。 如果知道 y 的取值 , 那么 :
N M
对于 l∈{1,…,M} ,
Q (θ ,θ )=Σlog (L (θ|X ,y ))p (y|X ,θ )
y∈D N
i i i
N
Σp(l|x ,θ ),l=1,…,M
i g i=1

(23 )
为了得到参数估计 θl , 须知道 x 的条件概率密度 函数形式 。 这里假设 x 服从高斯分布 , 均值为 μl, 方差 为 Σl , 即 θl = (μl,Σl )。 这样有 ,
从式 (4) 可以看出 , 密度函数 p (z|θ ) 是由边沿密度 函数 p (x|θ )、 隐变量 y 的假设 、 参数 θ 初始估计值以及 隐变量与观测变量之间的关系决定 。 下面讨论密度函数 p(z|θ ) 的具体形式 。 由式 (4) 给出的密度函数 可 以 定 义 一 个 新 的 似 然 函数 :
M M l ,yi N g j j
N
Σ…Σδ 仪p(y |x ,θ )
yl=1 yN=1 M j=1 M

≠ Σ
yl=1 N j=1 ,j≠i

p (l|x ,θ ) ΣΣ… Σ 仪 p(y |x ,θ ) ≠
g g j j i yi-1=1 yi=1 yN=1 j=1 ,j≠i g M g
M
N
log (p (X ,Y|θ ))=log仪p (xi,yi|θ )
M
N
( l )p (l|xi,θg)+λ
=0 ≠ 鄣 Σα - 1 鄣
l=1 l
M
, (22 )
p (y|X ,θ )=仪p (yi|xi,θ )
i=1
ggBiblioteka (18 )l=1 ,…,M
得:
αl = 1 N

其中 Y = {y1,…,yN} 是隐变量 Y 的一 次 样 本 实 现 , 且独立同分布 。 由此可知 , 如果给出参数初始估计值 , 并且假设存在隐变量 y , 由式 (18) 就得到 y 的边沿分布 密度函数 。 由式 (8)、(15 )、(18) 可知 , 完全数据的似然 函数为 :
i=1 N
= 仪 [Σp (yj|xj,θ )]p (l|xi,θ )
yj=1 g
i
=Σlog (p (xi,yi|θy ))
i=1 N
=p (l|xi,θ )
(20 )
=Σlog (p (xi,yi|θy ))py (yi|θy ))
i=1 N
i i i
由式 (19)和式 (20), 得 :
M N g
其中 f (y|X,θ (i-1)) 是不可观测数据 Y 的边沿分布密 度函数 ,并且依赖于观测数据 X 和当前参数 θ(i-1),D 为 y 的取值空间 。 在一些特殊情况下 ,边沿分布 f(y|X,θ(i-1))是
X 和 θ (i-1)的简单解析函数 , 但通常这个函数很难得到 。

现代计算机
2011.08
其中 Θ 表示参数空间 。 为了便于求出使 L (θ|X ) 达 到极大的 θ ,通常对式 (1) 两边取对数 ,即 :
N
ln (L (θ|X ))=Σln (p (xi|θ ))
i=1
(2 )
将式 (2) 分别对 θi 求偏导 , 令偏导数等于零 , 得 方 程组 :
鄣 ln (L (θ|X ))=0 ,i=1 ,…,M 鄣θi
pl (x| μl,Σl )= 1
g
g
N g
=ΣΣlog [αy py (xi|θy )]仪p (yj|xj,θ )
p (z|θ )=p (x ,y|θ )=p (y|x ,θ )p (x|θ )
(4 )
其中 y 服从某一分布 fY(y )。 那么 :
EY[h (θ ,Y )]=
乙h(θ,Y)f (y)dy芊q(θ)
y Y

(11 )
从 式 (11) 可 知 EY[h (θ ,Y)] 是 关 于 θ 的 函 数 , 以 通 过简单的最优化 方法得到参数 θ 的估计值 θ 。 期望值
L (θ|Z )=L (θ|X ,Y )芊p (X ,Y|θ )
(5 )
EY[h(θ,Y)]的计算也就是 EM 算法的 E-step 。 EM 算法的第二步 M-step:最大化期望值 Q(θ,θ(i-1)),
即找到一个 θ i, 满足 :
θ i=argmin (Q(θ,θ(i-1)))
Θ
(12 )
的数据是 Y , 完全数据 X= (Y ,Z ),Z 是缺失数据 ,θ 是模 型参数 。 θ 关于 Y 的后验分布 p (θ|Y ) 均很复杂 ,难以进 行各种不同统计计算 。 假如缺失数据 Z 已知 ,则可能得 到一个关于 θ 的简单的添加后验分布 p (θ |y ,z ), 利用 p (θ|y ,z ) 的简单性我们可以进行各种统计计算 。 然后 ,我 们可以对 Z 的假定作检查和改进 , 如此进行 , 我们将一 个复杂的极大化或抽样问题转化为一系列简单的极大 化或抽样问题 。
EM 算法的第一步 E-step : 即给定观测 X 值和当
前参数估计值 , 计算完全数据对数似然函数 logp (X,Y|
知道它们是从混合密度为 p(x|θ)的总体中独立抽取的 ,
M
θ)关于未知数据 Y 的期望 。 为此 ,定义对数似然函数的
期望 :
Q (θ ,θ(i-1))=E [logp (X ,Y|θ )|X ,θ(i-1)]
p (X|H )=仪p (xi|θ )芊L (θ|X )
i=1
(1 )
函数 L (θ|X ) 称为似然函数 。 当 X 固定时 ,L (θ|X ) 是
θ 的函数 。 极大似然参数估计的实质就是求出使 L(θ|X)
达到极大时 θ 值 ,即 :
θ=argmin (L (θ|X ))
Θ
EM 算法基本原理可以表述如下 : 我们可以观察到
现代计算机
2011.08

研究与开发
际应用中的一种有效方法 。
由乘法公式 , 得 :
f(y,X|,θ(i-1))=f(y|X,θ(i-1))f(X|θ(i-1))
(9 )
2
EM 算法
EM 算法是进行极大似然估计的一种有效方法 ,它
由于因子 f(x|θ(i-1))与 θ 无关 , 所以在实际问题处理 中 , 用 f(y,X|θ(i-1))代替 f(y|X,θ(i-1))不影响式 (8 ) 中似然函 数的最优化 。 定义二元函数 :
h (θ ,Y )芊logL (θ|X ,Y )
(10 )
主要应用于下面两种非完全数据参数估计 : ① 观测数 据不完全 , 这是由于观测过程的局限性所导致 ;② 似然 函数不是解析的 , 或者似然函数的表达式过于复杂从 而导致极大似然函数的传统估计方法失效 , 第二种情 况在模式识别中经常遇到 。 假设 X 是服从某一分布的非完全观测数据集 , 且 存在一个完全数据集 Z= (X ,Y ), 则 Z 的密度函数为 :
(7 )
样本的对数似然函数表达式为 :
相关主题