当前位置:文档之家› 基于贝叶斯网络的各种抽样方法比较

基于贝叶斯网络的各种抽样方法比较

摘要: 本文主要介绍了贝叶斯网的基本概念以及重要性抽样方法的基本理论和概率推理, 重点介绍了两种重要的抽样方法, 即逻辑抽样方法和似然加权法, 并且比较了它们的优缺点关键词: 贝叶斯网 抽样法 无偏估计1.引言英国学者T.贝叶斯1763年在《论有关机遇问题的求解》中提出一种归纳推理的理论, 后被一些统计学者发展为一种系统的统计推断方法, 称为贝叶斯方法.采用这种方法作统计推断所得的全部结果, 构成贝叶斯统计的内容.认为贝叶斯方法是唯一合理的统计推断方法的统计学者, 组成数理统计学中的贝叶斯学派, 其形成可追溯到 20世纪 30 年代.到50~60年代, 已发展为一个有影响的学派.Zhang 和Poole 首先提出了变量消元法, 其原理自关于不定序动态规划的研究(Bertele and Brioschi,1972).相近的工作包括D`Ambrosio (1991)、Shachter (1994)、Shenoy (1992)等人的研究.近期关于变量消元法的研究可参见有关文献【1】由于变量消元法不考虑步骤共享, 故引进了团树传播法, 如Hugin 方法.在实际应用中, 网络节点往往是众多的, 精确推理算法是不适用的, 因而近似推理有了进一步的发展. 重要性抽样法(Rubinstein, 1981)是蒙特尔洛积分中降低方差的一种手段, Henrion (1988)提出了逻辑抽样, 它是最简单也是最先被用于贝叶斯网近似推理的重要性抽样算法. Fung 和Chang (1989)、Shachter 和Peot (1989)同时提出了似然加权算法. Shachter 和Peot (1989)还提出了自重要性抽样和启发式重要性抽样算法. Fung 和Favero (1994)提出了逆序抽样(backward sam-pling ), 它也是重要性抽样的一个特例. Cheng 和Druzdzel (2000)提出了自适应重要性抽样算法, 同时也给出了重要性抽样算法的通用框架, 这就是各种抽样方法的发展状况. 本文就近似推理阐述了两种重要的抽样方法即逻辑抽样方法和似然加权法, 并比较了它们的优缺点.2. 基本概念2.1 贝叶斯网络的基本概念贝叶斯网络是一种概率网络, 用来表示变量之间的依赖关系, 是带有概率分布标注的有向无环图, 能够图形化地表示一组变量间的联合概率分布函数.贝叶斯网络模型结构由随机变量(可以是离散或连续)集组成的网络节点, 具有因果关系的网络节点对的有向边集合和用条件概率分布表示节点之间的影响等组成.其中节点表示了随机变量, 是对过程、事件、状态等实体的某些特征的描述; 边则表示变量间的概率依赖关系.起因的假设和结果的数据均用节点表示, 各变量之间的因果关系由节点之间的有向边表示, 一个变量影响到另一个变量的程度用数字编码形式描述.因此贝叶斯网络可以将现实世界的各种状态或变量画成各种比例, 进行建模.2.2重要性抽样法基本理论设()f X 是一组变量X 在其定义域n X R Ω⊂上的可积函数.考虑积分()()X I f X d X Ω=⎰ (2.2.1)为了近似计算这一积分, 重要性抽样方法将上式改写为如下形式:()()()()X f X I P X d X P X Ω=⎰ (2.2.2) 这里, X 被看成是一组随机变量, ()P X 是X 的一个联合分布, 称为重要性分布, 它满足以下条件: 对X 的任意取值x , 如果()0f X x =≠, 那么()0P X x =≠.接下来, 重要性抽样方法()P X 从独立地抽取m 个样本12,,...,,m D D D 并基于这些样本来对积分I 进行估计:1()1.()m i m i i f D I m P D ==∑ (2.2.3) 可以证明, m I 是I 的一个无偏估计, 且根据强大数定律, 当样本量m 趋于无穷时, m I 几乎收敛于I .重要性抽样法的性能主要从两个方面来衡量: 一个是算法复杂度, 另一个是近似解的精度.因此, 人们用计算m I 所需的时间t 和m I 的方差var()m I 之积var()m t I *来度量重要性抽样法的效率:var()m t I *越小, 算法的效率越高, 收敛速度也就越快, 从而获得高精度近似所需的样本量不大.这里, 方差可用下式计算:221()var()()()X m f X I d X I m P X Ω⎡⎤=-⎢⎥⎢⎥⎣⎦⎰ (2.2.4) 重要性分布的选择是提高算法效率的关键.由于重要性分布的选择对时间复杂度的影响不大, 因此为了提高算法的效率, 应该选用使得方差var()m I 尽可能小的重要性分布.根据式(2.2.4),若被积函数()0f x >, 则最优重要性分布为*()()/P X f X I =.此时v a r ()0m I =, 样本被集中在()f X 值较大的"重要"区域.由于I 本身是未知的, 在实际中很少能够从*()P X 抽样, 只能寻找与*()P X 尽量接近的分布.重要性分布与最优分布*()P X 越接近, 方差var()m I 就越小.2.3重要性抽样法的概率推理考虑一个贝叶斯网μ, 用X 记其中所有变量的集合,()P X 记μ所表示的联合概率分布.设观测到证据E e =.下面将讨论如何近似计算一组查询变量Q 取某值q 的后验概率(|)P Q q E e ==.设W 是一些变量的集合, Y 是的W 一个子集合, \Z W Y =, 并设y 为Y 的一个取值.定义函数1,()(,)0,Y y Y y Y y W Y Z χχ===⎧==⎨≠⎩若若Y y (2.3.1) 按条件概率的定义, 有(,)(|)()P Q q E e P Q q E e P E e ======. (2.3.2) 根据式(2.3.1)(,)P Q q E e ==和()P E e =可以分别表示成如下形式:(,)()()(),Q q E e XP Q q E e X X P X χχ=====∑ (2.3.3)()()()E e XP E e X P X χ===∑. (2.3.4)于是可以利用重要性抽样法来对它们进行近似.对于近似的一般性质, 有一点需要注意.根据以上讨论, 利用重要性抽样法获得的对(,)P Q q E e ==和()P E e =的估计是无偏的.3. 重要性抽样方法3.1逻辑抽样法要用重要性抽样法解决式(2.3.3)和式(2.3.4)的问题, 首先需要选择一个重要性分布.一个很自然的想法就是选用联合分布()P X 本身来作为重要性分布, 其中{}12,,...,n X X X X =, 这样就得到了逻辑抽样.逻辑抽样法首先从()P X 分布中抽取样本.注意到()P X 分解为()(|()),X XX X P X P π∈=∏其中()X π表示那些在拓扑序排列中那些在节点X 之前的节点12,,...,i X X X 的一个集合.因此可以按照贝叶斯网μ的拓扑序对其中的变量逐个进行抽样: 对待抽样变量i X ,若它是根节点, 则按分布()i P X 进行抽样; 若是非根节点, 则按分布是(|())i i P X X r π=进行抽样, 这里()i X r π=是父节点的抽样结果, 在对i X 抽样时是已知的, 为顺序抽样, 此过程需要从一些单变量概率分布随即抽样.(图1)对图1所示的贝叶斯网, 用逻辑抽样法计算(|E )P Q q e ==, 逻辑抽样法生成一个样本的过程如下:假设对()P X 顺序抽样过程获得了m 个独立样本12,D D …m D , 其中满足E e =的有e m 个, 而在这e m 个样本中, 进一步满足Q q =的有,q e m 个.根据式(2.2.3)和式(2.3.3) , 有1()()()1(,)()m Q q i E e i i i i D D P D P Q q E e m P D χχ=====≈∑11()()mQ q i E e i i D D m χχ====∑ ,.q em m =类似地, 根据式(2.2.3)和(2.3.4)可得11()()mE e i i P E e D m χ===≈∑ =e m m. 将上面两式代入式(2.3.2), 可得 ,(|)q ee m P Q q E e m ==≈, (4.1.1)这就是通过逻辑抽样法获得的对后验概率的近似, 它是在所有满足E e =的样本中, 进一步满足Q q =的样本比例.逻辑抽样法所产生与证据E e =不一致的那些样本相当于被舍弃.因此, 逻辑抽样有时也称为舍选抽样.3.2似然加权法似然加权法是重要性抽样的一个特例, 提出它的一个主要目的是避免逻辑抽样因舍弃样本而造成浪费.在抽样过程中, 它按拓扑序对每个变量进i X 行抽样: 当i X 不是证据变量时, 抽样方法与逻辑方法一致; 而当是i X 证据变量时, 则以的i X 观测值作为抽样结果.这样保证了每一个样本都与证据E e =一致, 从而可以利用, 不必舍弃.对图1所示的贝叶斯网, 用似然加权法计算(|)P R t S t ==, 似然加权法生成一个样本的过程如下:(1)对根节点C , 从()P C 抽样, 假设得到C t =;(2)对节点S , 因为S E ∈是证据变量, 所以抽样结果被视为它的观测值t ;(3)对节点R , 抽样分布为(|)P R C t =, 假设得到R t =;(4)最后对叶节点W 抽样, 抽样分布为(|,)P W R t S t ==,假设得到W t =.最后产生的样本为D ={,,,C t R t S t W t ====}.设12,D D ,…m D 是通过上述过程抽得的m 个样本.下面讨论怎样基于它们对(,)P Q q E e ==和()P E e =进行近似.设Y 是X 的一个子集.对任一Y 的函数()h Y , 用()|i D h Y 表示当变量Y 取i D 中的值时, 这个函数的函数值.对任一X X ∈, (|())X X P π是X 中一些变量的函数.于是, (|())|i D X X P π是当变量取i D 中的值时, 这个函数的函数值.用Z 记所有非证据变量的集合, 即\Z X E =,设'()P X 是似然加权法所使用的重要性分布.不难看出, '()()E e P E E χ==, 而'(|)(|)(|())X XX X P Z E P Z E P π∈==∏于是有''()(,)P X P Z E =''()(|)P E P Z E =()(|())X E e X X X E P χπ=∈=∏ 注意()(,)()E e E e E e X E Z E χχχ=====.于是有'()()(|())XE e X X X P X X P χπ=∈=∏ 对每个i =1,2, …, m , 样本i D 与证据E e =一致, 因此对一函数()h X , 有()()()|iE e i i D D h D h X χ==.所以, . '(X)=(|())|X i D Z X X P P π∈∏ ()()(|())|X iE e i i D Z X X D P D P χπ=∈=∏.根据式(2.2.3)和式(2.3.3), 可得'1()()()1(,)()m Q q i E e i i i i D D P D P Q q E e m P D χχ=====≈∑ 1(|())|1()(|())|XX i i D mX Q q i i D ZX X X X P D m P πχπ∈==∈=∏∑∏ 11()(|())|Xi mQ q i D i E X X D P m χπ==∈=∑∏ 11()(),mQ q i i i D w D m χ===∑ (4.1.2) 其中()(|())|X i i D E X X w D P π∈=∏. 类似地, 根据式(2.2.3)和式(2.3.4), 可得'1()()1()()m E e i i i i D P D P E e m P D χ===≈∑ =11()mi i w D m =∑. (4.1.3) 将式(4.1.2)和式(4.1.3)代入式(2.3.2), 得11()()(|)()m Q qi i i m i i D w D P Q q E e w D χ=====≈∑∑. (4.1.4)4. 两种抽样方法的优缺点逻辑抽样的优点是简单易行, 缺点是当概率()P E e =很小时, 算法效率低, 收敛速度慢.事实上, 问题的最优重要性分布是()()()E e X P X P E e χ==, 而抽样使用的是分布()P X ,两者差别显著: 前者的概率质量集中在X 的与E e =一致的那些取值处, 而后者在这些区域的概率值却很小, 随着()P E e =的减小, 所抽得的与E e =一致的样本个数将会减少, 因此大量样本被舍弃, 造成了计算资源的浪费.与逻辑抽样相比, 似然加权法相当于为每个样本i D 都赋予一个权重()i w D .设i z 为i D 中Z 的取值, 则i D 可以写成i D (,)i Z z E e ===.当所有证据变量都是叶节点时, 权重是()i w D , 即给定E e =时i Z z =的似然度.似然加权法的优点是每个样本都被利用, 效率比逻辑抽样有很大提高. 当所有证据变量都位于网络顶端时, 重要性分布'()P X 正好就是最优分布, 似然加权的效率达到最优.在其它情况下, 重要性分布与最优分布可能差别显著, 尤其是当概率()P E e =很小时.这时, 算法的收敛会很慢, 即要获得高精度的近似所需的样本量会增加.参考文献[1] Becker A,Geiger D.2001.A sufficiently fast algorithm for finding close to optimal clique trees.Artificial Intelligence,125(1-2):3~17[2] Bertele U,Brioschi F.Nonserial dynamic programming.New York:Academic Press[3] D`Ambrosio B.1991.Local expression languages for probabilistic dependence:a preliminary report. In UAI`91:Proceedings of the Seventh Conference on Uncertainty in Artificial Intelligence .San Francisco:Morgan Kaufmann Publishers.95~102[4] Shachter R D 1994.Symbolic probabilistic inference in belief networks. In Proceedings of the Eighth National Conference on Artificial Intelligence.126~131[5] Zhang N L,PooleD.1994.A simple approach to Bayesian network computations.In Proc.of the Tenth Canadian Conference on Artificial Intelligence.171~178[6]李奔波.多品种小批量生产工序能力和控制图研究[D].重庆: 重庆大学数学系研究所.2006.4: 1~7.[7] 王洪琦, 许有玲.1999.面向21世纪—中医基础理论研究状和未来[M].北京: 军事医学科学出版社.[8]秦静等.质量管理学[M].北京: 科学出版社, 2007.[9]徐岚等.SPC在多品种小批量生产线的应用研究[J].微电子学, 2007,37(5):682 684[10]袁普及.基于成组技术的质量控制的研究[D].南京:南京航空航天大学,2003.5.[11]韩玉启, 朱慧明.多元质量特性的贝叶斯均值向量控制图[J].南京理工大学学报,2003,27(5):561 566[12]王建稳.多品种小批量生产情形下的工序质量控制图[J].数理统计与管理, 2002, 21(4):34 37[13]王学明.应用多元分析[M].上海: 上海财经大学出版社,1999[14]胡兴才.基于小批量的统计过程控制研究与系统开发[D].南京: 南京航空航天大学,2006.2.[15]朱慧明、韩玉启.贝叶斯多元统计推断理论[M].北京: 科学出版社,2006。

相关主题