当前位置:文档之家› 目前主要存在两类贝叶斯网络学习方法

目前主要存在两类贝叶斯网络学习方法

1贝叶斯网络参数学习
(1)目标是:给定网络拓扑结构S和训练样本集D,利用先验知识,确定贝叶斯网络模型各结点处的条件概率密度,记为:p(ө/D,s)。

(2)常见的数学习方法有最大似然估计算法、贝叶斯估计算法、不完备数据下参数学习等。

即用MLE公式和BE公式、EM来求参数。

✧最大似然估计方法中,参数是通过计算给定父结点集的值时,结点不同取值的出现频率,
并以之作为该结点的条件概率参数;最大似然估计的基本原理就是试图寻找使得似然函数最大的参数。

✧贝叶斯估计方法假定一个固定的未知参数ө,考虑给定拓扑结构S下,参数ө的所有
可能取值,利用先验知识,寻求给定拓扑结构S和训练样本集D时具有最大后验概率的参数取值。

由贝叶斯规则,可以得出:
✧不完备数据下参数学习:数据不完备时参数学习的困难在于参数之间不是相互独立的,
MLE方法的似然函数和贝叶斯估计方法的后验概率都无法分解成关于每个参数独立计算的因式。

EM算法的实质是设法把不完备数据转化为完备数据。

在不完全数据集上学习贝叶斯网络,Fhedma 提出了structural EM算法,该算法结合了EM 算法和结构搜索的方法,EM算法用于优化网络参数,结构搜索用于模型选择。

2贝叶斯网络结构学习
目前主要存在两类贝叶斯网络学习方法:基于搜索和评分的方法(Search and Score based Method)和基于独立性测试的方法(Conditional Independence Testing based Method).
2.1基于搜索和评分的方法
主要由两部分组成(评分函数和搜索算法)。

2.1.1常用的评分函数
有贝叶斯评分函数和基于信息论的评分函数。

(1)贝叶斯评分函数(MAP测度)
通常,分母p(D)是连续的,与拓扑结构s无关,因此主要工作就是最大化分子p(D/S)p(S)。

因此,其核心思想是给定训练数据集D,寻求具有最大后验概率(Maximum A Posteriori,简称MAP)的拓扑结构。

因此两边取对数,我们通常有如下函数:
Log (p(S/D) = log (p (D/S) +log (p(S)
✧K2评分函数
✧BIC
✧BD评分(Bayesian Dirichlet Score)函数(其是K2函数的泛化)
✧BDe评分函数(依据附加的似然等价假设,提出一个特例)
(2)基于信息论的评分函数
应用的信息论原理主要是最小描述长度(MDL)原理。

基于MDL的评分函数具有两个部分,训练数据集的似然函数值L data和网络模型的复杂度L net,MDL测度可以表示为
2.1.2搜索算法
爬山法、贪心策略、模拟退火、最优最先(best一first)搜索等方法。

✧MCMC(Monte Carlo Markov chain)模型查找过程学习贝叶斯网络
✧应用随机局部搜索算法学习贝叶斯网络
✧应用遗传算法或演化算法学习贝叶斯网络
K2算法是基于爬山搜索算法(hill climbing)和贝叶斯评分函数。

使用贪婪搜索算法查找次优贝叶斯网络
K3算法:使用基于信息论中的最小描述长度原理(MinimumDescriPtinnLength一MDL)的评分函数代替K2算法中贝叶斯评分函数。

2.2基于独立性测试的方法
2002年,Cheng将信息论与统计测试相结合,使用相互信息代替了条件独立测试,经
过Drafting、Thickening、Thinning三个步骤,通过计算相互信息量(Mutual Information)来确定结点间的条件独立性,从而构造多连接有向图模型。

2.3不完备数据下结构学习
数据不完备时,学习BNs络结构的困难在于:(l)评分函数无法分解,无法进行局部搜索。

(2)充分统计因子不存在,无法直接进行结构打分。

不完备数据下的结构学习方法主要有MCMC方法、EM方法、梯度方法等。

目前,贝叶斯网络的研究主要集中在以下几个方向。

✧一个研究方向是基于不完整数据集构造贝叶斯网络,以充分利用不完整数据样本中所包
含的信息;
✧另一个研究方向是降低贝叶斯网络学习算法的时间和空间复杂度,提高贝叶斯网络学
习的健壮性,提高所学贝叶斯网络的精确性,特别是在小采样数据集下。

✧最近的研究开始减弱甚至放弃某些假设,从更一般意义下研究网络结构的学习。

相关主题