当前位置:文档之家› 无向图模型(马尔科夫随机场)

无向图模型(马尔科夫随机场)

19 无向图模型(马尔科夫随机场)19.1 介绍在第十章,我们讨论了图形化模型(DGMs),通常称为贝叶斯网。

然而,对于某些域,需要选择一个方向的边即(DGM), 例如,考虑建模一个图像。

我们可能会假设相邻像素的强度值是相关的。

我们可以创建一个DAG模型的2D拓扑如图19.1所示。

这就是所谓的因果MRF或马尔可夫网。

然而,它的条件独立性通常不好。

另一种方法是使用anundirected图形化模型(UGM),也称为马尔可夫随机场(MRF)或马尔可夫网络。

这些不需要我们指定边缘方向,在处理一些问题,如图像分析和空间统计数据时显得更自然。

例如,一个无向二维点阵显示(如图19.1(b));现在每个节点的马尔科夫Blanket只是最近邻节点,正如我们在19.2节所示的那样。

粗略地讲,在建立在DGMs上的UGMs的主要优点是:(1)它们是对称的,因此对某些领域更“自然”,如空间或关系数据;(2)Discriminativel UGMs(又名条件随机域,或CRFs),它定义了条件概率密度p(y|x),要比Discriminativel UGMs更好,我们在19.6.1节中解释原因。

相比于DGMs,UGMs的主要缺点是:(1)参数是可很难解释及模块化程度较差,我们在19.3节解释原因;(2)参数估计计算代价更高,原因我们在19.5节解释。

19.2 UGMs的条件独立性19.2.1UGMs通过简单的图分离定义CI关系如下:对于节点集的A,B,C,我们说X A ⊥G X B | X C,如果从在图G中把A从B中分离出来。

这意味着,当我们删除所有C 中的节,如果在A上没有任何连接的路径到B,那么CI 属性holds。

这就是所谓的UGMs的全局马尔可夫性质。

例如,在图19.2(b),有{ 1,2 }⊥{ 6、7 } | { 3、4、5 }。

图19.1节点的节点集呈现t有条件地独立于所有其他节点图为t的马尔科夫blanket;我们将表示通过mb(t)。

正式,马尔可夫全面满足以下属性节点的集合呈现一个节点t条件独立于所有图中的其他节点被称为t的马尔可夫blanket;我们将通过MB(t)表示这一点。

从形式上看,马尔科夫blanket满足以下的特性:其中是结点t的闭节点。

可以证明,在一个UGM中,一个节点的马尔科夫blanket是其集近邻的节点。

这就是所谓的无向本地马尔科夫属性。

例如,在图19.2(b)中,有。

从局部马尔可夫属性,我们可以很容易地看到,两个节点是条件独立给出的其余部分,如果它们之间没有直接相连。

这就是所谓的马氏Pairwise属性。

符号上表示为:使用三马尔可夫特性我们已经讨论过,我们可以从UGM得出以下的CI特性(其中包括)很明显,全局马尔可夫给出了局部成对的这些马氏节点。

这是不太明显的,但尽管如此真实(假定对于所有的x ,P(x)> 0,即,p是一个正密度),Pairwise 意味着全局性的,因此,所有这些马尔可夫性质是相同的,如图图19.3(参考‘Koller and Friedman 2009, p119’的证明)。

这一结果的重要性在于,它通常更容易根据经验评估Pairwise条件独立性; 这种成对的CI声明可以用来构建一个从全局CI中提取出来的图。

19.2.2 从无向到D-Separation我们已经看到,检查 CI关系,在UGMs中要比DGMS容易得多,因为我们不必担心边的方向性。

在本节中,我们将展示如何在有向图中使用UGM检查CI关系。

人们很容易通过删除边简单地将有向图转化为无向图,但是这显然是不正确的,因为V型结构A→B←C相比于无向图中V型结构A-B-C有很不同的CI属性。

后者不正确地给出了A⊥C | B。

为了避免这种不正确的形式,我们可以在未连接的A和C之间添加边,然后从边上画箭头,成形无向全连通图。

这个过程被称为规范化(moralization)。

图19.2(b)给出了例子。

我们互连2和3,因为它们具有共同的子节点5,我们互连4,5和6,因为它们具有共同的子节点7。

不幸的是,教化失去了一些CI信息,因此我们不能使用规范化的UGM去检测DGM的CI属性。

例如,在图19.2(a)中,使用D-分离,我们看到4⊥5|2添加标准化弧4 - 5将失去这一性质(见图19.2(b))。

但是,请注意4-5的边,这表明可以用以下的方法来确定,如果A⊥B | C。

首先,我们形成DAG图U= A∪B∪C。

这意味着我们删除图中不在U中的所有节点或者不是U的祖先节点。

那么我们这个标准化原图,并应用了简单的分离规则UGMs。

例如,在图19.4(a)中,我们显示了原始图,图19.2(a)使用U={2,4,5}。

在图19.4(b)中,我们将展示这个图表的moralization版本。

很明显我们现在可以正确地得出结论,4⊥5|2。

19.2.3 比较有向和无向图模型哪种图有更强的“表现力”,有向图或无向图?正式搞清这个问题,回忆我们说G是一个I-MAP,概率分布为P,如果有I(G)⊆I(P)的话。

如果I(G)= I(P),则G是I-MAP的一个完美的映射,换言之,该图可以代表所有的(也是唯一的)的CI 分布的特性。

事实证明,DGMS和UGMs是不同分布集上完美的map(见图19.5)。

在这个意义上,两者都不是比谁更有强大的表示能力。

作为能够由DGM完美地模拟一些CI的关系的一个例子,考虑V结构A →C ←B,预示着A ⊥ B , 且A B | C,去掉箭头有A − C − B , A ⊥ B | C 且 A B。

事实上,没有一种UGM可以精确代表所有只由一个V型结构编码的两个CI statement。

在一般情况下,CI的属性在UGMs是单调的,如果A ⊥B | C , 则A ⊥B | ( C ∪ D ),但在DGMS,CI的属性可以是非单调的,通过变量调节可以消除条件独立。

作为能够完美地模拟由一个UGM CI的关系的一个例子,考虑图19.6所示的4个周期,正确表示了A ⊥C | B,D,然而B ⊥D | A又是不正确的,图19.6(c)是A ⊥ C | B,D另外一种错误情况, B ⊥D。

一些分布可以由DGM或UGM完美模拟;产生的图形被称为decomposable 或者叫弦。

粗略的说,这意味着:如每个最大团所有的变量坍塌,使“mega变量”,由此产生的图形将是一棵树。

当然,如果图形已经是一个树(包括比较特殊的“链”),这将是弦。

参见20.4.1节的细节。

19.3 MRFs参数化19.3.1 Hammersley-Cliford理论由于是无向图没有相关的拓扑排序,我们不能用链式法则来表示P(Y)。

所以,联想势函数SOR因子s与图中的每一个极大团。

我们给出势函数。

一个潜在的函数是一个参数为非负的函数。

可以证明任何正向分布,其CI的属性可以通过一个UGM表示。

定理19.3.1(Hammersley-Clifford),一个正向分布p(y) >0满足无向图G的CI属性,如果P能被一个最大团因子所表示。

其中C是图中所有最大团的集合,Z ( θ )是分割函数,分割函数确保所有分布和为1(证明未给)如果p满足CI属性,于是p可以写作如下形式:其中,UGMs和统计物理之间的深刻联系。

特别是,有一个被称为吉布斯分布的模型,该模型可以写成如下:是与团块c中的变量相关的能量,通过定义一下公式能够转换为UGMs图:我们看到,高概率状态对应于低能量配置。

这种形式的模型被称为以能量为基础的模型,并且通常用在物理学和生物化学以及机器学习的一些分支上。

注意,我们可以自由地参数化到图形的边,而不是最大小集团。

这就是所谓的成对MRF。

19.3.2 势函数的表示如果变量是离散的,我们能够用一张表格(非负值)来表示势函数,然而,这并不是概率,通过以下例子来看一下.通常用LOG函数来定义势函数:是的特征向量,LOG概率如下的形式:这就是著名的最大熵或者叫线性LOG模型例如,考虑MRF对,我们关联一个长度为K2的特征向量:每一个特征值都有一个权重,我们将其转化为K X K的势函数形式:所以我们看到,我们可以用对数线性形式很容易地表格化表示势。

为了说明为什么这是有用的,假设我们有兴趣做英文的概率模型拼写。

由于某些字母组合在一起会发生相当频繁(比如,“ING”),我们将需要更高阶的因子捕捉到这一点。

假设我们限制自己的trigrams。

一张表格潜力仍然有个参数。

另一种方法是定义一个寻找某些“特殊”的三元组指示器的功能,如“ING”,“qu- ”等,那么我们可以在每个trigrams下定义势:定义任意长度一个单词的概率:由此产生的一个问题是特征函数来自哪里,在许多应用中,它们是由手工创建,以反映领域知识(我们会看到后面的例子),但它也可以从数据学习他们,正如我们在19.5.6节讨论的那样。

19.4 MRFs的一些例子一些通过UGMs表示的例子19.4.1伊辛模型伊辛模型是MRF在统计物理学上的一个例子,通常用在描述磁力性质的模型上,给定y s∈{−1, +1},代表一个原子的自旋,这可以被旋转向下或向上。

在一些磁铁,称为铁磁体,相邻的自旋倾向排列在相同的方向,而在其他类型的磁体上,称为反铁磁体,自旋和周围原子不同。

我们可以按如下这个模型作为磁流变。

在一个二维或三维晶格的形式创建的曲线图,并连接相邻的变量,如在图19.1(b)所示。

然后,我们定义以下两两团块的势:这里是节点s和t之间的耦合强度。

如果两个节点不连接图中,我们设置。

我们假设权重矩阵W是对称的,所以。

通常我们假设所有的边有相同的强度,所以的(假设)。

如果权值是正的,相邻原子的旋转貌似有相同的状态,这可以被用来建模铁磁体,并且是一个关联马尔可夫网络的一个例子。

如果权重是非常大,相应的概率分布将有两种模式,相应于所有的+1状态和全1的状态。

这些被称为系统的基态。

如果所有的权重为负,J<0,则自旋希望与周围不同,这可以被用来模拟一个反铁磁体,并导致一个“沮丧的系统”在其中不是所有的约束可以同时得到满足。

相应的概率分布将有多种模式。

有趣的是,计算分区functionZ(J)可以在多项式时间内通过马尔科夫网络来完成,但是一个NP难的问题。

有伊辛模型和高斯图形化模型之间一个有趣的比喻。

首先,假设,我们可以写一个伊辛模型非标准化的LOG概率,如下:修改后的分布其中,如果定义,重写这个公式有点像高斯公式的形式,19.4.2 Hopfield网络Hopfield网络是一个权完全对称的Ising模型,这些权重,加上偏置条件B,可以从训练数据中学习到,使用(近似值)最大似然,如第19.5节中描述的那样。

Hopfield神经网络的主要应用是作为联想记忆。

我们的想法是这样的:假设我们训练一套可完全观察的位向量,对应我们要记住的模式。

相关主题