当前位置:文档之家› 条件随机场(公式版)

条件随机场(公式版)

1( X1, X2 , X3 )2 ( X2 , X3 , X4 )
X1 ,X2 ,X3 ,X4
i (Ci ) : 是关于 Ci 上 随机变量的函数
三、朴素贝叶斯分类器( Naive Bayes Classifier)
设x∈Ω是一个类别未知的数据样本,Y为类别集合,若数据样本x属于 一个特定的类别yj,那么分类问题就是决定P(yj|x),即在获得数据样 本x时,确定x的最佳分类。所谓最佳分类,一种办法是把它定义为在 给定数据集中不同类别yj先验概率的条件下最可能的分类。贝叶斯理 论提供了计算这种可能性的一种直接方法。
Observed Ball Sequence
评价问题
问题1:给定观察序列 X x1, x2, , xT 以及模型 ( , A, B) , 计算P( X )
解码问题
问题2:给定观察序列 X x1, x2, , xT 以及模型λ,如何选择一个对应的状
态序列Y ( y1, y2 , , yN,) 使得Y能够最为合理的解释观察序列X?
p( y j
x)
p( x
y j ) p( y j ) p( x)
P(yj)代表还没有训练数据前,yj拥有的初始概率。P(yj)常被称为 yj的先验概率(prior probability) ,它反映了我们所拥有的关于yj 是正确分类机会的背景知识,它应该是独立于样本的。
如果没有这一先验知识,那么可以简单地将每一候选类别赋予相
同的先验概率。不过通常我们可以用样例中属于yj的样例数|yj|比 上总样例数|D|来近似,即
P(y j )=
|y j| |D|
p( y j
x)
p( x
y j ) p( y j ) p( x)
p( x y j )是p(联y合j )概率,指当已知类别为yj的条件下,看到样
本x出现的概率。
若设 x (a1, a2 , , am )
G (V , E )
V : 顶点/节点,表示随机变量
E : 边/弧
两个节点邻接:两个节点之间存在边,记为 X i ~ X j ,不存在边,表示
条件独立
路径:若对每个i,都有 Xi1 Xi,则称序列 X1,..., X N 为一条路径
根据图中边有无方向,常用的概率图模型分为两类:
有向图:最基本的是贝叶斯网络(Bayesian Networks ,BNs)
无向图模型的联合概率分解
X1
X2
P( X1,
X

2
,X N
)
1 Z
N
i (Ci )
i 1
N
Z
i (Ci )
X3
X4
X1 , X2, ,X N i 1
势函数(potential function)
p( X1 , X 2 , X 3 , X4 )
1( X1 , X 2 , X 3 )2 ( X 2 , X 3 , X4 )
判别式模型: P (y | x): P(0|1) = 1, P(1|1) = 0, P(0|2) = 1/2, P(1|2) = 1/2
两种模型比较:
Generative model :从统计的角度表示数据的分布情况,能够反映同类数 据本身的相似度,不关心判别边界。
优点: •实际上带的信息要比判别模型丰富, 研究单类问题比判别模型灵活性强 •能更充分的利用先验知识 •模型可以通过增量学习得到
缺点: •不能反映训练数据本身的特性。 •能力有限,可以告诉你的是1还是2,但没有办法把整个场景描述出来。
二者关系:由生成模型可以得到判别模型,但由判别模型得不到生成模型。
二、概率图模型(Graphical Models)
概率图模型:是一类用图的形式表示随机变量之间条件依赖关系的概率模型,
是概率论与图论的结合。图中的节点表示随机变量,缺少边表示条件独立假 设。
p( y j
x)
p( x
y j ) p( y j ) p( x)
p( yj x) 是后验概率,即给定数据样本x时yj成立的概率,而这正
是我们所感兴趣的。
P(yj|x )被称为Y的后验概率(posterior probability),因为它反 映了在看到数据样本x后yj成立的置信度。
后验概率
p( y j
X2
X5
P(当前节点|它的父节点)
X4
联合分布:
N
P( X1,
X

2
,X N
)
p( X i ( X i ))
i 1
P( X1, X2, ,X5 ) p( X1 ) p( X2 X1) p( X3 X2 ) p( X4 X2 ) p( X5 X3 X4 )
无向图:马尔可夫随机场(Markov Random Fields, MRF) 马尔可夫随机场模型中包含了一组具有马尔可夫性质的随机变量,这些变 量之间的关系用无向图来表示
条件随机场 conditional random fields
条件随机场概述
条件随机场模型是Lafferty于2001年,在最大熵模型和隐马尔科夫 模型的基础上,提出的一种判别式概率无向图学习模型,是一种用 于标注和切分有序数据的条件概率模型。
CRF最早是针对序列数据分析提出的,现已成功应用于自然语言处理 (Natural Language Processing,NLP) 、生物信息学、机器视觉及网 络智能等领域。
序列标注
标注:人名 地名 组织名 观察序列:毛泽东
实体命名 识别
标注:名词 动词 助词 形容词 副词 …… 观察序列:今天天气非常好!
汉语词性 标注
一、产生式模型和判别式模型(Generative model vs. Discriminative model) 二、概率图模型(Graphical Models) 三、朴素贝叶斯分类器( Naive Bayes Classifier) 四、隐马尔可夫模型(Hidden Markov Model,HMM) 五、最大熵模型(Maximum Entropy Model,MEM) 六、最大熵马尔可夫模型(MEMM) 七、条件随机场(conditional random fields,CRF)
参数学习问题
问题3:给定观察序列 X x1, x2, , xT ,调整模型参数 ( , A, B) , 使
P( X )最大?
问题1:给定观察序列 X x1, x2, , xT 以及模型 ( , A, B) , 计算P( X )
基本算法:
P( X / ) P( X / Y ,)P(Y / ) 所有Y
cloud 0.25 0.125 0.625
晴云雨
rain 0.25 0.375 0.375
S s1, s2, s3
(1,0,0)
问题:假设今天是晴天,请问未来三天的天气呈现云雨晴的概率是多少?
隐马尔可夫模型(HMM)
HMM是一个五元组 λ= (Y, X, , A, B) ,其中 Y是隐状态(输出变量)的集 合,)X是观察值(输入)集合, 是初始状态的概率,A是状态转移概率矩 阵,B是输出观察值概率矩阵。
举例
年 Age
职业 Occupation
气候 Climate
症状 Symptoms
疾病 Disease
P( A,O,C, D, S M ) P( A M )P(O M )P(C M )P(D A,O,C , M )P(S D, M )
有向图模型的联合概率分解
X3
每个节点的条件概率分布表示为:
X1
HMM实例
Urn 1
Urn 2
Urn N
实验进行方式如下: • 根据初始概率分布,随机选择N个缸中的一个开始实验 • 根据缸中球颜色的概率分布,随机选择一个球,记球的颜色为 x1,并把球放回缸中 • 根据缸的转移概率分布,随机选择下一口缸,重复以上步骤。
最后得到一个描述球的颜色的序列x1,x2,…称为观察值序列X。
马尔科夫性: p( xi x j , j i) p xi x j , xi x j
举例
团(clique) :任何一个全连通(任意两个顶点间都有边相连)的子图 最大团(maximal clique):不能被其它团所包含的团
例如右图的团有C1={X1, X2, X3}和C2={X2, X3, X4}
N
递归: t1( j) [ t (i)aij ]bj ( xt1 ) 1 t T 1,1 j N i 1
N
终结: P( X / ) T (i) i 1
前向算法举例:
=[1 0 0]T
.5
R .6
1
G .2 B .2
.4 .6
.1
.2
2 .5
.4 .3
.0
3 .3
.7
R
R
G
x)
p( y j ) p( x p( x)
yj)
j 1,
Y
arg
max j
p(
y
j
x)
arg
max j
p(
yj
x1, x2 , x3 )
arg max p( x1 , x2 , x3 y j ) p( y j )
j
p( x1 , x2 , x3 )
arg
max j
p(
x1
,
x2
,
x3
,
y
j
)
基本假设
产生式模型:无穷样本 ==》 概率密度模型 = 产生模型 ==》预测 判别式模型:有限样本 ==》 判别函数 = 预测模型 ==》预测
一个举例:
(1,0), (1,0), (2,0), (2, 1)
产生式模型: P (x, y): P(1, 0) = 1/2, P(1, 1) = 0, P(2, 0) = 1/4, P(2, 1) = 1/4.
相关主题