当前位置:
文档之家› 模式识别--第三讲 贝叶斯分类器
模式识别--第三讲 贝叶斯分类器
“如果考前未复习, 该科成绩有 50%的可能性不及格。 ” 这就是一条概率推理。
需要说明的是:真正的 确定性推理在真实世界中并不存在。即使条件 概率 P( A| B) 为 1 ,条件 B 存在,也不意味着结果 A 就确定一定会发生。 通常情况下,条件概率从大量实践中得来,它是一种经验数据的总结, 但对于我们判别事物和预测未来没有太大的直接作用 。我们更关注的是 如 果我们发现了某个结果(或者某种现象) ,那么造成这种结果的原因有多大 可能存在?这就是逆概率推理的含义。即: 如条件 B 存在,则结果 A 存在的概率为 P(A| B )。现在发现结果 A 出现 了,求结果 B 存在的概率 P( B | A)是多少? 例如:如果已知地震前出现“地震云”的概率,现在发现了地震云, 那么会发生地震的概率是多少? 再如:如果已知脑瘤病人出现头痛的概率,有一位患者头痛,他得脑 瘤的概率是多少? 解决这种逆概率推理问题的理论就是以贝叶斯公式为基础的贝叶斯理 论。
P ( j ) ;在每类中,样本特征向量的取值服从一定的概率分布,其类条件概率密
度为 P ( x | j ) ; 当有待识别的特征向量 x 时, 其属于各类的后验概率 P( i | x) 为:
P (i | x ) P ( x | i ) P(i )
c
j
P( x | ) P( )
一、 贝叶斯分类
1、 逆概率推理 Inverse Probabilistic Reasoning
推理是从已知的条件( Conditions ) ,得出某个结论( Conclusions ) 的 过程。 推理可分为确定 性( Certainty) 推理和概率推理 。所谓确定性推理是 指类似如下的推理过程: 如条件 B 存在,就一定会有结果 A。现在已知条件 B 存在,可以得出 结论是结果 A 一定也存在。
《模式识别》讲义 2013 版:第三讲 贝叶斯分类器
第三讲 贝叶斯分类器
线性分类器可以实现线性可分的类别之间的分类决策,其形式简单,分类决 策快速。但在许多模式识别的实际问题中,两个类的样本之间并没有明确的分类 决策边界,线性分类器(包括广义线性分类器)无法完成分类任务,此时需要采 用其它有效的分类方法。 贝叶斯分类器就是另一种非常常见和实用的统计模式识 别方法。
P ( A | B j ) 称为类条件概率 (Class-conditional Probability) , 表示在各条件 Bi 存
在时,结果事件 A 发生的概率;
P ( B j ) 称为先验概率(Priori Probability) ,表示各不相容的条件 Bi 出现的概
率,它与结果 A 是否出现无关,仅表示根据先验知识或主观推断,认为总体上各 条件出现的可能性有什么差别;
二、 各种贝叶斯分类器
根据分类决策规则的不同,贝叶斯分类有多种形式,下面介绍比较常见的几 种贝叶斯分类器。
1、 最小错误率贝叶斯分类器
当已知类别出现的先验概率 P (i ) 和每个类中的样本分布的类条件概率 密度 P ( x | i ) 时 ,可以求得一个待分类样本属于每类的后验概率 P( i | x) , 将其划归到后验概率最大的那一类中, 这种分类器称为最小错误率贝叶斯分 类器(Minimum Error Rate Bayes’ Classifier) ,其分类决策规则可表示为:
《模式识别》讲义 2013 版:第三讲 贝叶斯分类器
P ( Bi | A)
P ( A | Bi ) P ( Bi )
c
j
P( A | B ) P ( B )
j j 1
P ( A | Bi ) P ( Bi ) P ( A)
该公式称为“贝叶斯公式” ,其中: P( Bi | A) 称为后验概率(Posterior Probability) ,表示事件 A (结果 A )出现 后,各不相容的条件 Bi 存在的概率,它是在结果出现后才能计算得到的,因此称 为“后验” ;
对于随机性分类决策, 可以利用贝叶斯公式来计算样本属于各类的后 验概率:
第 3 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@
《模式识别》讲义 2013 版:第三讲 贝叶斯分类器
设 i , i 1, 2, c 是特征空间 中不同 的 类 , 每类都 有其出 现的先验 概率
第 4 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@
《模式识别》讲义 2013 版:第三讲 贝叶斯分类器
两类问题中,当 P (i | x ) P ( j | x) 时,判决 x i ; 对于多类情况,则当 P(i | x) max P( j | x) 时,判决 x i 。
图 1 确定性分类决策
随机性分类决策 Stochastic Classifying 特征空间中有多个类, 当样本属于某类时,其特征向量会以一定的概 率取得不同的值;现有待识别的样本特征向量取了某 值,则它按不同概率 有可能属于不同的类,分类决策将它按概率的大小划归到某一类别中。
图 2 随机性分类决策
“如果考试作弊,该科成绩就一定是 0 分。 ”这就是一条确定性推理。
而概率推理( Probabilistic Reasoning )是不确定性推理,它的推理形式 可以表示为: 如条件 B 存在,则结果 A 发生的概率为 P(A | B )。 P( A | B)也称为结果 A 发生的条件概率( Conditional Probability) 。
但是,其分类决策边界不一定是线性的,也不一定是连续的。
第 5 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@
《模式识别》讲义 2013 版:第三讲 贝叶斯分类器
图 4 最小错误率贝叶斯分类器的非线性分类决策边界
例题: 地震预报是比较困难的一个课题, 可以根据地震与生物异常反应之间的联系 来进行研究。根据历史记录的统计,地震前一周内出现生物异常反应的概率为 50%,而一周内没有发生地震但也出现了生物异常反应的概率为 10%。假设某 一个地区属于地震高发区,发生地震的概率为 20%。问: 如果某日观察到明显的生物异常反应现象, 是否应当预报一周内将发生地震? 解: 把地震是否发生设成两个类别:发生地震为ω1,不发生地震为ω2; 则两个类别出现的先验概率 P1=0.2,P2=1-0.2=0.8; 设地震前一周是否出现生物异常反应这一事件设为 x,当 x=1 时表示出现了, x=0 时表示没出现; 则根据历史记录统计可得, ;p(x=1|ω1)=0.5, p(x=1|ω2)=0.1 所以,某日观察到明显的生物异常反应现象,此时可以得到将发生地震的概率 为: p(ω1|x=1)=(P1×p(x=1|ω1))/(P1×p(x=1|ω1)+P2×p(x=1|ω2)) =(0.2×0.5)/(0.2×0.5+0.8*0.1)=5/9 而不发生地震的概率为: p(ω2|x=1)=(P2×p(x=1|ω2))/(P1×p(x=1|ω1)+P2×p(x=1|ω2)) =(0.8×0.1)/(0.2×0.5+0.8*0.1)=4/9 因为 p(ω1|x=1)> p(ω2|x=1),所以在观察到明显的生物异常反应现象时, 发生地震的概率更高,所以应当预报一周内将发生地震。
2、 贝叶斯公式
贝叶斯定理于 1763 年提出,它的表述为: 设试验 E 的样本空间为 S,A 为 E 的事件,B 1 ,B2 ,… ,B c 为 S 的一个 划分,且 P(A )>0 , P( Bi )>0(i =1,2,……, c) ,则
第 1 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@
c
P( A) P( A | B j ) P( B j ) 由先验概率和类条件概率计算得到,它表达了结果
j 1
A 在各种条件下出现的总体概率,称为结果 A 的全概率(Total Probability) 。 贝叶斯公式给出了根据结果推测原因的数学方法, 在许多方面都有广泛的应 用,并在数理统计领域产生了基于该理论的贝叶斯学派。 贝叶斯及贝叶斯公式 托 马 斯 · 贝 叶 斯 ( Thomas Bayes ) (1702 ~ 1763) , 是 一 位 伟 大 的 英 国 数 学 家,他是英国皇家学会会员,也是一位长 老会牧师,其主要数学成就体现在概率论 和数理统计方面。贝叶斯公式发表于 1763 年其去世之后, 首次将归纳推理法用于概率 论基础理论,对于后续的统计决策、概率推 理和参数估计等领域的发展起到了重要的促 进作用,其影响延续至今,在信息时代的经 济学理论、数据处理与知识挖掘、信息检索、 人工智能等方面都能看到贝 叶 斯 公式 深入 和广泛的应用。 由于其宗教身份, 后人普遍猜测贝叶斯提出贝叶斯公式的目的是为了从理论 上对上帝是否存在进行证明(并且美国的斯蒂芬·安文在 2003 年出版的《上帝 的概率》一书中确实利用贝叶斯公式对上帝存在的概率进行了计算) 。但由于贝 叶斯公式中先验概率的获得有“主观主义”和“频率主义”两大派别,对于贝叶 斯公式的应用范围和合理性存在很大的争议。
第 2 页 自动化学院 模式识别与智能系统研究所 高琪 gaoqi@
《模式识别》讲义 2013 版:第三讲 贝叶斯分类器
3、 贝叶斯分类
如果把样本属于某个类别作为条件,样本的特征向量取值作为结果, 则模式识别的分类决策过程也可以看作是一种根据结果推测条件的推理过 程。它可以分为两种类型: 确定性分类决策 Certainty Classifying 特征空间由决策边界划分为多个决策区域,当样本属于某类时, 其特 征向量一定落入对应的决策区域中, 当样本不属于某类时,其特征向量一 定不会落入对应的决策区域中;现有待识别的样本特征向量落入了某决策 区域中,则它一定属于对应的类。
j j 1
P( x | i ) P(i ) P ( x)
如果根据样本属于各类的后验概率及其他因素对该样本进行分类决策,就 称为贝叶斯分类。 贝叶斯分类具有以下特点: 需要知道先验概率 先验概率是计算后验概率的基础。在传统的概率理论中,先验 概率可以由大量的重复实验 所获得的各类样本出现的频率来近似 获得,其基础是“大数定律” ,这一思想称为“频率主义” 。而在称 为“贝叶斯主义”的数理统计学派中,他们认为时间是单向的,许 多事件的发生不具有可重复性,因此先验概率只能根据对置信度的 主观判定来给出,也可以说由“信仰”来确定。这一分歧直接导致 了对贝叶斯公式应用范围和合理性的争议。 按照获得的信息对先验概率进行修正 在没有获得任何信息的时候,如果要进行分类判别,只能依据 各类存在的先验概率,将样本划分到先验概率大的一类中。而在获 得了更多关于样本特征的信息后,可以依照贝叶斯公式对先验概率 进行修正,得到后验概率,提高了分类决策的准确性和置信度。 分类决策存在错误率 由于贝叶斯 分类是在样本取得某特征值时对它属于各类的概 率进行推测,并无法获知样本真实的类别归属情况,所以分类决策 一定存在错误率,即使错误率很低,分类错误的情况也可能发生。