当前位置:文档之家› 第七讲统计分类(二)贝叶斯分类器h精品PPT课件

第七讲统计分类(二)贝叶斯分类器h精品PPT课件

简单起见,假定x是一维的特征(如胞核的总光强度)。 p(x|ω1)和p(x|ω2)已知:
• 利用贝叶斯公式:
pxωiPrωi
Pr ωix 2 pxωi Prωi
i1
• 得到的Pr(ωi|x) 称为状态(正常、异常)的后验概率。 上述的贝叶斯公式,通过观测到的x,把先验概率转换为后
验概率。
5 贝叶斯分类
如我们任取一个样本x,当它位于ω1的决策区域时,它属于 ω1的概率为小于1,属于ω2的概率大于0,确定性分类问题就 变成了依照概率判决规则进行决策的统计判别问题。
3、先验概率和后验概率:
•先验概率: 根据大量样本情况的统计,在整个特征空间中,任取一
个特征向量x,它属于类ωj的概率为P(ωj),也就是说,在样 本集中,属于类ωj的样本数量于总样本数量的比值为P(ωj) 。我们称P(ωj)为先验概率。
根据贝叶斯公式可得:
P(j
x)
P(j) p(x j)
n
P(j) p(x j)
P(j)p(x j)
p(x)
i1
其中:
p(x| ωj)为类ωj所确定的决策区域中,特征向量x出现 的概率密度,称为类条件概率密度,又称为似然函数。
p(x)为全概率密度,可由全概率公式计算得到。
以细胞识别为例:
细胞切片的显微图像经过一定的预处理后,抽取出d个特 征。每一细胞可用一个d维的特征向量x表示。希望根据x 的值分到正常类ω1或异常类ω2中去。
统计模式识别(二)
贝叶斯分类器
内容
贝叶斯分类的基本原理 最小错误率贝叶斯分类 最小风险贝叶斯分类 最大似然比贝叶斯分类 正态分布中的贝叶斯分类
回顾:
线性分类器设计思路 梯度下降法 感知器法
哈哈统计
有一个从没带过小孩的统计学家,因为妻子出 门勉强答应照看三个年幼好动的孩子。妻子回家 时,他交出一张纸条,写的是:
假定可以得到Pr(ω1)、Pr(ω2),[Pr(ω1)+ Pr (ω2) =1] ,和p(x|ω1)、p(x|ω2) 。
如果只有先验概率,那么合理的选择是把x分到Pr(ω1)、 Pr(ω2)大的一类中去。一般由于Pr(ω1)>Pr(ω2), 这样就把所有的细胞分到了正常的一类。失去了意义。
• 如果有细胞的观测信息,那么可以改进决策的方法。为了
估计密度
p(x|ω1)
p(ω1)
函数
p(x|ω2)
p(ω2)

x
p(x|ωi)
i=1, 2,…,M
p(x|ωM)
p(ωM)
贝叶斯分类器
最大 判别
值选 择器
结果
贝叶斯分类的前提
要决策分类的类别数是一定的。 各类别总体的概率分布是一定的。
二、几种贝叶斯分类判别规则:
1、最小错误率贝叶斯分类:
若有c个分类,若取得样本的特征向量x的条件下,某 个 类 对 应 的 后 验 概 率 后 验 概 率 P(ωk|x) 最 大 , 则 判 别 x ∈ωk发生错误分类的可能性最小,因此,以下判别规则 称为最小错误率贝叶斯分类:

P(ωk|x)=maxj={1,2,…P…(ωc 率贝叶斯分类
例:某地区细胞识别; P(ω1)=0.9, P(ω2)=0.1 未知细胞 x,先从类条件概率密度分布曲线上查到:
P(x/ ω 1)=0.2, P(x/ ω 2)=0.4 解:该细胞属于正常细胞还是异常细胞,先计算后验概率
P(1 x) 2PP (x(x1)jP)P (( 1)j)0.200..92 00..940.10.818 j1
P(2 x)1P(1 x)0.18,因 2 为 P(1 x)P(2 x) , x1属正常细 因为 P(1)P(2),所以先验概率 用 .起很大作
下面证明上述基于最小错误率的贝叶斯规则是错误率最小的。
“擦眼泪11次;系鞋带15次;给每个孩子吹玩 具气球各5次,累计15次;每个气球的平均寿命10 秒钟;警告孩子不要横穿马路26次;孩子坚持要 穿马路26次;我还要再过这样的星期六0次”。
统计学真的这样呆板吗?仅仅收集数据,整理分 析,累加平均…
统计学以数据为研究内容,但仅仅收集数 据,决不构成统计学研究的全部。
显然,有:
P(ω1)+P(ω2)+…… +P(ωc)=1
•后验概率: 当我们获得了某个样本的特征向量x,则在x条件下样本
属于类ωj的概率P(ωj|x)称为后验概率。 后验概率就是我们要做统计判别的依据。
4、后验概率的获得:
后验概率是无法直接得到的,因此需要根据推理计 算,由已知的概率分布情况获得。
n
P(Bi ) p(A Bi )
i1
➢P(Bk|A)是事件A发生时事件Bk发生的条件概率; ➢P(Bk)是事件Bk发生的概率; ➢p(A|Bk)是事件Bk发生时事件A发生的条件概率密度; ➢p(A)是事件A发生的条件概率密度;
•贝叶斯公式表达了两个相关事件在先后发生时的推理关系
2、作为统计判别问题的模式识别:
• 证明:错误率是对所有x的平均错误率Pr(e)
P re P rexp xdx
• 两类时的条件错误概率为:
P rex P rω 1x P rω 2x
当 P rω 2xP rω 1x 当 P rω 1xP rω 2x
• 令t是两类的分界面,当x是一维时,即x轴上的一点。
P r e tP rω 2 x p x d x P rω 1 x p x d x
t
t
以两类分类问题来讨论: 设有两个类别ω1和ω2,理想情况, ω1和ω2决定了特征空间
中的两个决策区域。 •确定性分类:
我们任取一个样本x,当它位于ω1的决策区域时,我们判别x ∈ω1;当它位于ω2的决策区域时,我们判别x ∈ω1。也可以 说:当x位于ω1的决策区域时,它属于ω1的概率为1,属于ω2 的概率为0。 •随机性统计分类:
统计学是面对不确定情况寻求决策、制定 方法的一门科学
人力、财力、时间等的限制,只有部分或 少量数据,要推断所有数据的的特征
PR中的分类问题是根据识别对象特征的观 测值,将其分到相应的类别中去。
一、贝叶斯分类原理: 1、贝叶斯公式及其意义:
P(Bk
A)
P ( AB k ) p( A)
P(Bk ) p(A Bk )
相关主题