模式识别第3章
p(x i ) P(i )
c
p(x i ) P(i )
p(x i ) P(i )
p(x)
i 1
p(x):混合概率密度函数
贝叶斯公式贝叶斯公式的实质是通过观察x把状态的
先验概率P(wi)转化为后验概率P(wi|x)
3.2 基于最小错误率的贝叶斯准则
贝叶斯判别准则:
若: P(i x) max P(j x) 则: x i j 1, 2,...,c
错误率是分类性能好坏的一种度量,它是平均错误率,用 P(e)表示,其定义为:
P(e) P(e | x)P(x)dx
对二分类的问题,其判决规则为:若P(w1|x)>P(w2|x),则把x归 类类别w1,反之,则把x归类为类别w2。则已知特征x的贝叶斯决策判 决后的条件错误概率为:
P(e
当要求医生必须判决其属于哪类时,因为
P(w2 | x 阳) 1 0.323 0.667 P(w1 | x 阳)
故“x=阳”w2,即有阳性反应的人判属正常人。写成似然比形
式:
l(x)
P(x 阳| w1) P(x 阳| w2)
0.95 0.01
95
P(w2) P(w1)
0.955 0.005
199
x w2
3.3 基于最小风险的贝叶斯准则
在实际工作当中,有时仅考虑错误率最小是不够的。
当考虑到某一类的错误判决要比对于另一类的更为关键时, 要引入比错误率更广泛的概念---风险、损失,就需要把 最小错误概率的贝叶斯判别作一些修正。
x ——观察或测量到的 d 维模式特征向量
第3章 贝叶斯分类
3.1 基本概念 3.2 基于最小错误率的贝叶斯准则 3.3 基于最小风险的贝叶斯准则 3.4 最大最小决策规则 3.5 纽曼—皮尔逊(Neyman—Pearson)
决策规则 3.6 贝叶斯学习案例
3.1基本概念
概率密度函数
对于连续随机变量X的分布函数F(x),存在非负函数 f(x),使对于任意实数x有:
i
P(x | wi)P(wi)
2
P(x | wi)P(wi)
,错误概率可写为
i 1
P(e)
x0
P(
x
|
w2)
P(
Hale Waihona Puke w2)dx
x0 P(x | w1)P(w1)dx
使用联合概率密度可表示为
P(e) P(x R1, w2) P(x R2 , w1) P(x R1 | w2)P(w2) P(x R2 | w1)P(w1)
• 解:
P(w1 |
x
阳)
P(x
阳| w1)P(w1) P(x 阳)
P(x
阳|
P(x 阳| w1)P(w1) w1)P(w1) P(x 阳|
w2)P(w2)
0.95 0.005
0.323
0.95 0.005 0.01 0.995
说明有阳性反应的人的患癌率为32.3%。
1 , 2 ,L , c ——状态空间 1 , 2 ,L , a ——决策空间
(i , j ) ( i 1, 2,L , a j 1, 2,L , c) ——损失函数,表示真 实状态为 w而j 所采取的决策为 i 时所带来的某种损失
决策表
给定 x,我们采取决策 i 情况下的条件期望损失:
P(x | w2)P(w2)
P(x | w1)P(w1)
O
P(w1)P(e)
x0
X
P(w2)P(e)
最小错误率贝叶斯有以下几种等价描述:
联合概率描述
x| x| P(
w i
)
P(
wi)
max
i 1, 2
P(
w) i
P(
wi),
x
wi
似然比描述
l(x)
P(x | w1) P(x | w2)
x
F(x) f (t)dt
则称x为连续型随机变量, 函数f(x)为x的概率密度函
数。
概率密度函数性质:
F(x) ' f (x)
f (x)dx 1
x2
P(x1 x x2 ) F (x2 ) F (x1) f (x)dx
x1
先验概率P(ωi):先验知识确定的类别总体分布。
P(w2) P(x | w2)dx P(w1) P(x | w1)dx
R1
R2
P(w2) P2 (e) P(w1) P1(e)
其几何说明下图所示。图3-1中的阴影部分为平均错误概率P(e)。由 于贝叶斯决策式为P(wi | x) max P(wi | x) ,对于所有的x取大,而条件错误 率P(e|x)对于所有的x取i小1,2 ,因此,平均错误率公式P(e)的积分 最小。
例:汉字字频 新华社统计资料 鲈鱼和鲑鱼的比例 渔业统计资料
新后修验正概的率概P(率ω。i|x):在得到“结果”的信息后重
布类取条决件于概类率别密状度态p(x|ωi):连续随机变量x,其分
用已知类别的训练样本来估计类条件概率密度 分析样本形成条件,假定分布函数
贝叶斯公式:
P(i x)
P(w2) P(w1)
, x w1
对数似然比描述
h(
x)
ln[l
(
x)]
ln[
P(x P(x
| |
w1) w2)
]
ln[
P(w2) P(w1)
],
x
w1
例题3.1
• 对一批人进行癌症普查,患癌症者定为属w1类, 正常者定为属w2类。统计资料表明人们患癌的概 率P(w1)=0.005,从而P(w2)=0.995。设有 一种诊断此病的化验,其结果有阳性反应和阴性 反应之分,依其作诊断。化验结果是一维离散模 式特征。资料表明:癌症者有阳性反应的概率为 0.95,即P(x=阳|w1)=0.95,从而可知P(x=阴 |w1)=0.05,正常人阳性反应概率为0.01,即P (x=阳|w2)=0.01,则可知P(x=阴|w2)=0.99, 问有阳性反应的人患癌症的概率有多大?
|
x)
P(w1 P(w2
| |
x), x),
P(w2 P(w1
| |
x) x)
P(w1 P(w2
| |
x) x)
一维时,x轴上的正确与错误错判的临界点为x0,则有错误概率
P(e)
x0
P(w2
|
x)P(
x)dx
x0
P(w1
|
x)
P(
x)dx
由贝叶斯公式 w P(
| x)