当前位置:文档之家› 概率论与数理统计之贝叶斯判别分析

概率论与数理统计之贝叶斯判别分析


2034.1 158.933 44.867 144.333 158.933 220.367 14 . 2 7 = 44.867 14.2 202.034 6.833 144 . 333 7 6 . 833 95 . 933
由于 ln q ln q ln q ln 1 1.0986 1 2 3 三组判别函数分别为:
判别分析,首先要知道待判总体的先验概率和 密度函数。对于先验概率,一般用样品的频率
qg ng n
来代替 。或者令先验概率相等,这时可
以认为先验概率不起作用。
p元正态分布密度函数为 : 1 ( g ) ' ( g ) 1 f g ( x) (2 ) exp ( x ) ( x ( g ) ) 2 式中 ( g )和 ( g )分别是第g总体的均值向量和协 方差阵。把f g ( x)
先验概率和后验概率
• 先验概率是指根据以往经验和分析得到的概率,它往 往作为“由因求果”问题中的“因”出现。
• 后验概率是指在得到“结果”的信息后重新修正的概 率,是“执果寻因”问题中的“因”。后验概率是基 于新的信息,修正原来的先验概率后所获得的更接近 实际情况的概率估计。
先验概率和后验概率的区别:
g g
(2)假设协方差阵相等
Z ( g / x)中含有k个总体的协差阵 ( g )的行列式及逆矩阵,而 且对x二次 函数,实际计算工作量 很大。如果假定 k个总体的协差阵相同, 即 1 (1) ( 2) (k ) (g) ' ( g ) 1 = == =,这时Z ( g / x)中的 ln 和x x两项与g无 2 关,求最大时可以去掉 ,最终得到如下形式的 判别函数与判别准则
• 先验概率不是根据有关自然状态的全部资料测定的, 而只是利用现有的材料(主要是历史资料)计算的;后 验概率使用了有关自然状态更加全面的资料,既有先 验概率资料,也有补充资料;
• 先验概率的计算比较简单,没有使用贝叶斯公式;而 后验概率的计算,要使用贝叶斯公式,而且在利用样 本资料计算逻辑概率时,还要使用理论概率分布,需 要更多的数理统计知识。
判别原则: 样品属于判别函数值最大的一组。 回判结果如表5.11所示:
类别
序号 1
原分类Actual 1
回判组别 1
后验概率 0.998
胃癌 患者
胃癌 患者
2
3 4 5 6
1
1 1 1 2 2 2 2 2
1
1 3* 1 2 2 3* 2 2
0.977
0.999 0.578 0.999 0.457 0.700 0.518 0.662 0.616
p/2 ( g ) 1 / 2
代入p( g / x)的表达式中,因为我们 只关心寻找使p( g / x)最大 的g,而分式中的分母不论 g为何值都是常数,故可 改令 q g f g ( x) max 取对数并去掉与 g无关的项,记为: 1 1 (g) ( g ) ' ( g ) 1 Z ( g / x) ln q g ln ( x ) (x (g) ) 2 2 1 1 ' ( g ) 1 1 ( g ) ' ( g ) 1 ( g ) (g) ' ( g ) 1 ( g ) ln q g ln x x x 2 2 2 则问题转化为: Z ( g / x) max
P(Gi x) qi f i ( x)
i i
q f ( x)
i 1
k
i 1,2 k
最大后验概率判别准则: x Gl , 若P (Gl x) max P (Gi x)
1i k
2、多元正态总体的Bayes判别法
•在实际问题中遇到的许多总体往往服从正态分 布,下面给出p元正态总体的Bayes判别法。 (1)判别函数的导出 由前面的叙述可知,使用Bayes判别法作
类别
序号 1 2
血清铜蛋白 228 245 200 170 100 225
蓝色反应 134 134 167 150 167 125
尿吲哚乙酸 20 10 12 7 20 7
中性硫化物 11 40 27 8 14 14
胃癌 患者
胃癌 患者
3 4 5 6
萎缩 性胃 炎患 者
非胃 癌患 者 非胃 炎患 者
萎缩 性胃 炎患 者
非胃 癌患 者 非胃 炎患 者
7 8 9 10
11
12 13 14 15
3
3 3 3 3
2*
3 3 3 3
0.616
0.681 0.839 0.587 0.583
待判者
16
1*
0.996
• 误判的样本是4、8、11,回判后分别属 于3、3、2组,即非胃炎患者、非胃炎 患者、萎缩性胃炎患者。 • 并从表中可以看出,在15名患者数据所 构成训练的基础之上,第16个数据(即 待判者)属于胃癌患者,从而达到了判 别的效果。
贝叶斯判别分析
汇报人: 学号:
贝叶斯判别分析
从距离判别法来看,它存在以下不足: (1)判别方法与总体各自出现的概率的大小无关; (2)判别方法与错判之后所造成的损失无关。 从费歇尔判别法来看,它随着总体个数的增加,建立的 判别函数式个数也增加,因而计算起来比较麻烦。 如果对多个总体的判别考虑的不是建立判别式,而是计 算新给样品属于各总体的条件概率P(l/x),比较这k个 概率的大小,然后将样品判归为来自概率最大的总体, 这种判别方法称为贝叶斯判别方法。
g 1 ( g ) ' 1 ( g ) ' ( g ) 1 ( g ) y ( g / x) ln q g x max 2
(3)计算后验概率
在进行分类计算时,主 要根据判别式 y ( g / x)的大小,而不是后验概 率 P( g / x),但是有了y ( g / x)之后,就可以根据下式 算出P( g / x): P( g / x)= expy ( g / x)
7
8
130
150
100
117
6
7
12
6
9
10 11 12 13 14 15
120
160 185 170 165 135 100
133
100 115 125 142 108 117
10
5 5 6 5 2 7
26
10 19 4 3 12 2

X (1) (188.60,150.40,13.8,20.0); X ( 2) (157,115,7,13.6); X (3) (151 ,121.4,5,8)
3
f1 1.0986 79.212 0.164x1 0.753x2 0.778x3 0.073x4 f 2 1.0986 46.721 0.130x1 0.595x2 0.317x3 0.012x4 f 3 1.0986 49.598 0.130x1 0.637x2 0.100x3 0.059x4
expy(i / x)=ln(q g f g ( x)) ( x) 其中( x)是 ln(q g f g ( x))中与g无关的部分。 所以P( g / x)= q g f g ( x)
k i 1 i i
q f ( x) expy(i / x) ( x)
1、Bayes判别法基本思想
• Bayes判别法的基本思想是假定对所研究的对 象已有一定的认识,常用先验概率来描述这 种认识;然后抽取一个样本,用样本来修正 已有的认识(先验概率分布),得到后验概 率分布。各种统计推断都是通过后验概率分 布来进行。
设有k个总体 G1, G2 , G3 Gk 且总体 Gi 的概率密度为 f i ( x) ,样本x来自 Gi 的先验概率为 qi , i 1,2k , 满足 q1 q2 qk 1 .利用贝叶斯理论,x属于 G 的后验概率 i 即当样本x已知时,它属于 Gi 的概率为:
expy ( g / x)exp( x)
i 1 k

expy ( g / x) ( x)
k

expy(i / x)exp( x) expy(i / x)
i 1 i 1

expy ( g / x)
k
由上式知,使y为最大的h,其P( g / x)必为最大, 因此我们只须把样品 x代入判别式中:分别计 算 y ( g / x),g 1,2,, k。 若 y (h / x)=maxy ( g / x)
1 g k
则把样品x归入第h总体。
例(胃癌的鉴别)为了判别病人是胃癌、还是 萎缩性胃炎。现对患有胃癌、萎缩性胃炎和非 胃炎患者中随机抽取15个病人,每人化验4项生 化指标:血清铜蛋白(X1)、蓝色反映(X2)、 尿吲哚乙酸(X3)和中性硫化物(X4),具体 数据见表5.10。试用贝叶斯判别分析,对这15个 样品进行判别归类。 并在此基础上,判断X1=205,X2=140,X3=11, X4=20属于哪一种患者?
相关主题