当前位置：文档之家› 概率论与数理统计之贝叶斯判别分析

概率论与数理统计之贝叶斯判别分析

2034.1 158.933 44.867 144.333 158.933 220.367 14 . 2 7 ＝ 44.867 14.2 202.034 6.833 144 . 333 7 6 . 833 95 . 933
由于 ln q ln q ln q ln 1 1.0986 1 2 3 三组判别函数分别为：
判别分析，首先要知道待判总体的先验概率和密度函数。对于先验概率，一般用样品的频率
qg ng n
来代替。或者令先验概率相等，这时可
以认为先验概率不起作用。
p元正态分布密度函数为： 1 ( g ) ' ( g ) 1 f g ( x) (2 ) exp ( x ) ( x ( g ) ) 2 式中 ( g )和 ( g )分别是第g总体的均值向量和协方差阵。把f g ( x)
先验概率和后验概率
• 先验概率是指根据以往经验和分析得到的概率，它往往作为“由因求果”问题中的“因”出现。
• 后验概率是指在得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因”。后验概率是基于新的信息，修正原来的先验概率后所获得的更接近实际情况的概率估计。
先验概率和后验概率的区别：
g g
（2）假设协方差阵相等
Z ( g / x)中含有k个总体的协差阵 ( g )的行列式及逆矩阵，而且对x二次函数，实际计算工作量很大。如果假定 k个总体的协差阵相同，即 1 (1) ( 2) (k ) (g) ' ( g ) 1 ＝＝＝＝，这时Z ( g / x)中的 ln 和x x两项与g无 2 关，求最大时可以去掉，最终得到如下形式的判别函数与判别准则
• 先验概率不是根据有关自然状态的全部资料测定的，而只是利用现有的材料(主要是历史资料)计算的；后验概率使用了有关自然状态更加全面的资料，既有先验概率资料，也有补充资料；
• 先验概率的计算比较简单，没有使用贝叶斯公式；而后验概率的计算，要使用贝叶斯公式，而且在利用样本资料计算逻辑概率时，还要使用理论概率分布，需要更多的数理统计知识。
判别原则：样品属于判别函数值最大的一组。回判结果如表5.11所示：
类别
序号 1
原分类Actual 1
回判组别 1
后验概率 0.998
胃癌患者
胃癌患者
2
3 4 5 6
1
1 1 1 2 2 2 2 2
1
1 3* 1 2 2 3* 2 2
0.977
0.999 0.578 0.999 0.457 0.700 0.518 0.662 0.616
p/2 ( g ) 1 / 2
代入p( g / x)的表达式中，因为我们只关心寻找使p( g / x)最大的g，而分式中的分母不论 g为何值都是常数，故可改令 q g f g ( x) max 取对数并去掉与 g无关的项，记为： 1 1 (g) ( g ) ' ( g ) 1 Z ( g / x) ln q g ln ( x ) (x (g) ) 2 2 1 1 ' ( g ) 1 1 ( g ) ' ( g ) 1 ( g ) (g) ' ( g ) 1 ( g ) ln q g ln x x x 2 2 2 则问题转化为： Z ( g / x) max
P(Gi x) qi f i ( x)
i i
q f ( x)
i 1
k
i 1,2 k
最大后验概率判别准则： x Gl , 若P (Gl x) max P (Gi x)
1i k
2、多元正态总体的Bayes判别法
•在实际问题中遇到的许多总体往往服从正态分布，下面给出p元正态总体的Bayes判别法。（1）判别函数的导出由前面的叙述可知，使用Bayes判别法作
类别
序号 1 2
血清铜蛋白 228 245 200 170 100 225
蓝色反应 134 134 167 150 167 125
尿吲哚乙酸 20 10 12 7 20 7
中性硫化物 11 40 27 8 14 14
胃癌患者
胃癌患者
3 4 5 6
萎缩性胃炎患者
非胃癌患者非胃炎患者
萎缩性胃炎患者
非胃癌患者非胃炎患者
7 8 9 10
11
12 13 14 15
3
3 3 3 3
2*
3 3 3 3
0.616
0.681 0.839 0.587 0.583
待判者
16
1*
0.996
• 误判的样本是4、8、11，回判后分别属于3、3、2组，即非胃炎患者、非胃炎患者、萎缩性胃炎患者。 • 并从表中可以看出，在15名患者数据所构成训练的基础之上，第16个数据（即待判者）属于胃癌患者，从而达到了判别的效果。
贝叶斯判别分析
汇报人：学号：
贝叶斯判别分析
从距离判别法来看，它存在以下不足：（1）判别方法与总体各自出现的概率的大小无关；（2）判别方法与错判之后所造成的损失无关。从费歇尔判别法来看，它随着总体个数的增加，建立的判别函数式个数也增加，因而计算起来比较麻烦。如果对多个总体的判别考虑的不是建立判别式，而是计算新给样品属于各总体的条件概率P(l/x)，比较这k个概率的大小，然后将样品判归为来自概率最大的总体，这种判别方法称为贝叶斯判别方法。
g 1 ( g ) ' 1 ( g ) ' ( g ) 1 ( g ) y ( g / x) ln q g x max 2
（3）计算后验概率
在进行分类计算时，主要根据判别式 y ( g / x)的大小，而不是后验概率 P( g / x)，但是有了y ( g / x)之后，就可以根据下式算出P( g / x)： P( g / x)＝ expy ( g / x)
7
8
130
150
100
117
6
7
12
6
9
10 11 12 13 14 15
120
160 185 170 165 135 100
133
100 115 125 142 108 117
10
5 5 6 5 2 7
26
10 19 4 3 12 2
解
X (1) (188.60,150.40,13.8,20.0); X ( 2) (157,115,7,13.6); X (3) (151 ,121.4,5,8)
3
f1 1.0986 79.212 0.164x1 0.753x2 0.778x3 0.073x4 f 2 1.0986 46.721 0.130x1 0.595x2 0.317x3 0.012x4 f 3 1.0986 49.598 0.130x1 0.637x2 0.100x3 0.059x4
expy(i / x)＝ln(q g f g ( x)) ( x) 其中( x)是 ln(q g f g ( x))中与g无关的部分。所以P( g / x)＝ q g f g ( x)
k i 1 i i
q f ( x) expy(i / x) ( x)
1、Bayes判别法基本思想
• Bayes判别法的基本思想是假定对所研究的对象已有一定的认识，常用先验概率来描述这种认识；然后抽取一个样本，用样本来修正已有的认识（先验概率分布），得到后验概率分布。各种统计推断都是通过后验概率分布来进行。
设有k个总体 G1, G2 , G3 Gk 且总体 Gi 的概率密度为 f i ( x) ，样本x来自 Gi 的先验概率为 qi , i 1,2k , 满足 q1 q2 qk 1 ．利用贝叶斯理论，x属于 G 的后验概率 i 即当样本x已知时，它属于 Gi 的概率为：
expy ( g / x)exp( x)
i 1 k
＝
expy ( g / x) ( x)
k

expy(i / x)exp( x) expy(i / x)
i 1 i 1

expy ( g / x)
k
由上式知，使y为最大的h，其P( g / x)必为最大，因此我们只须把样品 x代入判别式中：分别计算 y ( g / x)，g 1,2,, k。若 y (h / x)＝maxy ( g / x)
1 g k
则把样品x归入第h总体。
例（胃癌的鉴别）为了判别病人是胃癌、还是萎缩性胃炎。现对患有胃癌、萎缩性胃炎和非胃炎患者中随机抽取15个病人，每人化验4项生化指标：血清铜蛋白（X1）、蓝色反映（X2）、尿吲哚乙酸（X3）和中性硫化物（X4），具体数据见表5.10。试用贝叶斯判别分析，对这15个样品进行判别归类。并在此基础上，判断X1=205，X2=140，X3=11， X4=20属于哪一种患者？

e商务文档

概率论与数理统计之贝叶斯判别分析

相关文档推荐：