当前位置:文档之家› 判别分析的理论依据以及SPSS实现方法

判别分析的理论依据以及SPSS实现方法


4/35
判别分析内容很丰富,方法很多。判断分析按判别的总体
数来区分,有两个总体判别分析和多总体判别分析;按区分 不同总体所用的数学模型来分,有线性判别和非线性判别; 按判别时所处理的变量方法不同,有逐步判别和序贯判别等。 判别分析可以从不同角度提出问题,因此有不同的判别准则, 如马氏距离最小准则、Fisher准则、平均损失最小准则、最 小平方准则、最大似然准则、最大概率准则等等,按判别准 则的不同又提出多种判别方法。本章仅介绍常用的几种判别 分析方法:距离判别法、Fisher判别法、Bayes判别法和逐 步判别法。
X2
7.44 6.34 9.24 13.45 23.03 6.24 4.22 10.08 25.74 11.2 5.41 3.02 15.02 25.03 2.01 6.66 7.33 6.22 15.36
X3
1.12 1.08 1.04 1.43 2.83 1.18 1.06 2.32 4.06 6.07 0.07 0.09 1.08 2.11 0.07 1.08 1.11 1.12 1.07
的概率分别为 q1 , q 2 ,,q k (先验概率) qi 0 , ,
q
i 1
k
i
1。
假设已知若将本来属于 Gi 总体的样品错判到总体 G j 时造成 的损失为 C ( j | i) , i, j 1,2,, k 。在这样的情形下,对于 新的样品 X 判断其来自哪个总体。
14/35
这样我们将会发现,判别分析问题实质上就是在某种意义
上,以最优的性质对p维空间R p构造一个“划分”,这个 “划分”就构成了一个判别规则。这一思想将在后面的各节 中体现的更加清楚。
第三节 贝叶斯(Bayes)判别法
11/35
一 Bayes判别的基本思想
二 Bayes判别的基本方法
12/35
从上节看距离判别法虽然简单,便于使用。但是该方法也有
第五节 实例分析与计算机实现
这一节我们利用SPSS对Fisher判别法和Bayes判别法进行计
18/35
算机实现。 为研究某地区人口死亡状况,已按某种方法将15个已知地区 样品分为3类,指标含义及原始数据如下。试建立判别函数, 并判定另外4个待判地区属于哪类? X1 : 0岁组死亡概率 X 2 :1岁组死亡概率 X 4 : 55岁组死亡概率 X5 : 80岁组死亡概率
8/35
2、多个总体的距离判别问题
设有 k 个总体 G1 , G2 ,,G k ,其均值和协方差矩阵分别是 问题:
μ1 , μ 2 ,, μ k 和 Σ1 , Σ 2 , , Σ k ,而且 Σ1 Σ 2 Σ k Σ 。 对于一个新的样品 X ,要判断它来自哪个总体。
X 3 : 10岁组死亡概率
X6 : 平均预期寿命
19/35
表4.1 各地区死亡概率表
X1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 待判 待判 待判 待判 34.16 33.06 36.26 40.17 50.06 33.24 32.22 41.15 53.04 38.03 34.03 32.11 44.12 54.17 28.07 50.22 34.64 33.42 44.02
它明显的不足之处。 第一,判别方法与总体各自出现的概率的大小无关; 第二,判别方法与错判之后所造成的损失无关。Bayes判别 法就是为了解决这些问题而提出的一种判别方法。
一、Bayes判别的基本思想
13/35
问题:设有 k 个总体 G1 , G2 ,,G k ,其各自的分布密度函数
f1 (x), f 2 (x), , f k (x) 互不相同的,假设 k 个总体各自出现
从 k 个总体中抽取具有
17/35
p 个指标的样品观测数据,借助方
差分析的思想构造一个线性判别函数
U ( X) u1 X 1 u2 X 2 u p X p uX
(4.19)
其中系数 u (u1 , u 2 ,, u p ) 确定的原则是使得总体之间 区别最大,而使每个总体内部的离差最小。有了线性判别 函数后,对于一个新的样品,将它的 p 个指标值代入线性 判别函数(4.19)式中求出 U ( X) 值,然后根据判别一定 的规则,就可以判别新的样品属于哪个总体。
定义点 X 到总体 G 的马氏距离为
Σ1 ( X μ) (4.3) D ( X, G) ( X μ) 这里应该注意到,当 Σ I (单位矩阵)时,即为欧氏距离
2
的情形。
二、距离判别的思想及方法
1、两个总体的距离判别问题 问题:设有协方差矩阵∑相等的两个总体G1和G2,其均值 分别是1和 2,对于一个新的样品X,要判断它来自哪个总 体。 一般的想法是计算新样品X到两个总体的马氏距离D2(X, G1)和D2(X,G2),并按照如下的判别规则进行判断
第四章 判别分析
第一节
第二节 第三节 第四节 第五节
1/35
引言
距离判别法 贝叶斯(Bayes)判别法 费歇(Fisher)判别法 实例分析与计算机实现
第一节
引言
2/35
在我们的日常生活和工作实践中,常常会遇到判别分析问题,
即根据历史上划分类别的有关资料和某种最优准则,确定一 种判别方法,判定一个新的样本归属哪一类。例如,某医院 有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记 录了每个患者若干项症状指标数据。现在想利用现有的这些 资料找出一种方法,使得对于一个新的病人,当测得这些症 状指标数据时,能够判定其患有哪种病。又如,在天气预报 中,我们有一段较长时间关于某地区每天气象的记录资料 (晴阴雨、气温、气压、湿度等),现在想建立一种用连续 五天的气象资料来预报第六天是什么天气的方法。这些问题 都可以应用判别分析方法予以解决。
h j (x) qi C ( j | i ) f i (x))
i 1
k
j 1,2,, k
(4.16)
然后再比较这 k 个误判平均损失 h1 (x), h2 (x), , hk (x) 的大小, 选取其中最小的,则判定样品 X 来自该总体。
第四节 费歇(Fisher)判别法
15/35
该问题与两个总体的距离判别问题的解决思想一样。计算新样品 X 到每一个总体的距离,即
D 2 ( X, G ) ( X μ )Σ1 ( X μ )
XΣ 1X 2μ Σ 1X μ Σ 1μ
1
XΣ X 2(I X C ) 1 1 这里 I Σ μ , C μ Σ 1μ , 1,2,, k 。 2
Fisher’s:给出Bayes判别函数的系数。(注意:这个选项不是
要给出Fisher判别函数的系数。这个复选框的名字之所以为 Fisher’s,是因为按判别函数值最大的一组进行归类这种思想 是由Fisher提出来的。这里极易混淆,请读者注意辨别。) Unstandardized:给出未标准化的Fisher判别函数(即典型判 别函数)的系数(SPSS默认给出标准化的Fisher判别函数系 数)。
X4
7.87 6.77 8.97 13.88 23.74 22.9 20.7 32.84 34.87 27.84 5.2 3.14 15.15 25.15 3.02 22.54 7.78 22.95 16.45
X5
95.19 94.08 97.3 101.2 112.52 160.01 124.7 172.06 152.03 146.32 90.1 85.15 103.12 110.14 81.22 170.6 95.16 160.31 105.3
7/35
X G1 , X G2 ,
如果 如果
D 2 ( X, G1 ) D 2 ( X, G2 ) D ( X, G1 ) D ( X, G2 )
2 2
(4.4)
这个判别规则的等价描述为:求新样品X到G1的距离与到G2
的距离之差,如果其值为正,X属于G2;否则X属于G1。
X6
69.3 69.7 68.8 66.2 63.3 65.4 68.7 65.85 63.5 66.8 69.5 70.8 64.8 63.7 68.3 65.2 69.3 68.3 64.2
类别 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 . . . .
20/35
(一) 操作步骤 1. 在SPSS窗口中选择Analyze→Classify→Discriminate,调 出判别分析主界面,将左边的变量列表中的“group”变量选 入分组变量中,将—变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判 别分析。
第二节 距离判别法
5/35
一 马氏距离的概念
二 距离判别的思想及方法
三 判别分析的实质
6/35
为此 , 我们引入一种由印度著名统计学家马哈拉诺比斯
(Mahalanobis, 1936)提出的“马氏距离”的概念。 设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总体 G 中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距离定 义为 (4.2) D2 (X, Y) (X Y)Σ1 ( X Y)
这样,我们以 Bayes 判别的思想得到的划分 R ( R1 , R2 ,, Rk )

Ri {x | hi ( x) min h j ( x)}
1 j k
i 1,2,, k
(4.15)
具体说来,当抽取了一个未知总体的样本值 X ,要判断它属于哪 个总体,只要前计算出 k 个按先验分布加权的误判平均损失
22/35
单击Continue按钮,返回主界面。
相关主题