当前位置:文档之家› 判别分析三种方法

判别分析三种方法

作业一:
为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为两种类型。

试建立判别函数,判定广东、西藏分别属于哪个收入类型。

判别指标及原始数据见表9-4。

1991年30个省、市、自治区城镇居民月平均收人数据表
单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体)
x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入
x4:人均集体所有制工资收入 x9:个体劳动者收入
x5:人均集体所有制职工标准工资
一、距离判别法
解:变量个数p=9,两类总体各有11个样品,即n1=n2=11 ,有2个待判样品,假定两总体协差阵相等。

由spss可计算出:协方差和平均值
合计x1 123.2881 23.27817 22 22.000
x2 80.4895 22.04796 22 22.000
x3 50.8709 6.14867 22 22.000
x4 10.1450 3.11887 22 22.000
x5 6.0659 2.72297 22 22.000
x6 14.6060 6.73264 22 22.000
x7 15.7215 6.64603 22 22.000
x8 8.7895 3.02700 22 22.000
x9 1.5291 1.31496 22 22.000
知道了均值和协方差可利用matlab计算线性判别函数W(x)的判别系数a和判别常数。

程序如下:
v=[1.000,0.217,0.299,0.045,-0.054,0.688,0.212,0.121,-0.245;.217,1,.102,-.234,-.211,. 136,-.052,.116,.154;.299,.102,1,-.296,-.062,.091,-.017,-.607,-.034;.045,-.234,-.296,1,. 762,-.172,-.297,.103,-.554;-.054,-.211,-.062,.762,1,-.156,-.342,.022,-.654;.688,.136,.0 91,-.172,-.156,1,.235,.384,-.098;.212,-.052,-.017,-.297,-.342,.235,1,-.040,.424;.121,.1 16,-.607,.103,.022,.384,-.040,1,-.071;-.245,.154,-.034,-.554,-.654,-.098,.424,-.071,1]; >>
m1=[139.2664;93.0918;53.9882;11.2073;6.7645;17.9345;17,8327;11.0018;1.6736];m 2=[107.3099;67.8873;47.7536;9.0827;5.3673;11.2775;13.6102;6.5773;1.3845];
>> m=(m1+m2)/2;
>> arfa=inv(v)*(m1-m2);
二、Fisher判别方法
1、操作步骤:
1)录入数据,选择菜单项Analyze→Classify→Discriminate,打开Discriminate Analysis对话框,如图2-1。

图2-1
2)单击Statistics按钮,在跳出的Statistics子对话框中指定输出的描述统计量和判别函数系数。

如图2-2
图2-2
3)单击Classify按钮,打开Classification子对话框,对它的先验概率、输
出以及图等的选择。

如图2-3
图2-3
4)单击Save按钮,打开Save子对话框,如图2-4,指定在数据文件中生成代表判别分类结果和判别函数值的新变量。

图2-4
5)单击‘OK’即可。

2、结果分析
1)表2-1是Fisher判别函数的特征值表。

特征值为相应Fisher判别函数的特征值,等于判别函数值组间平方和与组内平方和之比,该值越大表明判别函数效果越好。

特征值的个数与Fisher判别函数的个数相等,由于本例中总体只有两
类,所以至多有一个Fisher判别函数。

正则相关性为典型相关系数,等于组间平方和与组内平方和之比的平方根。

表2-1Fisher判别函数特征值
2)表2-2给出了Fisher判别函数有效性检验结果。

该检验的原假设是不同组的平均Fisher判别函数值不存在显著差异。

从表中给出的α值来看,05
.0
000
.0≤
=
α说明在0.05的显著性水平下有理由拒绝原假设,即应认为不同组的平均Fisher判别函数值存在显著差异,这意味着判别函数是有效的。

表2-2Fisher判别函数有效性检验
3)表2-3和表2-4分别给出了标准化的Fisher判别函数和未标准化的Fisher 判别函数。

标准化的Fisher判别函数是由标准化的自变量通过Fisher判别法得到的,所以要得到标准化的Fisher判别函数值,代入该函数的自变量必须是经过标准化的。

而未标准化的Fisher判别函数系数由于可以将实测的样品观测值直接代入求出判别函数值,所以该系数使用起来比标准化的系数要方便一些。

由表2-4可知,Fisher判别函数为:
582
.
20
252
.0
618
.0
051
.0
064
.0 011
.0
217
.0
225
.0
009
.0
005
.0
9
8
7
6
5
4
3
2
1
-
+
+
+
-
-
+
+
+
=
x
x
x
x
x
x
x
x
x
y Wilks 的 Lambda
函数检验Wilks 的
Lambda 卡方df Sig.
1 .135 31.003 9 .000
表表2-4
将1x 、2x 代入判别函数得出1y 、2y ,从而求出临街值y 。

将样本一的数据代入判别函数得:
y y <1, y y <2
1) 表2-5可知,在这次判别中并没有误判情况,即是误判的概率为0。

表2-5
标准化的典型判别式函
数系数
函数 1 x1 .085 x2 .159 x3 1.214 x4 .649 x5 -.029 x6 -.383 x7 .326 x8 1.272 x9
.337
三、Bayes判别法
1、操作过程
1)录入数据,选择菜单项Analyze→Classify→Discriminate,打开Discriminate
Analysis对话框,如图3-1。

如图3-1
2)单击Statistics按钮,在跳出的Statistics子对话框中指定输出的描述统
计量和判别函数系数。

如图3-2
图3-2
3)单击Classify按钮,打开Classification子对话框,对它的先验概率、输
出以及图等的选择。

如图3-3
4)单击Save按钮,打开Save子对话框,如图3-4,指定在数据文件中生成代
表判别分类结果和判别函数值的新变量。

5)单击‘OK’即可。

2、结果分析:
1)表3-1给出了各类总体的先验概率。

由于我们在Classification子对话框
的Prior Probabilities选项栏中选择了默认的All groups equal选项,所以系统自动给每类分配了0.5的先验概率。

组的先验概率
VAR00010 先验
用于分析的案例
未加权的已加权的
1.00 .500 11 11.000
2.00 .500 11 11.000
合计 1.000 22 22.000
表3-1
2)表3-2给出了Bayes线性判别函数的系数。

表中的每一列表示样品判入相应
类的Bayes判别函数系数。

分类函数系数
VAR00010
1.00
2.00
x1 -.022 -.046
x2 .147 .106
x3 6.268 5.182
x4 6.588 5.544
x5 -1.521 -1.469
x6 -1.560 -1.250
x7 1.237 .993
x8 13.638 10.660
x9 5.862 4.649
(常量) -283.959 -184.744
Fisher 的线性判别式函数
表3-2
在本例中,各类的Bayes判别函数如下:
第一类:y1=-0.022x1+0.147x2+6.268x3+6.588 x4-1.251 x5-1.560 x6+1.237
x7+13.638 x8+5.826 x9-283.959;
第二类:y2=-0.046x1+0.106x2+5.182x3+5.544 x4-1.469 x5-1.250 x6+0.993
x7+10.660 x8+4.649 x9-184.744;
3)表3-3给出了模型的错判矩阵。

从表中可以看到这一次所取的样本并不存在
误判情况,即误判的概率为0。

表3-3
11。

相关主题