spss判别分析过程
1
判别分析的概念
判别分析( Discriminant Analysis ,简称
DA),这一技术是由R.A.Fisher于1936年提 出来的。 判别分析是用于分析因变量为分类变量、自 变量为定距变量数据的一种统计分析模型。 在判别分析中将分组变量称为因变量;用以 分组的其他特征变量成为判别变量或自变量。
26
四、判别分析步骤
27
判别分析步骤
(1)打开数据文件 (2)执行命令:Analyze classifydiscriminant命令,打开 discriminant analysis(判别分析)对话框:
19
标准化判别系数
以标准化判别系数表达的判别函数不再有常
数项,而且函数中出现的自变量不再是原始 变量,而是标准化的变量。 哪个变量的标准化系数绝对值大,就意味着 将对判别值有更大的影响。
20
3、结构系数
结构系数又被称为判别负载,是某个判别变
量x与判别值y之间的相关系数,表达了两者 之间的拟合水平。当这个系数的绝对值很大 (接近1)时,这个函数表达的信息与这个变 量的信息几乎相同。 SPSS提供的结构系数是组内结构系数,表示 一个函数与分组内部的变量的紧密联系程度; SPSS在判别分析时还能自动按组内结构系数 分组,它选择最大的一些组内结构系数标上 星号。 21
8
1、判别分析的假设条件:其他假设
1. 每个判别变量不能是其他判别变量的线性
组合,即不能出现多重共线性; 2. 各组case的协方差矩阵相等,为了使用简单 的公式来计算判别函数和进行显著性检验; 3. 各个判别变量之间具有多元正态分布,即 每个变量对于所有其他变量的固定值有正 态分布。在这种条件下可以计算显著性检 验值和分组归属的概率。当这个假设条件 破坏时,计算的概率将不准确
5
其他的例子
体温、血压、白血球》》感冒?肺炎?非典?
人均GDP、人均收入、人均寿命、人均住房
面积等》》》你小康了吗?
6
一、判别分析的假设条件 和基本模型
7
1、判别分析的假设条件:基本假设
分组类型(group,用g表示)在两种以上;
在第一阶段工作时候每组case必须至少在一
个以上; 各判别变量的测度等级为定距变量或定比 变量(才能方便计算均值和方差); Case 的个数要比变量的个数至少多两个; 对判别变量的个数没有限制;
24
6、残余判别力(residual discriminant)
Wilks' Lambda Test of Function(s) 1 through 2 2 Wilks' Lambda .008 .320 Chi-square 42.960 10.249 df 10 4 Sig. .000 .036
残余判别力的含义是,在以前计算的函数已经提取过原始信息之后,残
余的变量信息对于判别分组的能力。
25
7、Fisher判别系数(பைடு நூலகம்类函数系数表)
Classification Function Coefficients group classification 1.00 2.00 3.00 -7.676 -7.168 -4.143 84.305 82.693 75.210 9.776 9.497 6.878 -8.96E-02 -8.52E-02 -6.79E-02 .399 2.715E-03 .449 -3974.540 -3813.358 -3152.908
11
判别模型估计的过程
将判别变量表示的k维空间进行旋转,寻找某
个角度使得各个分组平均值的差别尽可能大, 然后作为判别的第一维度。对应第一维度的 判别函数称为第一判别函数; 然后寻找第二纬度,并建立第二判别函数; 后一个函数必须与前面所有的函数正交。 推导出来的函数有min(k,g-1)个。
数据包括全国30个省份的case,原有5个变量,
14
部分数据
ID 1 2 3 4 5 6 7 8 9 10 11 12 . 2. 13. 12. 8. 2. 8. 8. . 5. 2. 7. X1 94 58 46 46 94 80 91 82 80 94 60 07 89. 92. 90. 90. 90. 90. 91. 90. 91. 90. 92. 87. X2 89 32 71 04 46 17 43 78 47 31 42 97 64. 55. 38. 45. 41. 50. 46. 47. 62. 40. 35. 29. X3 51 41 20 12 83 64 32 33 36 85 14 51 X4 3577 2981 1148 1124 1080 2011 1383 1628 4822 1696 1717 933 73. 68. 19. 27. 36. 50. 42. 47. 66. 21. 32. 17. X5 08 65 08 68 12 86 65 17 23 24 81 90 TYPE 1. 00
1. 00 1. 00 1. 00 2. 00
15
三、判别分析模型的参数 指标及统计检验
16
1、非标准化判别系数
Canonical Discriminant Function Coefficients Function 1 multi-parity % contraception % J.school & above % average income urban % (Constant) .278 -.707 -.231 .002 .015 65.611 2 .054 -.031 -.093 .000 .144 1.556
10
判别模型的几何解释
各个判别变量代表了k维空间,每个case表示
空间中的一个点。各组case按照其判别变量 值有明显不同,在空间中形成明显的蜂集点 群。 判别分析可以精简对判别作用不大的维度; 判别分析将这些空间分布特征与已知分组属 性之间的联系加以拟合,并估计出各判别系 数的最优估计,并且对整个模型和各参数估 计进行评价和检验。
3
判别分析两个阶段的工作
1. 分析和解释各组的指标特征之间存在的差
异,并建立判别函数; 2. 要处理的是未知分组属性的case,以第一阶 段的分析结果为根据将这些cases进行判别 分组;
4
一个假想的例子
将中国各个省份按教育发展状况划分为教育
发达地区和落后地区两种。用来分组的指标 包括人均受教育年限、生均经费、各级教育 的入学率、财政性教育经费占GNI的比重等。 假定已经有28个省份被归类了,但是还有中 部地区的河南省、湖南省以及西部的陕西省 还未归类。请用判别分析过程进行归类。
Unstandardized coefficients
17
非标准化判别系数
非标准化判别系数也被称为粗系数。将原始
变量值直接输入模型,得到的系数估计就是 非标准化的粗系数。得到非标准化的判别系 数就意味着我们得到了求解的判别分析基本 模型。 非标准化判别系数的大小并不能反映相应变 量在判别作用上的大小。由于原始变量所取 的测量单位有所不同,因此非标准化系数间 没有可比性。
3、结构系数
Structure Matrix Function contraception % multi-parity % urban % J.s chool & above % average income 1 -.581* .458* -.145 -.161 -.100 2 -.017 -.059 .916* .543* .485*
a. First 2 canonical discriminant functions were used in the analysis.
判别分析通过一个判别函数所能代表的所有原始变量的总方差百分比来表示每
个判别函数的判别力。 在判别分析中,一个判别函数所代表的方差量用所对应的特征值来相对表示。 那么,特征值的合计就相对代表了总方差量。而每个特征值占这一合计的比例 就是相应判别函数能够代表的总方差比例,即它的判别力指数。
9
2、判别分析的基本模型
判别函数:y b0 b1 x1 b2 x2 bk xk 判别函数与回归函数的 区别: [1]判别函数中的y不是代表原来输入的因 变量的估计; 输入的因变量是定类变 量,而输出的变量是定 距变量; [2]回归分析中的方程只有 一个;判别分析中的函 数往 往不止一个。 判别函数值y又简称为判别值,判别 系数表示各个判别变量 对判别值的影响, b0是常数值。 (1) 其中y是判别函数值, x i为判别变量,b i为相应的判别系数。
Pooled within-groups correlations between discriminating variables and s tandardized canonical discriminant functions Variables ordered by abs olute s iz e of correlation within function. *. Larges t absolute correlation between each variable and any dis criminant function
22
4、分组的矩心(group centroid)
Functions at Group Centroids Function group classification 1.00 2.00 3.00 1 -4.549 -2.137 8.358 2 1.346 -1.655 .387
Unstandardized canonical discriminant functions evaluated at group means
23
5、判别力指数(potency index)