第十八章_判别分析
2
概 述
对事物分类,以便给予不同的处理。 但事物的分类常需要多个指标,判别分析 是通过多变量对事物进行分类方法。 医学中的分类问题: 疾病的预测 预测病人的预后(好或差),提出早期治疗方法 ,降低严重后果。
3
例: 新生儿缺氧缺血性脑病(HIE)预 后(山东某医院,2004年) 判别指标:
生后1 分钟阿氏评分(X1) 、窒息复苏时 间(X2 ) 、惊厥持续天数(X3 ) 、急性期CT 改变(X4) 及治疗3 天后原始反射情况(X5).
z A z B 1.428 (1.722) zc 0.004 2 2
预测: 某病人测定了x1、x2、x3值,代 入方程z,计算的z>-0.004,为A类。
19
例:表18-1 两类疾病 22例患者三项指标预测结果
类别 A A A
B B B
x1 23 -1 -10
9 2 17
x2 8 9 5
C1 0.07, C2 0.225, C3 0.318
z 0.07 x1 0.225x2 0.318x3
18
3.计算判别界值Zc
将各类每个个体的变量值代入判别方程, 得到zi,得到zA和zB的均数.
z 0.07 x1 0.225x2 0.318x3
z A 1.428, zB 1.722
判为A类 判为B类 判为任意一类
30
表4和表5反映建立判别方程提取信息量. 和有无统计意义
表4
Eigenvalues Function 1 Eigenvalue % of Variance .859a 100.0 Cumulative % 100.0 Canonical Correlation .680
自变量(x) 为定性数据: 最大似然判别法、Bayes公式判别(统计 软件不能自动实现)。
8
判别分析方法的基本步骤
1.建立判别函数(方程)
2.规定判别(分类)准则 判别新个体为某类 3.评价判别方程的效果
9
第一节 Fisher判别
一 、两类判别
1.
Fisher判别(典则判别 canonical discriminant)
典型判别函数
(canonical discriminant function)
Canonical Discriminant Function Coefficients Function 1 .040 -.127 .179 -.002
表6
X1 X2 X3 (Constant)
根据表6系 数建立判 别方程
表3
Box's M F
Tests null hypothesis of equal population covariance matrices.
本例p>0.05,满足齐性条件
28
两总体方差不齐距离示意
z1
z2
29
建立判别规则和判别值(Zc)
z A zB zc 2
(18-5)
zi z c zi z c zi z c
16
变量的合并方差和协方差
( x A1 x A1 ) ( xB1 xB1 ) s11 nA 1 nB 1
2 2
( x A1 x A1 )( x A2 x A2 ) ( xB1 xB1 )( xB 2 xB 2 ) s12 nA 1 nB 1
类别 1.00 2.00 1.00 2.00
Total 12 10 100.0 100.0
a. 81.8% of original grouped cases correctly classified.
灵敏度
特异度
34
软件给出判别结果和判别值
35
目前判别分析效果评价方法
1.回顾性评价: 将原始数据带入判别方程得误判率评价. 2.前瞻性: 将原始数据分为0.85(训练样本)建立判 别方程和0.15(验证样本).计算误判率(要 求例数较多)。 3.误判率 总误判率低于0.2,认为判别函数可用.
第十八章 判别分析 (Discriminant Analysis)
分类学是人类认识世界的基础科学。判别 分析是研究事物分类的基本方法,广泛应用 于自然和社会科学各个领域。
1
判别分析内容
* 第一节 Fisher判别 第二节 最大似然判别法 第三节 Bayes公式判别法 *第四节 Bayes判别 *第五节 逐步判别 * 第六节 判别分析中应注意的问题 (补充:SPSS统计软件的操作和结果) *重点:判别分析概念、应用、结果解释、注意 的问题。
11
Fisher方差分析的思想
准则:寻找组间变异(类间均数)/ 组内 变异的比值最大化.
z A zB s s
2 A 2 B
英国统计学家Fisher R A 爵士(1890~1962)
z c1 x1 c2 x2 .... cm xm
12
通过解下列距阵得到判别系数(c)
S11C1 S12C2 ....S1mCm D1 S 21C1 S 22C2 ....S 2 mCm D2 ..... S m1C1 S m 2C2 ....S mmCm Dm
用已知类别(A或B)研究对象的x1, x2…… xm指 标,建立判别方程(z):
z c1 x1 c2 x2 .... cm xm
(18-1)
方程中系数c为判别系数,c1, c2…… cm,
10
Fisher判别的原理
Z
| Z A Z| B S A
冠心病人
编号 1 2 3 13 14 15 类别(y) A A A B B B x1 23 -1 -10 9 2 17 x2 8 9 5 -5 -1 -6 x3 0 -2 0 1 -1 -1
15
计算步骤:
1.计算各类均数和合并(A、B)的协方 差距阵(S)
s11, s12 , s13 175.3,20.3,2.3 s s21, s22 , s23 20.3,38.2,5.8 s31, s32, s33 2 . 3 , 5 . 8 , 2 . 7
Function 1 .523 -.782 .295
系数的绝 对值反映 重要性
33
评价判别效果
表8
Classification Resultsa Predicted Group Membership 1.00 2.00 10 2 2 8 83.3 16.7 20.0 80.0
Original
Count %
36
例:世界经济统计研究(1995年)人文指数 反映国家综合水平
国家 美国 日本 训练样本 瑞士 阿根廷 阿联酋 保加利亚 古巴 巴拉圭 格鲁吉亚 南非 中国 待判样本 罗马尼亚 希腊 哥伦比亚 类别 期望寿命 1.00 76.00 1.00 79.50 1.00 78.00 1.00 72.10 1.00 73.80 2.00 71.20 2.00 75.30 2.00 70.00 2.00 72.80 2.00 62.90 2.00 68.50 2.00 69.90 1.00 77.60 1.00 69.30 识字率 99.00 99.00 99.00 95.90 77.70 93.00 94.90 91.20 99.00 80.60 79.30 96.90 93.80 90.30 GDP 5374.00 5359.00 5372.00 5242.00 5370.00 4250.00 3412.00 3390.00 2300.00 3799.00 1950.00 2840.00 5233.00 5158.00 37
6
判别分析的特点
用途:通过数据建立判别方程,对研究事物进 行分类和预测。 对资料要求: 要求建立方程的观察对象分类(y)已经 明确(用金标准确定),收集建模对象(训 练样本)的m个变量(x)建立判别方程。
7
判别分析建模的方法
根据自变量(x)资料性质:
自变量(x)为计量数据: Fisher判别、Bayes判别(SPSS、SAS 统计软件可实现)。
类间 均数 差值 (18-3)
Sij为第i指标和第j个指标的合并协方差
z c1 x1 c2 x2 .... cm xm
13
2.建立判别规则和判别值(Zc)
z A zB zc 2
(18-5)
zi z c zi z c zi z c
判为A类 判为B类 判为任意一类
14
例:表18-1 两类疾病 22例患者三项指标观察结果
-5 -1 -6
x3 0 -2 0
1 -1 -1
z值 判别结果 0.19 A 2.73 A 1.83 A
-2.07 -0.05 -2.22 B A B
20
z>-0.004,为A类
二、判别效果的评价
用误判率评价:
判为A类的例数 p( A / B) B类的例数
判为B类的例数 p( B / A) A类的例数
Wilks' Lambda .929 .634 .712
单变量检验提示: X2和x3在区别不同类别人群有统计学 意义。
27
检验建模数据变量的变异在类间 是否齐性?
协方差的Box‘s M检验
Test Results Approx. df1 df2 Sig. 10.859 1.508 6 2613.311 .172
24
25
讲义18-1实例分析 SPSS统计软件结果
变量判别能力的考察和统计描述
Group Statistics Mean -3.0000 4.0000 -1.0000 4.0000 -5.0000 1.0000 .1818 -.0909 -.0909 Std. Deviation 15.32674 5.27429 1.70561 10.12148 7.13364 1.56347 13.40446 7.57759 1.90010 Valid N (listwise) Unweighted Weighted 12 12.000 12 12.000 12 12.000 10 10.000 10 10.000 10 10.000 22 22.000 22 22.000 22 22.000 26