判别分析实例汇总
本程序中的第三个过程要求进行非参数分 析,即对类密度函数进行非参数估计。选项 K=2 要求用最近邻的两个样品进行密度函数估计,选 项 list 要求输出重复替换归类结果。该过程运行
结果如下: 表 10 用 NPAR 方法得到的判别分析部分 结果
由表 10 可知,4 个待判的样品中 19 号和 21 号归类结果与 BAYES 判别归类结果是一致的, 但 20 号和 22 号所属类别则不能确定,这是与前 面 2 中判别方法结果不一致的地方。
3 1550 62.6 48.6 58.1 3 1128 46.5 69.1 56.2 3 2299 49.8 67.9 62.3 3 2370 64.6 49.9 40 3 3071 73.7 90.3 63.9 3 3843 69.7 90.4 68.2 . 31267 82.3 99 85.9 . 3452 63.7 61 63.8 . 6757 72.5 90.9 69.1 . 11110 50.8 82.4 77 ; proc discrim simple wcov distance list;/*simple:要求技术各类样品的简单描述 统计量;选项WCOV要求计算类内协方差阵;选项DISTANCE要求计算马氏距离;选项LIST要求 输出重复替换归类结果。由于没有给出方法选项,所以系统按缺省时的正态分布进行有关参数 的估计和归类。*/ class type; var gdp life rate zhrate; run;
重加权而得),将一生三个指数合成为一个指数
就是人文发展指数。今从 2007 年世界各国人文
发展指数(2005 年)的排序中,选取高发展水
平、中等发展水平和低发展水平国家各 6 个作为
三组样品,另选四个国家作为待判样品,资料如
下表所示。试用判别分析过程对以下数据资料进
行判别分析,并据此对待选的四个国家进行判别
判别分析实例汇总
例:人文与发展指数是联合国开发计划署于
1990 年 5 月发表的第一份《人类发展报告》中
公布的。该报告建议,目前对人文发展的衡量指
标应当以人生的三大要素为重点。衡量人生的三
大要素的指标分别为:实际人均 GDP 指数、出
生时的预期寿命指数、受教育程度指数(由成人
识字率指数和综合总人学率指数按 2/3、1/3 的权
表 14 类间马氏距离及各类总体均值的显著 性检验
由上表的显著性概率可知,在 0.05 的显著 性水平下,三个类的总体均值两两显著不等。
表 15 线性判别函数
由表 15 得 3 个类的线形判别函数分别为:
第
一
类
:
Y1=-12.01131+4.88922can1-0.34378can2
第
二
类
:
Y2=-1.16768-1.07130can1+1.08981can2
表 4 线形判别函数
由表 4 可写出线形判别函数如下: 高发展水平: y1=-157.18932+0.00204gdp+1.66582life-0.37085r ate+1.72851zhrate 中等发展水平 Y2=-99.12840+0.0006250gdp+1.49389life-0.0926 2rate+1.19559zhrate 低发展水平: Y3=-62.22473+0.0002576gdp+1.31631life-0.0894 0rate+0.85253zhrate
第
三
类
:
y3=-7.56654-3.81792can1-0.74604can2
表 16 由 DISCRIM 利用两个典型变量进行 判别部分样品归类结果
上表分类结果与前几种分类方法结果一样, 总错判率为 0.
上表可知,第一典型相关为 0.969875,而第 二 典 型 相 关 为 0.653396 。 第 一 个 特 征 值 为 15.8514,所占比例为 95.51%,第二个特征值为 0.7450,所占比例仅有 4.49%,说明只需用第一 个典型变量即可。
表 13 原始变量的典型相关系数
由表 12 可得两个典型变量分别为: CAN1=0.0002096544gdp+0.0382960552life0.0346472260rate+0.0988009134zhrate Can2=-0.0001135485gdp+0.0394378902life +0.0500655661rate+0.0390500134zhrate
归类。
国家 人 均 出 生 成人识 初等、
GDP 时 的 字 率 中等和
( 美 预 期 (%) 高等教
元) 寿 命
育入学
(岁)
率(%)
第 一 美国 41890 77.9 99.5 93.3
类:高 德国 29461 79.1 99.2 88
发 展 希腊 23381 78.9 96 99 水 平 新 加 29663 79.4 92.5 87.3 国家 坡
proc candisc out=result ncan=2; /*simple: */ class type; var gdp life rate zhrate; run; proc gplot data=reult; plot can1*can2=type; run; proc discrim data=result distance list; class type; var can1 can2; run;
表 8 类间配对广义马氏距离
由表 8 可知,类内广义马氏距离不再为 0, 而且类间的广义马氏距离也不再相等,因而类内 协方差和先验概率对后验概率的计算是起作用 的。
表 9 用 Bayes 判别法得到的判别分析部分结果
由表 9 可知,用 BAYES 判别法对待判样品 的判别结果与距离判别法结果一致。
斯坦 越南 3071 73.7 90.3 63.9 印 度 3843 69.7 90.4 68.2 尼西 亚 待 判 日本 31267 82.3 99 85.9 组 印度 3452 63.7 61 63.8 中国 6757 72.5 90.9 69.1 南非 11110 50.8 82.4 77
data develop; input type gdp life rate zhrate@@; cards; 1 41890 77.9 99.5 93.3 1 29461 79.1 99.2 88 1 23381 78.9 96 99 1 29663 79.4 92.5 87.3 1 28529 80.3 98.4 90.6 1 22029 77.9 99 96 2 6000 77.7 99.8 87.6 2 9060 71.9 97.3 76.8 2 8402 71.7 88.6 87.5 2 8677 69.6 92.6 71.2 2 5137 71 92.6 81.1 2 8407 71.4 87.4 68.7
表 1 已知样本分类水平信息
表 2 样本统计量信息
表 3 类间距离及三类总体均值差异的显著性检 验
表 3 给出了类 1 与类 2 之间的马氏距离为 37.58288 , 类 1 与 类 3 之 间 的 马 氏 距 离 为 75.97603 , 类 2 与 类 3 之 间 的 马 氏 距 离 为 10.91428.类与类之间总体均值的 F 检验统计量 值分布为 22.54978,45.58562,22.54973,对应 的检验概率分别为<0.0001, <0.0001,<0.0001, 说 明三类总体均值两辆之间的差异是显著的,因此 判别分析有意义。
意 大 28529 80.3 98.4 90.6 利 韩国 22029 77.9 99 96 第 二 古巴 6000 77.7 99.8 87.6 类:中 罗 马 9060 71.9 97.3 76.8 等 发 尼亚 展 水 巴西 8402 71.7 88.6 87.5 平 国 泰国 8677 69.6 92.6 71.2 家 菲 律 5137 71 92.6 81.1 宾 土 耳 8407 71.4 87.4 68.7 其 第 三 尼 泊 1550 62.6 48.6 58.1 类:低 尔 发 展 尼 日 1128 46.5 69.1 56.2 水 平 利亚 国家 喀 麦 2299 49.8 67.9 62.3 隆 巴 基 2370 64.6 49.9 40
proc discrim pool=test slpool=0.05 list; /*simple: */ class type; priors '1'=0.3 '2'=0.4 '3'=0.3 ; run;
proc discrim method=npar k=2 list; /*simple: */ class type; run;
第四种 FISHER 判别:第一个过程执 行典型判别分析。第二个过程要求绘制第一个典 型变量 CAN1 和第二个典型变量 CAN2 的散点 图,以便更加直观了解分类情况。第一、二个过 程输出结果如下:
表 11 典型相关的多变量检验结果
由上表对相关阵的显著性检验结果可知,至 少有
表 12 典型相关与特征值
本程序中第二个判别分析过程的选项 “pool=test”,要求进行类内协方差阵一致性检验, 检验的显著性水平由选项”slpool=0.05”给出为 0.05. priors 语句给出了各发展水平国家的先验 概率。
表 7 分类信息及类内协方差阵一致性检验结果
表 7 表明 3 个类的先验概率分别为 0.3,0.4, 0.3,类内协方差阵行列式的自然对数不相等, 表明类内协方差阵不相等,而卡方统计量值为 46.068898,对应的概率是 0.0008,在 0.05 的显 著性水平下是显著的,即类内协方差阵存在显著 差异。由于类内协方差阵不等,所以判别函数应 是二次函数。