主成分案例分析主成分分析案例---我国各地区普通高等教育发展水平综合评价(一)案例教学目的主成分分析试图在力保数据信息丢失最少的原则下,对多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。
本案例运用主成分分析方法综合评价我国各地区普通高等教育的发展水平。
通过本案例的教学,力图使学生加深对主成分分析的统计思想和实际意义的理解,明确主成分分析方法的适用环境,掌握主成分分析软件实现操作方法,提高学生思考、分析和解决实际问题的能力。
(二)案例研究背景近年来,我国普通高等教育得到了迅速发展,为国家培养了大批人才。
但由于我国各地区经济发展水平不均衡,加之高等院校原有布局使各地区高等教育发展的起点不一致,因而各地区普通高等教育的发展水平存在一定的差异。
对我国各地区普通高等教育的发展水平进行综合评价,明确各地区的差异,有利于管理和决策部门从宏观上把握各地区普通高等教育的发展现状,更好的指导和规划高教事业的健康发展。
(三)案例研究过程1、建立综合评价指标体系高等教育是依赖高等院校进行的,高等教育的发展状况主要体现在高等院校的相关方面。
遵循选取评价指标的目的性和可比性原则,从高等教育的五个方面选取十项评价指标,具体如下:2、数据资料指标的原始数据取自《中国统计年鉴,1995》和《中国教育统计年鉴,1995》除以各地区相应的人口数得到十项指标值见表1。
其中:x为每百万人口高等院校数;x为每十万人口高等院校毕业生数;x123为每十万人口高等院校招生数;x为每十万人口高等院校在校生数;4x 为每十万人口高等院校教职工数;x 为每十万人口高等院校专职56教师数;x为高级职称占专职教师的比例;x为平均每所高等院校的78在校生数;x为国家财政预算内普通高教经费占国内生产总值的比9重;x为生均教育经费。
10表1-1 我国各地区普通高等教育发展状况数据地区 x x x x x x x x x x 12345678910北京1 5.96 310 461 1557 931 319 44.36 2615 2.2 13631 上海2 3.39 234 308 1035 498 161 35.02 3052 0.9 12665 天津3 2.35 157 229 713 295 109 38.4 3031 0.86 9385 陕西4 1.35 81 111 364 150 58 30.45 2699 1.22 7881 辽宁5 1.5 88 128 421 144 58 34.3 2808 0.54 7733吉林6 1.67 86 120 370 153 58 33.53 2215 0.76 7480 黑龙江7 1.17 63 93 296 117 44 35.22 2528 0.58 8570 湖北8 1.05 67 92 297 115 43 32.892835 0.66 7262 江苏9 0.95 64 94 287 102 39 31.54 3008 0.39 7786 广东10 0.69 39 71 205 61 24 34.5 2988 0.37 11355 四川11 0.56 40 57 177 61 23 32.62 3149 0.55 7693 山东12 0.57 58 64 181 57 22 32.95 3202 0.28 6805甘肃13 0.71 42 62 190 66 26 28.13 2657 0.73 7282 湖南14 0.74 42 61 194 61 24 33.06 2618 0.47 6477 浙江15 0.86 42 71 204 66 26 29.94 2363 0.25 7704 新疆16 1.29 47 73 265 114 46 25.93 2060 0.37 5719 福建17 1.04 53 71 218 63 26 29.01 2099 0.29 7106 山西18 0.85 53 65 218 76 30 25.63 2555 0.43 5580 河北19 0.81 43 66 188 61 23 29.82 2313 0.31 5704 安徽20 0.59 35 47 146 46 20 32.83 2488 0.33 5628 云南21 0.66 36 40 130 44 19 28.55 1974 0.48 9106 江西22 0.77 43 63 194 67 23 28.81 2515 0.34 4085海南23 0.7 33 51 165 47 18 27.34 2344 0.28 7928 内蒙古24 0.84 43 48 171 65 29 27.65 2032 0.32 5581 西藏25 1.69 26 45 137 75 33 12.1 810 1 14199 河南26 0.55 32 46 130 44 17 28.41 2341 0.3 5714 广西27 0.6 28 43 129 39 17 31.93 2146 0.24 5139 宁夏28 1.39 48 62 208 77 34 22.7 1500 0.42 5377 贵州29 0.64 23 32 93 37 16 28.12 1469 0.34 5415 青海30 1.48 38 46 151 63 30 17.87 1024 0.38 73683、主成分分析定性考察反映高等教育发展状况的五个方面十项评价指标,可以看出,某些指标之间可能存在较强的相关性。
比如每十万人口高等院校毕业生数、每十万人口高等院校招生数与每十万人口高等院校在校生数之间可能存在较强的相关性,每十万人口高等院校教职工数和每十万人口高等院校专职教师数之间可能存在较强的相关性。
为了验证这种想法,计算十个指标之间的相关系数,的相关矩阵如下: X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X1 1.000 0.943 0.953 0.959 0.9750.980 0.407 0.066 0.868 0.661 X2 0.943 1.000 0.995 0.995 0.974 0.9700.614 0.350 0.804 0.600 X3 0.953 0.995 1.000 0.999 0.983 0.981 0.626 0.344 0.823 0.617X4 0.959 0.995 0.999 1.000 0.988 0.986 0.610 0.326 0.828 0.612 X5 0.975 0.974 0.983 0.988 1.000 0.999 0.560 0.241 0.859 0.617 X6 0.980 0.970 0.981 0.986 0.999 1.000 0.550 0.222 0.869 0.616 X7 0.407 0.614 0.626 0.610 0.560 0.550 1.000 0.779 0.366 0.151 X8 0.066 0.350 0.344 0.326 0.241 0.222 0.779 1.000 0.112 0.048 X9 0.868 0.804 0.823 0.828 0.859 0.869 0.366 0.112 1.000 0.683 X10 0.661 0.600 0.617 0.612 0.617 0.616 0.151 0.048 0.683 1.000 可以看出某些指标之间确实存在很强的相关性,如果直接用这些指标进行综合评价,必然造成信息的重叠,影响评价结果的客观性。
主成分分析方法可以把多个指标转化为少数几个不相关的综合指标,因此,可以考虑利用主成分进行综合评价。
利用spss11.5软件对十个评价指标进行主成分分析,相关矩阵的前几个特征根及其贡献率如下:序号特征根贡献率累计贡献率1 7.50215857 5.92517132 0.75022 1.57698725 1.04077379 0.90793 0.53621346 0.32983445 0.96154 0.20637902 0.06137774 0.98225 0.14500127 0.12281456 0.99676 0.02218671 0.01506645 0.9989可以看出,前两个特征根的累计贡献率就达到90%以上,主成分分析效果很好。
下面选取前四个主成分(累计贡献率就达到98%)进行综合评价。
前四个特征根对应的特征向量分别为:Prin1 Prin2 Prin3 Prin4x1 0.349690 -.197248 -.163939 -.102208x2 0.359021 0.034325 -.108403 -.226582x3 0.362252 0.029115 -.090026 -.169164x4 0.362251 0.013769 -.112789 -.160744x5 0.360530 -.050673 -.153385 -.044208x6 0.360156 -.064634 -.164455 -.003183x7 0.224121 0.582629 -.039679 0.081178x8 0.120071 0.702075 0.357657 0.070228x9 0.319240 -.194110 0.120384 0.899945x10 0.245179 -.286509 0.863707 -.245705由此可得四个主成分分别为Z=0.350x +0.359x +…0.245x1210Z=0.197x+0.034x+…0.286x1210Z=0.164x+0.108x+…0.864x1210Z=0.102x+0.227x+…0.246x1210从主成分的系数可以看出,第一主成分主要反映了前六个指标(学校数、学生数和教师数方面)的信息,第二主成分主要反映了高校规模和教师中高级职称的比例,第三主成分主要反映了生均教育经费,第四主成分主要反映了国家财政预算内普通高教经费占国内生产总值的比重。
把各地区原始十个指标的标准化数据代入四个主成分的表达式,就可以得到各地区的四个主成分值。
4、利用主成分进行综合评价分别以四个主成分的贡献率为权重,构建主成分综合评价模型:F =0.7502Z+0.1577Z +0.0536Z+0.0206Z 1234把各地区的四个主成分值代入上式,可以得到各地区高教发展水平的综合评价值以及排序结果。
地区名次综合评价值北京 1 9.098 上海 2 4.619 天津 3 2.665 陕西 4 .844 辽宁 6 .653 吉林5 .726 黑龙江 7 .201 湖北 8 .070 江苏 9 -.174 广东 11 -.347 四川 14 -.661 山东 18 -.797 甘肃 13 -.586 湖南 16 -.729 浙江 17 -.746 新疆 12 -.528 福建 15 -.699 山西 19 -.836河北 22 -.968安徽 27 -1.150云南 21 -.912江西 26 -1.129海南 25 -1.103内蒙古 24 -1.094西藏 10 -.191河南 28 -1.371广西 29 -1.416宁夏 20 -.890贵州 30 -1.510青海 23 -1.038(四)案例研究结果各地区高等教育发展水平存在较大的差异,高教资源的地区分布很不均衡。