当前位置：文档之家› 多元统计分析上机作业

多元统计分析上机作业

多远统计上机作业指标的原始数据取自《中国统计年鉴， 1995》和《中国教育统计年鉴， 1995》除以各地区相应的人口数得到十项指标值见表 1。

其中：X1 X2 X3 X4 X5 X6:为每百万人口高等院校数；:为每十万人口高等院校毕业生数；:为每十万人口高等院校招生数；:为每十万人口高等院校在校生数；:为每十万人口高等院校教职工数；:为每十万人口高等院校专职教师数；X7: 为高级职称占专职教师的比例;X8 :为平均每所高等院校的在校生数；X9 :为国家财政预算内普通高教经费占国内生产总值的比重；X10: 为生均教育经费。

表 1 我国各地区普通高等教育发展状况数据地区X1X2X3X4X5X6X7X8X9X10北京 5.96310461155793131944.362615 2.2013631上海 3.39234308103549816135.023052.9012665天津 2.3515722971329510938.403031.869385陕西 1.35811113641505830.452699 1.227881辽宁 1.50881284211445834.302808.547733吉林 1.67861203701535833.532215.767480黑龙江 1.1763932961174435.222528.588570湖北 1.0567922971154332.892835.667262江苏.9564942871023931.543008.397786广东.693971205612434.502988.3711355四川.564057177612332.623149.557693山东.575864181572232.953202.286805甘肃.714262190662628.132657.737282湖南.744261194612433.062618.476477浙江.864271204662629.942363.257704新疆 1.2947732651144625.932060.375719福建 1.045371218632629.012099.297106山西.855365218763025.632555.435580河北.814366188612329.822313.315704安徽.593547146462032.832488.335628云南.663640130441928.551974.489106江西.774363194672328.812515.344085海南.703351165471827.342344.287928内蒙古.844348171652927.652032.325581西藏 1.692645137753312.10810 1.0014199河南.553246130441728.412341.305714广西.602843129391731.932146.245139宁夏 1.394862208773422.701500.425377贵州.64233293371628.121469.345415青海 1.483846151633017.871024.387368根据上面数据回答以下问题：(一) 计算10个变量的相关系数矩阵，并找出相关性最强的 5 组变量；1.利用 SPSS 软件，依次选中 Analysis---correlate---bivariable ，得结果整理得1.000.940.950.960.970.980.410.070.870.660.94 1.000.990.990.970.970.610.350.800.600.950.99 1.00 1.000.980.980.630.340.820.620.960.99 1.00 1.000.990.990.610.330.830.610.970.970.980.99 1.00 1.000.560.240.860.62rxy0.970.980.99 1.00 1.000.550.220.870.620.980.410.610.630.610.560.55 1.000.780.370.150.070.350.340.330.240.220.78 1.000.110.050.870.800.820.830.860.870.370.11 1.000.680.660.600.620.610.620.620.150.050.68 1.0025组变量：X 2和,X2和X4,和X4,X4和及和。

.其中：变量最强的X 3X 3X 5X 5X 6[注： SPSS运行结果见附件(一 )] (二) 对上面数据进行主成分分析，要求写出：a）方差分解表（特征值，累积贡献率）；解答：7.50275.02275.0221.57715.77090.791.536 5.36296.154.206 2.06498.217.145 1.45099.667Initial Eigenvalue s.22299.889.022.007.07199.960.003.02799.987.001.00799.994.001.006100.000b）要求累积贡献率大于等于85%，选取主成分个数，并用原始的10 个变量表示每个主成分；解答： n=2 时，贡献率达到90.791%；原始的 10个变量表示每个主成分F1和F2：F 10.349766X 10.358893X 20.362179X 30.362179 X 40.360353 X 50.359988 X 6 0.224171X 7 0.120118 X 8 0.319097X 9 0.245347 X 10F 2-0.19749X 10.034241X 20.029464X 30.013537X 40.05096 X 50.0645X 60.582902X 70.702349X 80.1943X 90.28667 X 10c）计算每个省份相应的主成分值，并对主成分值进行标准化。

北京上海天津陕西辽宁吉林黑龙江湖北江苏广东11.70 5.94 3.50 1.010.830.800.240.12-0.16-0.31-0.890.10 1.030.030.88-0.020.580.85 1.020.93四川山东甘肃湖南浙江新疆福建山西河北安徽-0.70-0.86-0.74-0.86 -0.98-0.82-0.96-1.07 -1.22-1.351.29 1.640.200.850.19-0.51-0.190.150.330.87云南江西海南内蒙古西藏河南广西宁夏贵州青海-1.18-1.36-1.35-1.40-0.67-1.64-1.68-1.27-1.97-1.60-0.650.65-0.10-0.23-4.720.270.47-1.48-0.80-2.75【注： SPSS 运行结果见附录二】(三) 利用2）中的标准化后主成分值对30 个省市进行聚类分析，要求，a）分别用系统聚类和快速聚类把30 个省市分成 3 类，并比较这两种聚类结果异同（系统聚类给出你选择的聚类方法及谱系图）Rescaled Distance Cluster CombineCASE 0510152025Label Num +---------+---------+---------+---------+---------+15─┐18─┤19─┤13─┤23─┤24─┤16─┤17─┤21─┤26─┤27─┤20─┤22─┤14─┤11─┤12─┼─┐9─┤│10─┤│7─┤│8─┤├─────┐4─┤││6─┤││5─┘│├─┐28─┐││ │29─┼─┘│ ├─────────────────────────────────────┐30─┘│ ││25─────────┘││2───┬───────┘│3───┘│1─────────────────────────────────────────────────┘聚类情况：第一类：北京第二类：上海、天津第三类：其他快速聚类法：Initial Cluster CentersCluster123 VAR0001211.70 5.94-.67 VAR00013-.89.10-4.72Iteration History aIterati Change in Cluster Centerson1231.000 3.147 4.6772.000.674.0763.000 1.249.0694.000.000.000a. Convergence achieved due tono or small change in clustercenters. The maximum absolutecoordinate change for any centeris .000. The current iteration is 4.The minimum distance betweeninitial centers is 5.843.Cluster Membership Cluster MembershipCase Case CaseNumber Number Cluster Distance Number Cluster 11.000 163.498 22 1.307 173.255 32 1.307 183.324 43 1.795 193.551 53 1.843 203 1.046 63 1.585 213.757 73 1.181 223.871 83 1.247 233.574 93 1.199 243.654 103 1.055 253 4.709 113 1.305 263.902 123 1.647 273 1.020 133.209 283 1.546 143.867 293 1.428 153.276 303 2.860(四) 利用3）中快速聚类的结果及2）标准化后主成分值进行判别分析，要求：a）检验 3类间的均值是否相等； b）检验 3 类间的自协方差阵是否相等（a，b 的结果要求给出原假设和检验结果）；c）写出 fisher 和典型判别准则；d）分别利用 c）的检验准则检验青海属于哪一类； e）给出检验判别准则的优劣。

a）建立检验假设为：H0 :三类均值相等 vs H 1 :三类均值不相等Between-Subjects FactorsNCluster Number of Case1122327Multivariate Tests cEffect Value F Hypothesis df Error df Sig. Intercept Pillai's Trace.894 1.092E2a 2.00026.000.000 Wilks' Lambda.106 1.092E2a 2.00026.000.000Hotelling' s Trace8.404 1.092E2a 2.00026.000.000Roy's Largest Root8.404 1.092E2a 2.00026.000.000 QCL_1Pillai's Trace.94212.012 4.00054.000.000 Wilks' Lambda.08531.675 a 4.00052.000.000Hotelling' s Trace10.49965.616 4.00050.000.000Roy's Largest Root10.469 1.413E2b 2.00027.000.000a. Exact statisticb. The statistic is an upper bound on F that yields a lower bound on the significance level.c. Design: Intercept + QCL_1【 SPSS运行结果】由Sig.值可以看到，无论从哪个统计量来看，三类都是与显著差异的，故拒绝原假设，认为三类均值不相等。

e商务文档

多元统计分析上机作业

相关文档推荐：