多元统计分析实例
院系:商学院
学号:
姓名:
多元统计分析实例
本文收集了2012年31个省市自治区的农林牧渔和相关农业数据,通过对对收集的数据进行比较分析对31个省市自治区进行分类.选取了6个指标农业产值,林业产值.牧业总产值,渔业总产值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积.
数据如下表:
一.聚类法
设定4个群聚,采用了系统聚类法.下表为spss分析之后的结果.
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25 Label Num +---------+---------+---------+---------+---------+
内蒙 5 -+
吉林 7 -+
云南 25 -+-+
江西 14 -+ +-+
陕西 27 -+-+ |
新疆 31 -+ +-+
安徽 12 -+-+ | |
广西 20 -+ +-+ +-------+
辽宁 6 ---+ | |
浙江 11 -+-----+ |
福建 13 -+ |
重庆 22 -+ +---------------------------------+ 贵州 24 -+ | | 山西 4 -+---+ | | 甘肃 28 -+ | | | 北京 1 -+ | | | 青海 29 -+ +---------+ | 天津 2 -+ | | 上海 9 -+ | | 宁夏 30 -+---+ | 西藏 26 -+ | 海南 21 -+ | 河北 3 ---+-----+ | 四川 23 ---+ | | 黑龙江 8 -+-+ +-------------+ | 湖南 18 -+ +---+ | | | 湖北 17 -+-+ +-+ +-------------------------+ 广东 19 -+ | |
江苏 10 -------+ |
山东 15 -----------+-----------+
河南 16 -----------+
从SPSS分析结果可以得到,内蒙,吉林,黑龙江,新疆为第2族群,这一族群的特点是农业收入可能不高,但是农民的固定资产,和耕地面积非常高,农民的富余程度或者机械化程度较高;山东是第3族群,这一族群中六个指标都处于较高水平,
农林牧渔四项收入都处于较高水平而且农民富余;西藏处于第4族群,这是因为,西藏人员较少,自然条件恶劣,可使用耕地少,但是,由于国家的扶持,农民的固定资产较多,农民相对而言比较富足;大多数省份属于第1族群,这一族群的特点在于六项指标都没有较为突出的一项,或者农林牧渔收入的本来就少,或者是农民的虽然比较辛苦,总体的农业收入较高,但是农民的收入水平比较低,固定资产较少.
三.判别法
6
54321,,,,,X X X X X X 分别代表农业产值,林业产值.牧业总产值,渔业总产
值,农村居民家庭拥有生产性固定资产原值,农村居民家庭经营耕地面积.
分析案例处理摘要
未加权案例
N
百分比
有效
31 100.0
排除的
缺失或越界组代码 0 .0 至少一个缺失判别变量 0 .0 缺失或越界组代码还有至少一个缺失判别变量 0
.0
合计
0 .0 合计 31 100.0
实验结果分析:
从表上可以看出,组均值之间差值很大.各个分组,在6项指标上均值有较明显的差异.
由表中可以知道,13456指标之间的sig值较小,2指标sig值有0.561较大,不过仍说明接受原假设,各指标族群间差异较大.
从表中可以知道,检验结果 p值>0.05,此时,说明协方差矩阵相等,可以进行bayes检验.
Fisher 分析法
协方差矩阵的均等性的箱式检验
典型判别式函数摘要
由表中看出,函数1,2的特征值达到0.911,0.822 比较大,对判别的贡献大..
由表中可知,3个Fisher 判别函数分别为:
643236
22621037.003.001.0009.0975.0489.0002.0269.2626.0003.0928.2X X X X y X X y X X y +++--=-++-=++-=
农村居民家庭拥有生产性固定资产原值 对判别 数据所属群体无用.
该表是原始变量与典型变量(标准化的典型判别函数)的相关系数,相关系数的绝对值越大,说明原始变量与这个判别函数的相关性越强.从表中可以看出相关
由上表可知各类别重心的位置,通过计算观测值与各重心的距离,距离最小的即为该观测值的分类.
贝叶斯分析法
该表为贝叶斯函数判别函数的取值,从图中可以知道三类贝叶斯函数.
第一类:418
.8153.0001.0002.003.0029.003.01543211-++--+=x x x x x x y
第二类;18.38286.4004.0004.0009.042.006.06543212-++--+=x x x x x x y 第三类;732.20.1001.0010.0002.0010.002.06543213--+++-=x x x x x x y 第四类:646.61675.1002.0006.0004.0051.0003.06543214--+--+=x x x x x x y 将各样品的自变量值代入上述4个Bayes 判别函数,得到函数值。
比较函数值,哪个函数值比较大就可以判断该样品判入哪一类. 判别结果检验
从上图可以看出本次判别分析的结果比较贴近,只有第10统计量在分布上出现不同.从总体而言,判别效果较好.
3.主成分分析
通过SPSS主成分统计分析,得到如下数据.
解释的总方差
成份提取平方和载入旋转平方和载入
累积 % 合计方差的 % 累积 %
从以上表可以知道,成分1,2
的特征值都>1,并且解释了71.886%的方差,达
到了主成分分析的要求.所以只要提取两个因子即可满足要求.其他因子不予以提取.
得到以下数据.
成份矩阵a
成份
1
2 农业总产值 .875 .330 林业总产值 .720 -.097 牧业总产值 .836 .428 渔业总产值
.724 -.138 农村居民家庭拥有生产性固定资产原值
-.428
.723
农村居民家庭经营耕地面积 -.194 .862
提取方法 :主成分分析法。
a. 已提取了 2 个成份。
得到主成分65432126
543211862.0723.0138.0428.00987.033.0194.0428.0724.0836.072.0875.0X X X X X X F X X X X X X F +--+-=--+++= 解释:第一类因子 F1中X1 X2 X3 X4 载荷系数较大.主要解释了各省区自然条件的状况和农林牧渔收入.可抽象为农业的环境因子.
第二类因子 F2中X5 X6载荷比较大.主要解释了各个省区农民的经济和耕地状况.可抽象于农业的农民因子.
4.因子分析:
通过主城分析得到旋转之前的因子与载荷.与因子公式.
65432126543211862.0723.0138.0428.00987.033.0194.0428.0724.0836.072.0875.0X X X X X X F X X X X X X F +--+-=--+++= 下图为旋转矩阵以及旋转之后的因子.
得到的旋转之后的因子1,2
.
11111126543211880.0818.0349.0156.0309.0052.0074.0191.0649.0926.0657.0934.0x x x x x x F x x x x x x F ++-+-=--+++= 旋转之后的矩阵有了明显的变化,因子的特征载荷增大.
解释:第一类因子 F1中X1 X2 X3 X4 载荷系数较大.主要解释了各省区自然条件的状况和农林牧渔收入.可抽象为农业的环境因子.
第二类因子F2中X5 X6载荷比较大.主要解释了各个省区农民的经济和耕地状况.可抽象于农业的农民因子.。