当前位置:文档之家› 因子分析和K均值聚类分析

因子分析和K均值聚类分析


15893 13695 11430 17639 16208 13556 16394 12527 15059 15752 12697 15781 15138 15171 14769 15032 15077 14340 14178
25.03 57.69 3.56 179.90 54.28 3.41 98.72 6.76 24.47 117.64 5.42 72.29 41.60 71.06 28.93 46.60 70.32 4.01 89.98
基于因子分析和 K 均值聚类法对河南省经济发展水平研究
基于因子分析和 K 均值聚类法对河南省经济发展水平研 究
一、因子分析的基本概念
1.1、引言 因子分析的概念起源于 20 世纪初 Karl Pearson 和 Charles Spearmen 等人关于智力测验的统计分析。目前,因子分析已成功应用于心理学、医学、 气象、地址、经济学等领域,并因此促进了理论的不断丰富和完善,它是多 元统计分析中典型方法之一。 因子分析也是一种降维、简化数据的技术。它通过研究众多变量之间的 内部依赖关系,探究观测数据中的基本结构,并用少数几个“抽象”的变量 来表示其基本的数据结构。这几个“抽象”的变量被称作“因子”,能反映 原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是 不可观测的潜在变量。 因子分析的内容非常丰富,常用的因子分析类型是 R 型因子分析和 Q 型 因子分析。R 型因子分析是对变量作因子分析,Q 型因子分析是对样品作因 子分析。而本文侧重讨论 R 型因子分析。
6.91 219.31 27.01 187.62 114.72 27.72 159.07 52.30 48.83 157.15 21.63 101.30 107.62 149.96 86.66 70.00 401.18 68.54 299.51
204.62 681.89 59.21 2096.09 1137.85 102.26 991.08 99.60 285.40 1144.16 145.99 748.57 588.92 830.38 421.85 625.52 1471.22 124.43 901.16
四、利用 SPSS 软件进行因子分析和 K 均值聚类分析
本例采用的是 2010 年河南省 20 个县市的 10 个经济指标数据。10 个经 济指标分别为各市生产总值(X1)、城乡从业人员数(X2)、单位从业人员工 资总额(X3)、固定资产投资(X4)、建筑业生产总值(X5)、工业增加值(X6)、
第 6 页 共 19 页
X10
1.000
.924
提取方法:主成份分析。
2)表 3 叫做总的解释方差表。左边第一栏为各成份的序号,共有 10 个 变量,所以有 10 个成份。
第二大栏为初始特征值,共由三栏构成:特征值、解释方差和累积解释 方差。合计栏为各成份的特征值,栏中只有 2 个成份的特征值超过了 1;其 余成份的特征值都没有达到或超过 1。方法的%栏为各成份所解释的方差占 总方差的百分比,即各因子特征值占总特征值总和的百分比。累积%栏为各 因子方差占总方差的百分比的累计百分比。
所以任然满足模型的条件。同样∑也可以分解为 A* A*' D
因此,因子载荷矩阵 A 不是唯一的。
二、K 均值聚类分析的基本概念
K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据 看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺 牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚 类结果,而类数的确定离不开实践经验的积累。
表 2:公因子方差
公因子方差
初始
提取
X1
1.000
.992
X2
1.000
.991
X3
1.000
.962
X4
1.000
.971
X5
1.000
.905
X6
1.000
.928
X7
1.000
.988
X8
1.000
.935
X9
1.000
.711
第 7 页 共 19 页
基于因子分析和 K 均值聚类法对河南省经济发展水平研究
第三大栏为因子提取的结果,未旋转解释的方差。第三大栏与第二大栏 的前二行完全相同,即把特征值大于 1 的成份或因子单独列出来了。
第四大栏为旋转后解释的方差。合计栏为旋转后的特征值。与旋转前的 合计栏相比,不难发现,成份和因子的特征值有所变化。旋转前的特征值从 7.859 到 1.499,最大特征值与最小特征值之间的差距比较大,而旋转后的特 征值相对集中。尽管如此,旋转前、后的总特征值没有改变,最后的累计方 差百分比也没有改变,表中可以解释 93.075%的方差。
775.40
232.63
798775
532.22
138.98
1316.49 261.69
750394
829.36
85.04
680.49
161.90
472849
403.95
35.29
874.42
129.56
714225
677.49
82.44
1953.36 675.57
1629211 1389.43 197.79
319.14
136.71
93.46
86315
75.10
18.72
429.12
86.39
453746
356.27
34.25
1189.94 318.65
1000498 1211.17 238.71
142.09
46.08
56667
148.90
61.53
1245.93 210.14
828309
970.82
87.51
apmFm p
这里
a11 a12 a1m
A
a21
a22
a2m
(
A1,
A2
Am
)
a p1
ap2
a
pm
X1
X
X
2

X
p
F1
F
F2

Fm
1
2
p
且满足: (1) m p ; (2) cov(F, ) 0 ,即公共因子与特殊因子是不相关的;
第 4 页 共 19 页
基于因子分析和 K 均值聚类法对河南省经济发展水平研究
县市
郑州市 巩义市 开封市 兰考市 洛阳市 平顶山市 汝州市 安阳市 滑市 鹤壁市 新乡市 长垣市 焦作市 濮阳市 许昌市 漯河市 三门峡市 南阳市 邓州市 商丘市
县市
郑州市
表 1:2010 年河南省 20 个县市 10 个经济指标数据
这里应注意的几个问题为:
第一,变量 X 的协方差阵 的分解式为
D( X ) D( AF ) E[( AF )( AF )' ]
AE(FF ' ) A' AE(F ' ) E(F ' ) A' E( ' )
AD(F ) A' D( )
ቤተ መጻሕፍቲ ባይዱ

AA' D
如果 X 为标准化了随机向量,则 就是相关矩阵 R (ij ) ,即
变量 Xi 看成 m 维空间中的一个点,则 aij 表示它在坐标轴 Fj 上的投影,因此 矩阵 A 称为因子载荷矩阵。 (二) Q 型因子分析
类似的,Q 型因子分析的数学模型可表示为
X i ai1F1 ai2F2 aim Fm i , i 1,2,, n
Q 型因子分析与 R 型因子分析模型的差异体现在,X1, X 2 , X n 表示的是 n 个样品。
第 2 页 共 19 页
基于因子分析和 K 均值聚类法对河南省经济发展水平研究
1
0
(3) DF
D(F )
1
I
m
,即各个公共因子不相关且方差为
1;
0
1
2 1
(4) D
D( )
2 2
0 ,即各个特殊因子不相关,方差不要求
0
2 p
相等。
模型中的 aij 称为因子“载荷”,是第 i 个变量在第 j 个因子上的负荷,如果把
234.75
102.37
146786
127.88
18.69
1143.79 505.64
950754
845.66
170.41
2010 年河南省 20 个县市 10 个经济指标数据
农林牧渔业 金融机构存 城镇居民均 房地产开发
工业增加值
增加值
款年底余额 可支配收入 投资总额
1599.90 124.56
7990.85 18897
105.80
124.84
51.18
74939
58.28
4.80
2320.25 408.01
1552613 1768.80 877.67
1310.84 309.15
1506909 712.94
88.66
258.57
57.01
147068
116.91
1.01
1315.59 346.52
1092261 894.69
K均值法的具体算法至少包括以下三个步骤: (1) 将所有的样品分成K个初始类; (2) 通过欧几里得距离将某个样品划入离中心最近的类中,并对获得
样品与失去样品的类,重新计算中心坐标; (3) 重复步骤(2),直到所有的样品都不能再分配时为止。
三、数据的获得
通过河南省统计年鉴查到的 2010 年河南省 20 个县市的 10 项经济指标数 据,现统计结果如表 1 所示:
相关主题