当前位置:文档之家› 因子分析综合评价案例

因子分析综合评价案例


2. 因子分析基础理论 2.1 因子分析
2.1.1 因子分析的数学模型
因子分析是一种降维、 简化数据的技术, 其基本思想是根据相关性大小把变量分组, 使得同组内的变量之间相关性较高,但不同组的变量相关性低.每组变量代表一个基本 结构,这个基本结构称为公共因子.对于所研究的问题就可试图用最少个数的不可测的 所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量 .因此可得因子 分析数学模型: X i = a i1 F1 + ai 2 F2 + L + a im Fm + ε i,i = 1, 2, L,p 其中, F1,F2, L,Fm 称为公共因子, ε i 为 X i 的特殊因子,只对相应的 X i 起作用.该模 型可用矩阵表示为 X = AF + ε ,这里 a11 a12 L a1m a a 22 L a 2 m 21 , A= L L O M a p1 a p 2 L a pm
表2 旋转因子载荷阵(Rotated Component Matrix(a)) Component 1 Zscore: 地区生产总值 (当 年价格)(万元) Zscore: 第二产业增加值 (万元) Zscore: Zscore: 客运量(万人) 货运量(万吨) .900 .850 -.034 .566 .932 .689 2 .418 .428 .912 .684 .275 .629
Zscore: 地方财政预算内 收入(万元) Zscore: 固定资产投资总 额(万元) Zscore: 城乡居民储蓄年 末余额(万元) Zscore: 在岗职工平均工 资(元) Zscore: 社会商品零售总 额(万元) Zscore: 货物进出口总额 (万美元)
因子分析的基本步骤[4]如下: Step 1 数据标准化: 为消除各变量单位不同的影响,需对原始的指标数据进行标准化处理,得到标准化 矩阵 X .最为常用的数据标准化方法是“标准差标准化法” ,也叫“ z 分数法” ,标准化 后的变量均值为 0,方差为 1. Step 2 计算因子载荷阵: 因子载荷矩阵的求解方法很多,最常用的是主成分分析法.使用主成分分析法求解 因子载荷矩阵的过程是: Ø 计算样本相关系数矩阵 R .
1 2 3 4 5 6 7 8 9 10
由以上特征根与方差贡献率表可以看出: 提取两个因子累计方差率就达到了 87.5%, 已经将原数据中的大部分信息提取出来,因此我们选取两个公因子. 3.3.3 公因子命名
为了得到意义明确的因子含义,我们将因子载荷阵进行最大方差法旋转,得到旋转 后的因子载荷矩阵如下:
因子分析的目的是简化数据结构或找出基本的数据结构,因此使用因子分析的前提 条件是原始数据各个变量之间应有较强的相关关系[3].如果相关矩阵的大部分相关系数 小于 0.3, 则不适合做因子分析.因此在做因子分析前首先要检测数据是否适合做因子分 析,除对原始数据的相关矩阵进行检验以便分析是否适合进行因子分析外,还可用以下 统计量: (1)巴特莱特球体检验(Bartlett test of sphercity).统计量从检验整个相关矩 阵出发,其零假设为相关矩阵为单位矩阵,如果不能拒绝该假设,说明原始数据不适合 进行因子分析. (2)KMO 测度(Kaiser-Meyer-Olkin-Measure of Sampling Adequacy).该测度是从比 较原始变量之间的简单相关系数和偏相关系数的相对大小出发, 其值变化范围从 0 到 1. 当所有变量之间的偏相关系数的平方和远远小于简单相关系数的平方和时,KMO 值接近 1.KMO 值较小时, 表明原始变量不适合做因子分析.通常按照以下的标准解释该指标值的 大小:0.9 及以上,非常好;0.8 及以上,好;0.7 及以上,一般;0.6 及以上,差;0.5 及以上,很差;0.5 以下,不能接受. (3)共同度检验.在某一变量上各因子负荷量平方值的总和.变量的共同度越高,因 子分析的结果越理想. 数据在经过适应性检验后方能进行因子分析. 2.1.3 因子分析的基本步骤
表1 特征根与方差贡献率表(Total Variance Explained) Component Initial Eigenvalues % of Cumulati Total Variance ve % 7.525 1.228 .466 .320 .258 .095 .075 .020 .011 .002 75.248 12.280 4.660 3.196 2.581 .949 .755 .200 .111 .021 75.248 87.528 92.188 95.384 97.965 98.914 99.668 99.868 99.979 100.000 Extraction Sums of Squared Loadings % of Cumulative Total Variance % 7.525 1.228 75.248 12.280 75.248 87.528
.400 -.035 .473 .032
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a Rotation converged in 3 iterations.
3.2 数据预处理
将数据进行标准化处理.缺失值用该指标在各城市中的均值替代,标准化后的数据, 均值为 0,方差为 1.
3.3 因子分析
3.3.1 因子分析的适用性检验
经检验 KMO 测度值为 0.829,Bartlett 球体检验的 P 值为 0.000,检验结果说明本 数据进行因子分析是很适合的. 3.3.2 计算特征根和方差贡献率
Zscore: 地方财政预算内 收入(万元) Zscore: 固定资产投资总 额(万元)
Zscore: 城乡居民储蓄年 末余额(万元) Zscore: 在岗职工平均工 资(元) Zscore: 社会商品零售总 额(万元) Zscore: 货物进出口总额 (万美元)
.878 .827 .846 .932
(
)
3. 因子分析在我国主要城市经济发展综合水平研究中的应用
3.1 城市经济发展的指标选取
本文数据来自《中国统计年鉴(2008) 》. 为科学、客观、准确地衡量各城市经济实力,根据指标选取的客观性、可比性、间 接性和可操作性的原则,选取了 10 个指标: X 1 —地区生产总值(万元) ; X 2 —第二产 业增加值(万元) ; X 3 —客运量(万人) ; X 4 —货运量(万吨) ; X 5 —地方财政预算内 收入(万元) ; X 6 —固定资产投资总额(万元) ; X 7 —城乡居民储蓄年末余额(万元) ; X 8 —在岗职工平均工资(元) ; X 9 —社会商品零售总额(万元) ; X 10 —货物进出口总 额(万美元).
表3 因子得分系数矩阵(Component Score Coefficient Matrix) Component 1 Zscore: 地区生产总值 (当 年价格)(万元£ Zscore: 第二产业增加值 (万元) Zscore: Zscore: 客运量(万人) 货运量(万吨) .130 .114 -.260 -.034 .178 .015 .129 .235 .100 .245 2 .035 .055 .625 .306 -.070 .235 .029 -.251 .087 -.234
[4]
X1 F1 ε1 X F ε 2 2 2 X = ,F = ,ε = …… …… …… Xp Fp εp 特殊因子之间、 公共因子与特殊因子之间都是互不相 且满足 m < p ;公共因子之间、 关的.模型中的矩阵 A 称为因子载荷矩阵; aij 称为因子载荷,是第 i 个变量在第 j 个因子 上的负载. 2.1.2 因子分析适用性的检验
基于因子分析的我国主要城市经济发展综合水平研究 1. 引言
科学地评价我国主要城市经济发展综合水平、准确衡量各地区城市的经济实力可以 发现地区发展差异,这对缩小地区间的差距、促进我国各城市各地区经济协调发展具有 重要意义.在研究城市经济发展中,描述经济发变量之间可能存在一定的相关性,存在信息的重叠.这就需要一 种分析方法能克服相关性、重叠性,用较少的变量来代替原来较多的变量对复杂的区域 经济问题进行深入分析、合理解释和正确评价,而这种替代可以反映原来多个变量的大 [1-2] . 部分信息.因子分析和多维标度分析正是解决这个问题的有效方法 本文结合因子分析借助于统计软件 SPSS 对我国主要城市经济发展的综合水平进行 研究.按照理论分析两种方法在本文中都适用,我们将两种方法结合使用期望得出更合 理的结论。
Ø 求 R 的特征根 λ1 ≥ λ2 ≥ L ≥ λ p ≥ 0 及对应的标准正交化特征向量 b1 , b2 ,L , b p . Ø 由于因子数目 m 应小于原始变量个数 p , 所以根据前 m 个特征根和对应的特征 λ1 b1 , λ 2 b2 , L , λ m bm . 公共因子 F j 的方差贡献是该因子在模型中所有负载的平方和,记为: 2 2 V j = a12j + a 2 j + L + a pj 向量来估计因子载荷矩阵: A = 由于数据已经被标准化,所以 p 个变量的总方差为 p , V j / p 表示第 j 个公共因 子的方差贡献在所有方差中的比例.当提取出的公共因子的累积方差贡献率达到或超过 85 %时,就可以用提取的公共因子代表原来的变量来研究问题. Step 3 旋转并解释因子: 初始因子的综合性太强 ,难以找出因子的实际 意义,因此 需要通 过旋转坐标轴使负 载尽可能向±1 ,0 的方向靠近,从而降低因子的综合性 ,使其实际意义凸现出来.正 交旋转方法最常用的方法是最大方差旋转法,使得每个变量仅在一 个公共因子有较高 的负载,在其余的公共因子上的载荷比较小,直多达到中等大小.因此在后面的分析中 采用了这种方法.旋转完成后, 按照负载绝对值的大小,解释公共因子的实际含义[5]. Step 4 计算各公共因子得分: 在因子分析模型 X = AF + ε 中, 如果不考虑特殊因子的影响, 当 m = p 且 A 可逆时, 可以方便地计算 F = A −1 X ,即因子得分.但因子分析模型在实际应用中要求 m < p , 因 ˆ .估计因子得分常用的方法 此不能精确地计算出因子得分,只能对因子得分进行估计 F − 1 ˆ = A′R X 其 中 R 为 X 的 相 关 系 数 矩 阵 , 并 称 矩 阵 为汤姆逊回归法,公式为: F [5] W = A′R −1 为因子得分系数矩阵 . Step 5 以提取的各公共因子的方差贡献率占提取公共因子的总方差贡献率的比重 作为权重,将各公共因子得分进行加权汇总,计算各样本的综合得分.
相关主题