更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——主成分分析和因子分析的区别一、二者在 SPSS 中的实现(一) 、因子分析在 进行因子分析主要步骤如下: 1. 2. 3. 4. 5. 指标数据标准化(SPSS 软件自动执行) ; 指标之间的相关性判定; 确定因子个数; 综合得分表达式; 各因子 Fi 命名; 例子:对沿海 10 个省市经济综合指标进行因子分析 (一)指标选取原则 本文所选取的数据来自 《中国统计年鉴 2003》 2002 年的统计数据,在沿海 10 省市经济状况主要指标 中 体系中选取了 10 个指标: X1——GDP X3——农业增加值 X5——第三产业增加值 X7——基本建设投资 X9——海关出口总额 X2——人均 GDP X4——工业增加值 X6——固定资产投资 X8——国内生产总值占全国比重(%) X10——地方财政收入SPSS 中的实现图表 1 沿海 10 个省市经济数据 社会消 农业增加 工业增加 第三产业 固定资产 基本建设 费品零 值 值 增加值 投资 投资 售总额 14883.3 1390 950.2 83.9 1122.6 86.2 680 663 1023.9 591.4 1376.2 3502.5 1406.7 822.8 3536.3 2196.2 2356.5 1047.1 4224.6 367 2258.4 3851 2092.6 960 3967.2 2755.8 3065 1859 4793.6 995.7 1315.9 2288.7 1161.6 703.7 2320 1970.2 2296.6 964.5 3022.9 542.2 529 1070.7 597.1 361.9 1141.3 779.3 1180.6 397.9 1275.5 352.7 2258.4 3181.9 1968.3 941.4 3215.8 2035.2 2877.5 1663.3 5013.6 1025.5地区GDP人均 GDP 13000 11643 9047 22068 14397 40627 16570 13510 15030 5062海关出 地方财 口总额 政收入 123.7 211.1 45.9 115.7 384.7 320.5 294.2 173.7 1843.7 15.1 399.7 610.2 302.3 171.8 643.7 709 566.9 272.9 1202 186.7辽宁 5458.2 山东 10550 河北 6076.6 天津 2022.6 江苏 浙江 福建 广东 10636 7670 4682 11770 上海 5408.8广西 2437.2(二)因子分析在 SPSS 中的具体操作步骤1更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——运用 SPSS 统计分析软件 Factor 过程[2]对沿海 10 个省市经济综合指标进行因子分析。
具体操作步骤如 下: 1. 2. 3. 4. Analyzeà Data Reductionà Factor Analysis,弹出 Factor Analysis 对话框 把 X1~X10 选入 Variables 框 Descriptives: Correlation Matrix 框组中选中 Coefficients 等选项, 然后点击 Continue, 返回 Factor Analysis 点击“OK”对话框图表 2 Factor Analyze 对话框与 Descriptives 子对话框SPSS 在调用 Factor Analyze 过程进行分析时,SPSS 会自动对原始数据进行标准化处理, 所以在得到计算结果后指的变量都是指经过标准化处理后的变量, SPSS 不会直接给出标准 但 化后的数据,如需要得到标准化数据,则需调用 Descriptives 过程进行计算。
我们可以通过 AnalyzeàDescriptive Statisticsà Descriptives 对话框来实现: 弹出 Descriptives 对话框后, X1~ 把 X10 选入 Variables 框,在 Save standardized values as variables 前的方框打上钩,点击“OK”, 经标准化的数据会自动填入数据窗口中,并以 Z 开头命名。
Descriptives 对话框图表 3 相关系数矩阵2更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——图表 4 方差分解因子提取分析表图表 5 初始因子载荷矩阵3更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——从图表 3 可知 GDP 与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零 售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。
可见许多变 量之间直接的相关性比较强,证明他们存在信息上的重叠。
通过图表 4(方差分解因子提取分析)可知,提取 2 个因子,因为方差累积贡献率为 84.551%,接近 85%。
从图表 5(初始因子载荷矩阵)可知 GDP、工业增加值、第三产业增加值、固定资产投资、基本建 设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一因子上有较高载荷,说明第一因子基 本反映了这些指标的信息;人均 GDP 和农业增加值指标在第二因子上有较高载荷,说明第二因子基本反 映了人均 GDP 和农业增加值两个指标的信息。
所以提取两个因子是可以基本反映全部指标的信息,所以 决定用两个新变量来代替原来的十个变量。
此时,因子得分已经在窗口中自动给出。
此处还可以选择对话 框中图表 2 中的 Rotation,选择不同的旋转方式,一般较为多用的是最大方差旋转。
关于综合得分,是用第一因子和第二因子加权平均得到,权重由 方差来得到,表 4 中 7.22+1.235=8.455 第一因子权重为 7.22/8.455,第二因子权重为 1.235/8.455总因子得分=(7.22/8.455)*第一因子得分+(1.235/8.455)*第二因子得分(二) 、主成分分析在 SPSS 中的实现假定现在接着要对上面的例子进行主成分分析。
spss 软件中没有直接给出主成分系数,而是给出 的因子载荷(图表 5),我们可将初始因子载荷系数(注意,非旋转后的因子载荷系数)除以相应的 ,4更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——即可得到主成分系数。
在菜单 Transform----Compute 中计算(见下图),5更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——由 Component1 的这一列系数除以 SQRT(7.22),Component2 的系数除以 SQRT(1.235),就得 到了主成分分析所需特征向量:具体的主成分的计算方法见主成分分析和因子分析(1)主成分的性质、 求解方法及分析步骤,有类似例子。
二、 主成分分析和因子分析(1)主成分分析( principal component analysis )和因子分析( factor analysis )是两种把变量维数降低以便于描述、理解和分析的方法:实际上主成分分析 可以说是因子分析的一个特例。
在引进主成分分析之前,先看下面的例子。
成绩数据( student.sav ) 100 个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。
从本例可能提出的问题是,能不能把这个数据的 6 个变量用一两个综合变量来表示 呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排 序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等 问题。
(一)、主成分分析1 、主成分分析的基本理论与方法;主成分分析的几何意义; 例中的的数据点是六维的;也就是说,每个观测值是 6 维空间中的一个点。
我们希望 把 6 维空间用低维空间表示。
先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值 都有相应于这两个坐标轴的两个坐标值; 如果这些数据形成一个椭圆形状的点阵 (这在变量 的二维正态的假定下是可能的),那么这个椭圆有一个长轴和一个短轴。
在短轴方向上,数6更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点 的变化了;这样,由二维到一维的降维就自然完成了。
当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代 表短轴的变量就描述了数据的次要变化。
但是, 坐标轴通常并不和椭圆的长短轴平行。
因此, 需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。
如果长轴变量代表 了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完 成了。
椭圆(球)的长短轴相差得越大,降维也越有道理。
对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。
首先把高维椭球的主轴找出来, 再用代表大多数数据信息的最长的几个轴作为新变量; 这样,主成分分析就基本完成了。
注意,和二维情况类似,高维椭球的主轴也是互相垂直的。
这些互相正交的新变量是 原先变量的线性组合,叫做主成分 (principal component) 。
正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。
选择越少的主成分,降维就越好。
什么是标准呢?那就是这些被选的主成分所代表的 主轴的长度之和占了主轴长度总和的大部分。
有些文献建议, 所选的主轴总长度占所有主轴 长度之和的大约 85% 即可,其实,这只是一个大体的说法;具体选几个,要看实际情况而 定。
2 、主成分的性质、求解方法及分析步骤;对于我们的数据, SPSS 输出为:主成分分析的一般模型7更多精彩统计学相关文章,请访问“统计之都”Capital of Statistics——这个方程且满足:其中 μ ij 有以下原则来确定:这时称: Y1 是第一主成分 Y2 是第二主成分 主成分的含义有原始数据的协方差阵或相关系数据阵,可计算出矩阵的特征根:但是, spss 软件中没有直接给出主成分系数,而是给出的因子载荷,我们可将因子 载荷系数除以相应的 ,即可得到主成分系数。