spss主成分分析.ppt
第二章 主成分分析
•§2.1 主成分分析的基本思想与理论 •§2.2 主成分分析的上机实 现
2020/4/21
1
目录 上页 下页 返回 结束
第二章 主成分分析
主成分分析(principal components analysis)。主成分分 析是利用降维的思想,在损失很少信息的前提下把多个指标 转化为几个综合指标的多元统计方法。通常把转化生成的综 合指标称之为主成分,其中每个主成分都是原始变量的线性 组合,且各个主成分之间互不相关,这就使得主成分比原始 变量具有某些更优越的性能。这样在研究复杂问题时就可以 只考虑少数几个主成分而不至于损失太多信息,从而更容易 抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问 题得到简化,提高分析效率。
【例5.2】 数据集Employee data为Midwestern银行在1969-
1971年之间雇员情况的数据,共包括474条观测及如下10个变
量:Id(观测号)、Gender(性别)、Bdate(出生日期)、
Educ(受教育程度(年数))、Jobcat(工作种类)、Salary
(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime
1.每一个主成分都数目大大少于原始变量的数目
2020/4/21
3
目录 上页 下页 返回 结束
3.主成分保留了原始变量绝大多数信息
4.各主成分之间互不相关
通过主成分分析,可以从事物之间错综复杂的 关系中找出一些主要成分,从而能有效利用大量 统计数据进行定量分析,揭示变量之间的内在关 系,得到对事物特征及其发展规律的一些深层次 的启发,把研究工作引向深入。
步; 5.得到主成分的表达式并确定主成分个数,选取主成分; 6.结合主成分对研究问题进行分析并深入研究。
2020/4/21
7
目录 上页 下页 返回 结束
主成分分析 的逻辑框图见
图:
主成分分析的逻辑框图
选择初始变量
度量或取值
否
范围相同?
是 分析协方差阵
对比 (否)
分析相关阵
其他处理
2020/4/21
2020/4/21
4
目录 上页 下页 返回 结束
§2.2 主成分分析的基本理论
设对某一事物的研究涉及个 p 指标,分别用 X1, X 2, , X P 表 示,这个 p 指标构成的 p维随机向量为 X (X1, X 2 , , X p )'。设随 机向量X的均值为 μ ,协方差矩阵为 Σ。
对 X 进行线性变换,可以形成新的综合变量,用 Y 表示, 也就是说,新的综合变量可以由原来的变量线性表示,即满 足下式:
2020/4/21
2
目录 上页 下页 返回 结束
§2.1 主成分分析的基本思想
既然研究某一问题涉及的众多变量之间有一定的相关性, 就必然存在着起支配作用的共同因素,根据这一点,通过 对原始变量相关矩阵或协方差矩阵内部结构关系的研究, 利用原始变量的线性组合形成几个综合指标(主成分), 在保留原始变量主要信息的前提下起到降维与简化问题的 作用,使得在研究复杂问题时更容易抓住主要矛盾。一般 地说,利用主成分分析得到的主成分与原始变量之间有如 下基本关系:
Y1 u11X1 u12 X 2 u1p X p Y2 u21X1 u22 X 2 u2 p X p Yp u p1X1 u p2 X 2 u pp X p
(5.1)
2020/4/21
5
目录 上页 下页 返回 结束
§2.3注意的问题
1. 首先应当认识到主成分分析方法适用于变量之间存在较强 相关性的数据,如果原始数据相关性较弱,运用主成分分析后 不能起到很好的降维作用,即所得的各个主成分浓缩原始变量 信息的能力差别不大。一般认为当原始数据大部分变量的相关 系数都小于0.3时,运用主成分分析不会取得很好的效果。
特征值
标准正交特征向量
是
是否有接近0
的情况
否
主成分
对主成分进行分析
深入分析
8
目录 上页 下页 返回 结束
§2.5主成分分析的上机实现
SPSS软件FACTOR模块提供了主成分分析的功能。下面先以 SPSS软件包自带的数据Employee data.sav为例介绍主成分分 析的上机实现方法,在SPSS软件的安装目录下可以找到该数 据集;然后,我们举一个实际的例子介绍主成分分析的具体 应用。
2020/4/21
10
目录 上页 下页 返回 结束
§主成分分析的上机实现
输出结果5-1(1)
Co mm una lit ie s
Educational Level (years)
Initial Extraction
2 主成分分析不能有效地剔除重叠信息,但它至少可以发现原 始变量是否存在着重叠信息,这对我们减少分析中的失误是有 帮助的。
2020/4/21
6
目录 上页 下页 返回 结束
§2.4 主成分分析步骤
1.根据研究问题选取初始分析变量; 2.根据初始变量特性判断由协方差阵求主成分还是由相关
阵求主成分; 3.求协差阵或相关阵的特征根与相应标准特征向量; 4.判断是否存在明显的多重共线性,若存在,则回到第一
(受雇时间(月))、Prevexp(受雇以前的工作时间
(月))、Minority(是否少数民族)。下面我们用主成分分
析方法处理该数据,以期用少数变量来描述该地区居民的雇佣
情况。
2020/4/21
9
目录 上页 下页 返回 结束
§主成分分析的上机实现
进入SPSS软件,打开数据集Employee data.sav。依次点 选Analyze→Data Reduction→Factor….进入Factor Analysis(因子分析)对话框。(在SPSS软件中,主成分分 析与因子分析均在Factor Analysis模块中完成。此时,数 据集Employee data.sav中的变量名均已显示在左边的窗口 中,依次选中变量educ、salary、salbegin、jobtime、 prevexp并点向右的箭头按钮,这五个变量便进入variables 窗口(此时若选中variables窗口中的变量,则窗口左侧的 箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点 击右侧的OK按钮,即可得到如下输出结果5-1。