当前位置:
文档之家› spss主成分分析(PCA)PPT课件
spss主成分分析(PCA)PPT课件
2
p
F1、F2….Fp分别称为原变量的第一、第二….第p个主成分。
zf
10
5.2 数学模型与几何解释-几何解释
❖ 为了方便,我们在二维空间中讨论主成分的几 何意义: 设有n个样品,每个样品有两个观测变量xl和x2, 在由变量xl和x2 所确定的二维平面中,n个样本 点所散布的情况如椭圆状。由图可以看出这n个 样本点无论是沿着xl 轴方向或x2轴方向都具有 较大的离散性,其离散的程度可以分别用观测 变量xl 的方差和x2 的方差定量地表示。显然, 如果只考虑xl和x2 中的任何一个,那么包含在 原始数据中的经济信息将会有较大的损失。
zf
18
❖ 由此可概括出主成分分析的几何意义:
主成分分析的过程也就是坐标旋转的过程,各主 成分表达式就是新坐标系与原坐标系的转换关 系,新坐标系中各坐标轴的方向就是原始数据 方差最大的方向。
zf
19
❖ 了解了主成分分析的基本思想、数学和几何意义后,问 题的关键:
1、如何进行主成分分析?(主成分分析的方法) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。
zf
4
❖ 主成分分析:将原来较多的指标简化为少数 几个新的综合指标的多元统计方法。
❖ 主成分:由原始指标综合形成的几个新指标。 依据主成分所含信息量的大小成为第一主成 分,第二主成分等等。
zf
5
❖ 主成分分析得到的主成分与原始变量之间的关 系: 1、主成分保留了原始变量绝大多数信息。
2、主成分的个数大大少于原始变量的数目。
3、各个主成分之间互不相关。
4、每个主成分都是原始变量的线性组合。
zf
6
❖ 主成分分析的运用: 1、对一组内部相关的变量作简化的描述
2、用来削减回归分析或群集分析(Cluster)中 变量的数目
zf
7
二、数学模型与几何解释-数学模型
❖ 假设我们所讨论的实际问题中,有p个指标,我 们把这p个指标看作p个随机变量,记为X1, X2,…,Xp,主成分分析就是要把这p个指标的 问题,转变为讨论p个指标的线性组合的问题, 而这些新的指标F1,F2,…,Fk(k≤p),按照 保留主要信息量的原则充分反映原指标的信息, 并且相互独立。
主成分分析
zf
主成分分析的重点
❖ 1、掌握什么是主成分分析? ❖ 2、理解主成分分析的基本思想和几何意义? ❖ 3、理解主成分求解方法:协方差矩阵与相
关系数矩阵的差异? ❖ 4、对结果进行正确分析
zf
2
5.1 主成分分析的基本思想
一项十分著名的工作是美国的统计学家斯通
(stone)在1947年关于国民经济的研究。他
U为旋转变换正 矩交 阵矩 ,阵 它, 是即有 U U 1,U U I
zf
16
❖ 旋转变换的目的:为了使得n个样品点在Fl 轴方向上的离散程度最大,即Fl的方差最大。
❖ (变量Fl代表了原始数据的绝大部分信息,在 研究某问题时,即使不考虑变量F2也无损大 局)。经过上述旋转变换原始数据的大部分 信息集中到Fl轴上,对数据中包含的信息起 到了浓缩作用。
1、从相关的X1, X2,… Xk,求出相互独立的新综合变 量(主成分)Y1,Y2…Yk。
2、X与Y之间的计算关系是:
Y1 a11 a1kX1
即Y=AX
Yk ak1 akkXk
如何求解主成分?
zf
21
❖ 一、从协方差矩阵出发求解主成分
(一)第一主成分: 11 12 1P
曾利用美国1929一1938年各年的数据,得
到了17个反映国民收入与支出的变量要素,
例如雇主补贴、消费资料和生产资料、纯公
共支出、净增库存、股息、利息外贸平衡等
等。
zf
3
❖ 在进行主成分分析后,竟以97.4%的精度, 用三新变量就取代了原17个变量。根据经济 学知识,斯通给这三个新变量分别命名为总 收入F1、总收入变化率F2和经济发展或衰退 的趋势F3。
u1 2 iu2 2i u2 pi1
2、主成分之间相互独立,即无重叠的信息。即
C ( F i , F o j ) 0 , v i j , i , j 1 , 2 , , p
3、主成分的方差依次递减,重要性依次递减,即
V ( F a ) V r( F a ) r V ( F a ) r
1
F1
F2
•
•••
•••
• •
•
•••••••••••••••••••••••
• •
x1
•••
zf
14
平移、旋转坐标轴
x 2
F1
F
2
•
••••••••
••
••••••••••
••••
•••••••••
•
x 1
zf
15
❖ 根据旋转变换的公式:
yy12x1xc1soisnx2xs2cinos
y y1 2 cso in sc sio n sx x1 2 U x
当分析中所选择的变量具有不同的量纲,变量水平差异 很大,应该选择基于相关系数矩阵的主成分分析。 2、如何确定主成分个数? 主成分分析的目的是简化变量,一般情况下主成分的个数 应该小于原始变量的个数。关于保留几个主成分,应该 权衡主成分个数和保留的信息。
zf
20
5.3 总体主成分的求解及其性质
❖ 主成分分析的目标:
zf
11
❖ 如果我们将xl 轴和x2轴先平移,再同时按逆 时针方向旋转角度,得到新坐标轴Fl和F2。 Fl和F2是两个新变量。
zf
12
x2
平移、旋转坐标轴
F1
F2
•• • • •
•• • •
•• •
•
• •
•
• •
•
•
•
• •••
• •• •
•• •
• ••
x 1
••
zf
13
平移、旋转坐标轴
x 2
zf
8
❖ 这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分 析通常的做法是,寻求原指标的线性组合
Fi。
F1 u11X1 u21X2 up1Xp
F2 u12X1 u22X2 up2Xp
Fp u1p X1 u2p X2 uppXp
zf
9
❖ 满足如下的条件:
1、每个主成分的系数平方和为1。即
zf
17
❖ Fl,F2除了可以对包含在Xl,X2中的信息起着浓 缩作用之外,还具有不相关的性质,这就使得 在研究复杂的问题时避免了信息重叠所带来的 虚假性。二维平面上的个点的方差大部分都归 结在Fl轴上,而F2轴上的方差很小。Fl和F2称为 原始变量x1和x2的综合变量。F简化了系统结构, 抓住了主要矛盾。