当前位置:文档之家› 应用统计学课件第七章主成分分析-4版

应用统计学课件第七章主成分分析-4版


2 4 2 0,S的特征值1 3.414,2 0.586
Sμi iμi
对1 3.414:11
1 11
3
21
3.414
11 21
11 21 11 321
3.41411 3.41421
11
0.414

21
21
1,11
0.414
1 3.414的特征向量:01.414
第七章 主成分分析
principle component analysis
PCA的基本思想 一般模型与算法 PCA的SPSS实现 PCA的应用
一、PCA的基本思想
Origins of PCA
Pearson (1901)
❖ 首先引入
Hotelling (1933)
❖ 发展成熟
One of the most widely used multivariate techniques.
What About the New Data?
Each new variable is some linear 综合了原指标 combination of all the old variables 的信息
New variables are chosen so as to capture most of the variability in the original variables.
-1
0
1
2
3
Z1
各国运动员100m和200m成绩, 计算下列变量方差:
30.00
X100m和X200m
28.00
0.707*X100m+0.707X200m
0.167*X100m+0.986X200m
26.00
24.00
run200m
Descriptiv e Statistics
22.00
run100m run200m p707 p167 Valid N (listwise)
提取方法 :主成分分析法。 构成得分。
z3s 1.575x1 0.688x2 1.171x3
Descriptiv e Statistics
z1 z2 z3 REGR factor score 1 for analysis 1 REGR factor score 2 for analysis 1 REGR factor score 3 for analysis 1 Valid N (listwise)
4.2681
M ea n -.00002 -.00002 -.00001
.0000 .0000 .0000 -.000027
Std. Deviation .999990 .999995
1.000012 1.43609 .83973 .48065
1.4298346
Va ri a n ce 1.000 1.000 1.000 2.062 .705 .231 2.044
x3
.398
-.710
1.171
三个主成分
z1 0.646x1 0.505x2 0.572x3 z2 0.095x1 0.797x2 0.596x3 z3 0.757x1 0.331x2 0.563x3
z1s 0.450x1 0.352x2 0.398x3 z2s 0.113x1 0.949x2 0.710x3
z1 0.646x1 0.505x2 0.572x3
向 0.505 量 0.572
0.797 0.596
0.331 U z2 0.095x1 0.797x2 0.596x3
0.563
z3 0.757x1 0.331x2 0.563x3
1 2.063 2 0.706 3 0.231
设:x为标准化变量, 原始数据阵 Xs [x1, x2 ,x p ] PCA目标:找到原始数据方差最大的线性组合
❖设:线性组合系数为p×1=[1, 2, … p]T
❖即:要找一个 使z=Xs= 1x1+ 2x2 +…+ pxp具有
最大方差
var(z)
1 z'z n 1
n
1 1
μ'
Xs'
Xsμ
1 n 1
❖ 反映原始数据特征的指标:方差-离散度
主成分:原始变量的最优加权线性组合
❖ 最优加权: ➢ 第一主成分:寻找原始数据的一个线性组合,使之具有最大方 差(数据离散度最大的方向)
➢ 第二主成分:寻找原始数据的一个线性组合,使之具有次大方 差,且与第一主成分无关
➢ ……
一个简单的两变量例
x2
2.0
1.5
p
i trace(U'RU) [trace( ABC) trace(BCA)]
i 1
trace(U'RU) trace(RUU' ) trace(R) p
所有主成分方差
之和解释了原始
数据全部方差
特征根和特征向量的求法
S
1 1
13,
S
I
1 1
1 3
1 0
0 1
(1 )(3 ) 1
0,
例数:据 三标Cor准relat化ion M变atrix量x1、x2、x3,n=300
X1
X2
X3
注意:这里主成
Correlation X1 X2
1.000 .562
.562 1.000
.704 .304
成得分是非标准化的
X3
.704
.304
1.000
特 1
2
3
三个主成分
征 0.646 0.095 0.757
z1
z2
z3
x1 .9279 .0798 .3641
x2 .7255 .6696 .1590
x3 .8222 .5008 .2706
三、PCA的SPSS实现
SPSS过程:
❖ 1)分析→数据降维→因子分析…(顺序点击 菜单项,打开因子对话框)。
❖ 2)在对话框中指定分析变量,如图1所示。
主成分分析用SPSS中的因子分析过程。
将各主成分得分 作为变量保存
注意:这里保存 的是标准化的主 成分,即Zs
显示因子(主成 分)系数矩阵
又:Zs ZΛ1 2 XsUΛ1/2
Zs
ZΛ1 2
z1
1
,
z2
,
,
zp
2
p
分析结果:
zis
成分得分系数矩阵
zi
i
成分
1
2
3
x1
.450
-.113
-1.575
x2
.352
.949
.688
Descriptiv e Statistics
N 300 300 300 300 300 300 300 300
M in i mu m -2.738 -2.803 -2.340 -3.58 -2.32 -1.35
-3.4689
M axim u m 3.031 3.033 3.056 4.33 2.23 1.56
c
j1
f ij2
变量共同度:载荷阵第i行前c个元素的平方和,反映了 前c个主成分对xi方差的解释程度
.72552+.66962=0.975:前两个主 成分揭示了x2方差的97.5%
从载荷阵可看出:z1与各x正相关,综 合评价;z2与x2正相关,与x3负相关, 反映样本在这两个指标方面的差距
principal componentloading
Conceptual Model
主成分 载荷阵
标准化的主成分Z与原始数据阵Xs的相关系 数矩阵,反映各主成分与原始变量x的相关
程度,有助于解释各主成分的含义。
F
corr(Xs , Zs )
n
1
1
Xs'Z
s
n
1
1
Xs'ZΛ
1
2
RUΛ1 2
UΛΛ1 2
Zs ZΛ1 2
F FUΛU1 Λ2 1 2 μ1 1 μ2 2 μp p
1.0
Zsc)ore(
.5
0.0
x1
-.5
利 润
-1.0
-1.5
-2.0 -1.5 -1.0 -.5
Zscore(售电量)
0.0
.5
1.0 1.5 2.0 2.5
售电量和利润:不同供电局在这两
个指标上的离散度都很大。忽略哪
个指标都会给评估带来较大偏误!
第一主成分:寻找原始数据的一个线性组合,使之具
有最大方差(数据离散度最大的方向)
2
1
第一主成分
1.00Βιβλιοθήκη 第二主成分利润 0.00
2.0
正交旋转,样品 间距离不变
2
s
-1.00
第一主成分-1.包00 含的信0.息00 量显然1.00 大于第二主成分,因而忽略s第 二主成分信息损失不大
售 电 量
Z2
1.0
0.0
1
-12..000
-2.0
-2
正交阵
设:U (μ1, μ2 ,μ p ) pp , Z (z1, z2 ,z p )np
则有:Z XsU,
1
var(Z) U'RU Λ
2
p
主成分得 分矩阵
由于各主成分彼此不相关,因此,所有主成分之和的方
差等于所有特征根之和,即:var(z1 z2 z p ) 1 2 p
New variables are uncorrelated! 原指标相关性很强, 新指标互不相关
The new variables are called “scores” or “principal components”
相关主题