当前位置:文档之家› 主成分的意义解释

主成分的意义解释


主成分分析实例
表12.3 特征向量
特征向量1 特征向量2 特征向量3 特征向量4 特征向量5 特征向量6 特征向量7 特征向量8
1 0.477 0.296 0.104 0.045 -0.184 -0.066 0.758 0.245 2 0.473 0.278 0.163 -0.174 0.305 -0.048 -0.518 0.527 3 0.424 0.378 0.156 0.059 0.017 0.099 -0.174 -0.781 4 -0.213 0.451 -0.009 0.516 -0.539 0.288 -0.249 0.220 5 -0.388 0.331 0.321 -0.199 0.450 0.582 0.233 0.031 6 -0.352 0.403 0.145 0.279 0.317 -0.714 0.056 -0.042 7 0.215 -0.377 0.140 0.758 0.418 0.194 0.053 0.041 8 0.055 0.273 -0.891 0.072 0.322 0.122 0.067 -0.003
Y1
0.477X1*
0.473X
* 2
0.424X
* 3
0.213X
* 4
0.388X5*
0.352
X
* 6
0.215X
* 7
0.055X8*
Y2
0.296X1*
0.278X2*
0.378
X
* 3
0.451X
* 4
0.331X5*
0.403X6*
0.377X7*
0.273X8*
……
9
主成分分析实例
X5
82 34.2 36.1 98.1 93.2 62.5 184.4 370.4 221.5 330.4 184.2 146.4 94.6
X6
X7
16.1
197435
7.1
592077
8.2
726396
25.9
348226
12.6
139572
8.7
145818
22.2
20921
41
65486
21.5
我们以特征值为权,对8个主成分进行加权综合, 1 得出各工业部门的综合得分。
2 综合得分的计算公式是:
Y
1
8
Y1
2
8
Y2
8
8
Y8
3
i
i1
i
i 1
i
i 1
根据综合得分对企业进行排序,具体数据和排序结 果见下页表12.4。
10
主成分分析实例
行业
冶金 电力 煤炭 化学 机器 建材 森工 食品 纺织 缝纫 皮革 造纸 文教
-0.756 0.030 0.464
……
…… …… …… …… …… …… …… …… …… …… …… …… ……
Y8
综合得分
0.004 0.067 -0.024 -0.052 0.023 -0.067 -0.035 -0.052 -0.001 0.073
-0.030 0.079 0.015
0.911 -0.654 -0.629 0.618 2.589 -0.602 -0.573 0.155 0.033 -0.476 -0.659 -0.437 -0.276
8
0.0024
38.8114 36.2180 11.6277 8.0265 3.8011 1.0825 0.4023 0.0305
38.8114 75.0294 86.6571 94.6836 98.4847 99.5672 99.9695 100.0000
p
我们称 k k k 为第k个主成分Yk的贡献率。 k 1 8
2
我们先根据R的特征值和特征向量计算出主成分, 从特征向量我们可以写出所有8个主成分的具体
形式。
3
可以利用主成分得分进行综合评价。
7
主成分分析实例
表12.2 特征值和累计贡献率
序号
特征值
方差贡献率%
累计贡献率%
1
3.1049
2
2.8974
3
0.9302
4
0.6421
5
0.3041
6
0.0866
7
0.0322
• 碎石图是全部特征值的散 点图,横轴为主成分序号, 纵轴为特征值数值,按照 由大到小的顺序排列,可 直观显示出各主成分的重 要程度。
• 由图见,从第三、四个主 成分开始,特征值就比较 低了。这从另一个侧面说 明前二或三个主成分的重 要性。
14
R实现
eco_data$loadings[,1:2]
Y1
2.建立变量的相关系数阵R;
3.求R的特征值为1*
* p
0,相应的特征向量为
T1* , T2* , , T p*;
4.由累积方差贡献率确定主成分的个数(m),并写出主成分为:
Yi* (Ti* ) ' X * , i 1, 2,, m 3
使用相关矩阵R计算主成分
从相关阵求得的主成分与协差阵求得的主成分
表12.4 各行业主成分得分及排序
Y1
1.475 0.498 1.056 0.460 4.528 0.330 -1.103 -2.195 -0.841 -2.032
-0.713 -1.201 -0.263
Y2
0.759 -2.592 -3.226 1.184 2.262 -1.774 -0.318 2.244 0.896 0.825
排序
2 12 11 3 1 10 9 4 5 8 13 7 6
11
R实现
R基础安装包自带的princomp()可以实现主成分
1
分析。从相关阵或者从协方差阵做主成分分析
调用格式为
2 Princomp(x, cor=FALSE,scores=TRUE,covmat=NULL, subset=rep_len(TRUE,nrow(as.matrix(x))),…)
0.476 X1*
0.473
X
* 2
0.424
X
* 3
0.213
X
* 4
0.388
X
* 5
0.352
X
* 6
0.215
X
* 7
0.055
X
* 8
Y2
0.296 X1*
0.278
X
* 2
0.378
X
* 3
0.451X
* 4
0.331X
* 5
0.403
X
* 6
0.377
X
* 7
0.273
X
* 8
15
R实现
一般情况是不相同的。实践表明,这种差异有
1
时很大。
如果各指标之间的数量级相差悬殊,特别是各 2 指标有不同的物理量纲的话,较为合理的做法
是使用R代替∑。
3
因此,在后续内容中,我们默认使用相关系数
矩阵R求解主成分。
4
主成分分析实例
例12.1 某市工业部门13个行业的8项重要经济指标如下: X1:年末固定资产净值,单位:万元 X2:职工人数,单位:人 X3:工业总产值,单位:万元 X4:全员劳动生产率,单位:元/人年 X5:百元固定资产原值实现产值,单位:元 X6:资金利税率,单位:% X7:标准燃料消费量,单位:吨 X8:能源利用效果,单位:万元/吨
得到各个样本主成分的数据。 (见右图)我们可重点关注 Comp.1、Comp.2
16
R实现 函数总结
#loadings()显示主成分分析或因子分析中载荷的内容 #predict()预测主成分的值
#screeplot()画出主成分的碎石图
#biplot()画出数据关于主成分的散点图和 原坐标在主成分下的方向
X3
101091 2035 3767 81557
215898 10351 8103 54935 52108 6126 6200 10383 19396
X4
19272 10313 1780 22504 10609 6382 12329 23804 21796 15586 10870 16875 14691
3
x就是我们原始的数据;cor表示从协方差或者相 关矩阵出发计算主成分;scores是一个逻辑值,
指示是否应计算每个主成分的得分。
12
R实现
在本案例中:
eco_data<-princomp(data,cor = T) summary(eco_data,loadings=T)
13
R实现
screeplot(eco_data,type="l")
5
主成分分析实例
表12.1 某市工业部门13个行业8项指标
冶金 电力 煤炭 化学 机器 建材 森工 食品 纺织 缝纫 皮革 造纸 文教
X1
90342 4903 6735 49454 139190 12215 2372 11062 17111 1206 2150 5251 14341
X2
52455 1973 21139 36241 203505 16219 6572 23078 23907 3930 5704 6155 13203
17
第三节 主成分的求解与应用
使用相关矩阵R计算主成分
我们前面讨论的主成分计算是从分析协方差矩阵Σ 出发的,其结
果受变量单位(量纲)和变量间数值差异程度的影响。
为使主成分分析能够均等地对待每一个原始变量,消除由于单位的不同 可能带来的影响,我们常常将各原始变量作标准化处理,即令
X
相关主题