主成分分析法例子
从以上的分析可以看出,主成分分析的 实质就是确定原来变量xj(j=1,2 ,…, p) 在诸主成分zi(i=1,2,…,m)上的载荷 lij ( i=1,2,…,m; j=1,2 ,…,p)。 从数学上可以证明,载荷lij分别是相关 矩阵的m个较大的特征值所对应的特征向量。
(一)计算相关系数矩阵
主成分分析(PCA) 具体例子
PCA的基本原理 PCA的计算步骤 PCA应用实例
秦楠
一、主成分分析的基本原理
假定有n个样本,每个样本共有p个变量, 构成一个n×p阶的数据矩阵
x11 x 21 X xn 1 x12 x22 xn 2 x1 p x2 p xnp
8.128 8.135 18.352 16.861 18.279 19.793 4.005 9.11 19.409 11.102 4.383 10.706 11.419 9.521 18.106 26.724
4.065 4.063 2.645 5.176 5.643 4.881 4.066 4.484 5.721 3.133 4.615 6.053 6.442 7.881 5.789 7.162
1540.29 926.35 1501.24 897.36 911.24 103.52 968.33 957.14 824.37 1255.42 1251.03 1246.47 814.21 1124.05 805.67 1313.11
216.39 291.52 225.25 196.37 226.51 217.09 181.38 194.04 188.09 211.55 220.91 242.16 193.46 228.44 175.23 236.29
(6)
三、 主成分分析方法应用实例
表1 某农业生态经济系统各区域单元的有关数据
x 4 :农 x 5 :人 民人均 均粮食 纯收入 产量 (kg/ (元/人) 人) 192.11 295.34 1752.35 1181.54 1436.12 1405.09 452.26 270.12 354.26 586.59 x 6 :经济 x 7 :耕地 x 8 :果 x 9 :灌溉 作物占农 占土地面 园与林 田占耕地 作物播面 积比率 地面积 面积之比 比例(%) (%) 之比 (%) 26.724 18.492 2.231 26.262 32.314 18.266 17.486 40.683 14.464 0.162 11.805 14.401 1.455 7.474 1.892 0.303 27.066 12.489 17.534 22.932
特征值 4.661 2.089 1.043 0.507 0.315 0.193 0.114 0.0453 0.0315
(3)对于特征值=4.6610,=2.0890, =1.0430分别求出其特征向量l1,l2,l3。
表4
主成分载荷
占方差的百分数 (%) 82.918 80.191 92.948 75.346 85.811 71.843 95.118 98.971 92.939
z1 x1 x2 x3 x4 x5 x6 x7 x8 x9 0.739 0.123 -0.964 0.0042 0.813 0.819 0.933 0.197 0.964
z2 -0.532 0.887 0.0096 0.868 0.444 0.179 -0.133 -0.1 -0.0025
z3 -0.0061 -0.0028 0.0095 0.0037 -0.0011 0.125 -0.251 0.97 0.0092
-0.327 -0.714 -0.336 -0.035 0.644 1 0.07 -0.74 -0.93 0.07 1 0.383 -0.046
0.009 -0.078 -0.93 -0.109 -0.05 -0.031 0.672 0.658 1 -0.03 0.89 0.098 0.222 -0.03 1 0.29
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
68.337 95.416 62.901 86.624 91.394 76.912 51.274 68.831 77.301 76.948 99.265 118.505 141.473 137.761 117.612 122.781
k ห้องสมุดไป่ตู้1
n
ki
xi )(xkj x j )
2
(x
k 1
n
ki
xi )
(x
k 1
n
kj
x j )2
(4)
(二)计算特征值与特征向量:
① 解特征方程 I R 0 ,求出特征值,并 使其按大小顺序排列 ;
1 2 , p 0
② 分别求出对应于特征值 i的特征向量
① zi与zj( i≠j;i,j=1,2,…,m )相互无关; ② z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与
z1不相关的x1,x2,…,xP的所有线性组合中方差最大者; …… zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP, 的所有 线性组合中方差最大者。 则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…, xP的第一,第二,…,第m主成分。
-0.71 -0.035
0.255 -0.755 0.069
0.156 -0.078 -0.109 -0.031 0.094 -0.924 0.073
(2)由相关系数矩阵计算特征值,以及各 个主成分的贡献率与累计贡献率(见表3)。 由表3可知,第一,第二,第三主成分的累 计贡献率已高达86.596%(大于85%),故 只需要求出第一、第二、第三主成分z1,z2, z3即可。
x 1 :人 x 2 :人 样本 口密度 均耕地 序号 (人 面积 2 /km ) (ha) 1 363.91 0.352 2 3 4 5 141.5 100.7 143.74 131.41 1.684 1.067 1.336 1.623
x 3 :森 林覆盖 率(%) 16.101 24.301 65.601 33.205 16.607
步骤如下: (1)将表1中的数据作标准差标准化处理, 然后将它们代入公式(4)计算相关系数矩阵 (见表2)。
表2
x1 x1 x2 x3 x4 x5 x6 x7 x8 x9 1 -0.33 -0.34 0.309 0.408 0.79 0.744 x2 1 0.644 0.42 0.009 x3
相关系数矩阵
z1 l11 x1 l12 x 2 l1 p x p z 2 l 21 x1 l 22 x 2 l 2 p x p z m l m1 x1 l m 2 x 2 l mp x p
(2)
系数lij的确定原则:
上述计算过程,可以借助于SPSS软件系统实现。
分析: ①第一主成分z1与x1,x5,x6,x7,x9呈显出 较强的正相关,与x3呈显出较强的负相关, 而这几个变量则综合反映了生态经济结构 状况,因此可以认为第一主成分z1是生态 经济结构的代表。 ②第二主成分z2与x2,x4,x5呈显出较强的 正相关,与x1呈显出较强的负相关,其中, 除了x1为人口总数外,x2,x4,x5都反映了 人均占有资源量的情况,因此可以认为第 二主成分z2代表了人均资源量。
x4 x5 0.309 0.42 -0.74 0.383 1 0.734 0.672 0.098 0.747 x6 0.408 0.255 -0.755 0.069 0.734 1 0.658 0.222 0.707 x7 0.79 x8 0.156 x9 0.744 0.094 -0.924 0.073 0.747 0.707 0.89 0.29 1
r11 r 21 R r p1 r12 r22 rp 2 r1 p r2 p r pp
二、计算步骤
(3)
rij(i,j=1,2,…,p)为原变量xi与xj的相关系数, rij=rji, 其计算公式为:
rij
(x
k
一般取累计贡献率达85—95%的特征值 1 , 2 ,, m 所对应的第一、第二、…、第m(m≤p)个主成分。
④各主成分的得分
l11 l 21 Z ln1
l12 l1 p x1 l22 l2 p x2 . ln 2 lnp x p
2.032 0.801 1.652 0.841 0.812 0.858 1.041 0.836 0.623 1.022 0.654 0.661 0.737 0.598 1.245 0.731
76.204 71.106 73.307 68.904 66.502 50.302 64.609 62.804 60.102 68.001 60.702 63.304 54.206 55.901 54.503 49.102
0.011 0.012 0.034 0.055 0.076 0.001 0.015 0.002 5.055 0.01 0.011 0.154 0.012 0.069 0.048 0.092
4.861 4.862 3.201 6.167 4.477 6.165 5.402 5.79 8.413 3.425 5.593 8.701 12.945 12.654 8.461 10.078
表3
主成分 z1 z2 z3 z4 z5 z6 z7 z8 z9
特征值及主成分贡献率
贡献率(%) 51.791 23.216 11.589 5.638 3.502 2.14 1.271 0.504 0.35 累积贡献率(%) 51.791 75.007 86.596 92.234 95.736 97.876 99.147 99.65 100