当前位置:文档之家› 主成分分析法介绍.doc

主成分分析法介绍.doc

主成分分析方法我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。

变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。

因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。

第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。

假定有 n 样本,每个样本共有 p 个变量描述,这样就构成了一个 n×p阶的数据矩阵:x 11 x12 ...x1 px 21 x22 ...x2 pX... ... ... ⋯⋯⋯⋯(1) ...xn1 x n 2 ... x np如何从这么多变量的数据中抓住事物的内在规律性呢要解决这一问题, 自然要在 p 维空间中加以考察, 这是比较麻烦的。

为了克服这一困难, 就需要进行降维处理, 即用较少的几个综合指标来代替原来较多的变量指标, 而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息, 同时它们之间又是彼此独立的。

那么,这些综合指标(即新变量 )应如何选取呢显然,其最简单的形式就是取原来变量指标的线性组合, 适当调整组合系数,使新的变量指标之间相互独立且代表性最好。

如果记原来的变量指标为x 1, x 2, xp ,它们的综合指标 —— 新变量指标为 z 1 , z 2 , z m ( m ≤p)。

则z 1 l 11x 1 l 12 x 2 l 1 p x pz 2l 21x1l 22x2l 2 pxp (2)z m l m1x 1 l m2 x 2l mp x p在( 2)式中,系数 l ij 由下列原则来决定:( 1)z i与 z j ( i ≠j;i ,j=1,2, , m)相互无关;( 2)z 1 是 x 1,x 2,⋯,x p 的一切线性组合中方差最大者;z 2 是与 z 1 不相关的 x 1, x 2,⋯,x p 的所有线性组合中方差最大者; ;z m 是与 z 1,z 2,⋯⋯z m-1 都不相关的 x 1,x 2, ⋯, x p 的所有线性组合中方差最大者。

且( 2)式要求:l i 12l i 22.... l ip2 1这样决定的新变量指标z1,z2,⋯,z m分别称为原变量指标 x1,x2,⋯,x p的第一,第二,,第m主成分。

其中, z1在总方差中占的比例最大,z2,z3,⋯,z m的方差依次递减。

在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。

从以上分析可以看出,找主成分就是确定原来变量x j(j=1,2,,p)在诸主成分z i(i=1,2,,m)上的载荷l ij(i=1,2,,m;j=1,2,, p)。

同时,(l i1, l i 2,...., l ip)不是别的,而恰好是x1,x2,⋯,x p的相关矩阵的特征值所对应的特征向量。

且z1方差取到最大就是x1,x2,⋯,x p相关矩阵在第一个特征值所对应特征向量处达到。

z m方差取到最大就是x1,x2,⋯,x p相关矩阵在第m个特征值所对应特征向量处达到。

第二节主成分分析的解法主成分分析的计算步骤通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:(1)计算相关系数矩阵r 11 r12r1Pr 21 r22r2PR(3)...........................r P1 rP 2rPP在公式( 3)中,r ij(i, j=1,2,,p)为原来变量x i与x j的相关系数,其计算公式为n(x ki x i )( x kj x j )r ijk 1 .(4) n n(x ki x i ) 2 (x kj x j ) 2k 1 k 1因为 R 是实对称矩阵(即 r ij=r ji),所以只需计算其上三角元素或下三角元素即可。

(2)计算特征值与特征向量首先解特征方程|λI-R|=0求出特征值λi(i=1,2,,p),并使其按大小顺序排列,即λ1≥λ2≥ ,≥λp≥0;然后分别求出对应于特征值λi的特征向量 e i( i=1,2,, p)。

(3)计算主成分贡献率及累计贡献率mp k。

主成分 z i贡献率: r i / k (i 1,2, , p),累计贡献率:k 1 pk 1kk 1 一般取累计贡献率达85-95%的特征值1,2,m ,所对应的第一,第二,,第m(m≤p)个主成分。

(4)计算主成分得分矩阵由此可以进一步计算主成分得分矩阵:l 11 l12l1ml21 l 22 l2 mZ=... ... ... ... ( 5)l n1 ln 2lnmz1l11x1l12x2 z2l21x1l22 x2进一步还可以根据式:z m l m1x1l m2 x2计算各主成分得分:Z j l j 1 X 1...y j 1z 2 z ...和总得分:m 1 m 2i ii il1 pxpl2 p x pl mp x pljpXp(6)mm zmii(7)主成分分析应用实例实证研究 1本文是对实施西部大开发以来的经济增长状况作实证研究 ,把西部地区 10 个省(自治区、直辖市)的经济增长状况作为研究对象集 ,即 ={ 重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆 }选取 17 个经济指标值:即:地区生产总值、财政收入、固定资产投资、城市用水普及率、城市燃气普及率、每万人拥有交通公共车辆、人均城市道路面积、普通高等学校数、每千人医疗卫生机构床位数、居民收入与消费指标等 17 个经济指标。

进行主成分分析:西部地区 2011 横向因子分析解释的总方差初始特征值提取平方和载入旋转平方和载入成份合计方差的%累积%合计方差的%累积%合计方差的%累积% 123主成分载荷量表:西部地区 2011 年横向主成分f 1f 2f 3.173.045.186.110 .151 .002 .172.041.240 .028 .085 .199 .091.294.100.093 .163 .016 .037.258.261 .232.330.066 .056.050.138.152.034.086.025.006主成分得分函数:f 1 0.173v 2011,1 0.019v 2001,2 0.151v 2011,3 0.172v0.012v 2011,5 0.028v 2011,6 0.091v 2011,7 0.041v2011,80.163v 2011,92011,40.037v 2011,10 0.022v 2011,11 0.003v 2011,12 0.098v 2011,13 0.066v 2011,14 0.138v 2011,15 0.152v 2011,16 0.086v 2011,17f 2 0.070v 2011,1 0.186v 2001,20.012v 2011,3 0.064v 0.042v 2011,5 0.085v 2011,60.136v 2011,7 0.1v 2011,8 0.071v 2011,92011,40.073v 2011,10 0.261v 2011,11 0.232v 2011,12 0.33v 2011,13 0.056v 2011,14 0.021v 2011,15 0.005v 2011,16 0.025v 2011,17 f 3 0.045v 2011,1 0.11v 2001,2 0.002v 2011,3 0.041v 0.24v 2011,5 0.199v 2011,6 0.294v 2011,7 0.093v 2011,8 0.016v2011,92011,40.258v 2011,10 0.021v 2011,11 0.14v 2011,12 0.155v 2011,13 0.05v 2011,14 0.015v 2011,15 0.034v 2011,16 0.006v 2011,17各地区主成分得分表:因子得分 f1 因子得分 f 2因子得分 f 3因子综合得分 y 2011,i排名重 庆 3四 川 1 贵 州 5 云 南 4 西 藏 10 陕西2甘 肃 7 青 海 9宁 夏 8新 疆6第一类主成分: 经济实力、 社会基础以及对外开程度是影响经济增长的主要因素 (地区生产总值、财政收入、固定资产投资、普通高校数、客运量和货运量等)第二类主成分:居民消费水平、城镇居民人均可支配收入、人均公园绿地面积、人均生产总值。

第三类主成分有:城市用水普及率、城市燃气普及率、每万人拥有交通公共车辆数、每千人医疗卫生机构床位数等。

例:投资项目的风险评估模型现在针对具体的综合投资项目,假设请N 名专家对可能次年在的 M 项风险指标进行打分评估,采用10 分制,分支越低,风险越小。

具体打分数据统计表形式如表5-13 所示:某项目投资分先评估打分表政策风险技术风险市场风险管理风险环境风险风险指标专家序号1 6 8 4 4 32 5 73 5 23 4 9 2 7 14 4 6 4 8 35 7 5 3 5 26 3 6 4 8 37 5 4 5 6 38 7 6 4 2 39 4 7 4 6 110 6 7 5 5 4>>Matlab 命令窗口中输入语句: p=[6 8 4 4 3;4 9 2 7 1; ];>>princomp(p)风险指标特征值方差贡献率( %) 累计贡献率( %)12345100F=-0.5766x 1 +0.0094x 2 -0.1698x +0.6237x 4 +0.4997x13 5F 2 =0.1213x 1+ 0.8054x 2 +0.5409x 3 +0.0987x 4 +0.18545 pcF 3 =-0.0984x 1-0.4107x 2 0.5037x 3 -0.4386x 4 +0.6128x 50.7880 -0.2358 -0.0214 0.4686 .03215-0.1490 -0.3563 0.6515 0.4351 -0.48695.0592 2.6122=0.9544 0.35730.1168从上表可知,前 3 个主成分的累计贡献率达到%,因此取前三个主成分:F1 =-0.5766x1 +0.0094x 2 -0.1698x3 +0.6237x 4 +0.4997x 5F2 =0.1213x1 + 0.8054x 2 +0.5409x3 +0.0987x 4 +0.18545F3 =-0.0984x1 -0.4107x2 0.5037x3 -0.4386x 4 +0.6128x5 所以最终风险综合评估函数:F 55.60F128.71F210.49F3主成分分析实例 2对于某区域地貌 -水文系统,其57 个流域盆地的九项地理要素:x1为流域盆地总高度( m)x2为流域盆地山口的海拔高度(m),x3为流域盆地周长(m),x4为河道总长度( km),x5为河等表 2-14某57个流域盆地地理要素数据道总数, x6为平均分叉率, x7为河谷最大坡度(度 ),x8为河源数及 x9为流域盆地面积( km2)的原始数据如表 2-14 所示。

相关主题