当前位置:文档之家› 主成分分析法介绍

主成分分析法介绍

主成分分析方法我们进行系统分析评估或医学上因子分析等时,多变量问题是经常会遇到的。

变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。

因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息事实上,这种想法是可以实现的,本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。

第一节 主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。

假定有n 样本,每个样本共有p 个变量描述,这样就构成了一个n×p 阶的数据矩阵:111212122212.....................p p n n np x x x x x x X x x x ⎛⎫⎪⎪= ⎪ ⎪⎪⎝⎭ (1)如何从这么多变量的数据中抓住事物的内在规律性呢要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。

为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。

那么,这些综合指标(即新变量)应如何选取呢显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。

如果记原来的变量指标为p x x x ,,21 ,它们的综合指标——新变量指标为 21,z z ,m z (m≤p)。

则)2.........(..........22112222121212121111⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m pp pp x l x l x l z x l x l x l z x l x l x l z在(2)式中,系数l ij 由下列原则来决定: (1)z i 与z j (i≠j ;i ,j=1,2,…,m)相互无关; (2)z 1是x 1,x 2,…,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者;……;z m 是与z 1,z 2,……z m-1都不相关的x 1,x 2,…,x p 的所有线性组合中方差最大者。

且(2)式要求:22212....1i i ip l l l +++=这样决定的新变量指标z 1,z 2,…,z m 分别称为原变量指标x 1,x 2,…,x p 的第一,第二,…,第m 主成分。

其中,z 1在总方差中占的比例最大,z 2,z 3,…,z m 的方差依次递减。

在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。

从以上分析可以看出,找主成分就是确定原来变量x j (j=1,2,…,p)在诸主成分z i (i=1,2,…,m)上的载荷l ij (i=1,2,…,m ;j=1,2,…,p)。

同时,12(,,....,)i i ip l l l 不是别的,而恰好是x 1,x 2,…,x p 的相关矩阵的特征值所对应的特征向量。

且z 1方差取到最大就是x 1,x 2,…,x p 相关矩阵在第一个特征值所对应特征向量处达到。

z m 方差取到最大就是x 1,x 2,…,x p 相关矩阵在第m 个特征值所对应特征向量处达到。

第二节 主成分分析的解法主成分分析的计算步骤通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:(1)计算相关系数矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=PP P P P P r r r r r r r r r R 212222111211........................... ………(3) 在公式(3)中,ij r (i ,j=1,2,…,p)为原来变量i x 与j x 的相关系数,其计算公式为∑∑∑-------=nk nk j kj i kink j kj i kiij x x x xx x x xr 11221)()())(( (4)因为R 是实对称矩阵(即r ij =r ji ),所以只需计算其上三角元素或下三角元素即可。

(2)计算特征值与特征向量首先解特征方程|λI -R |=0求出特征值λi (i=1,2,…,p),并使其按大小顺序排列,即λ1≥λ2≥…,≥λp ≥0;然后分别求出对应于特征值λi 的特征向量e i (i=1,2,…,p)。

(3)计算主成分贡献率及累计贡献率∑∑∑---=pk kmk kpk k i i p i r z 111),,,2,1(/γγγ累计贡献率:贡献率:主成分 。

一般取累计贡献率达85-95%的特征值m λλλ ,,21,所对应的第一,第二,……,第m (m ≤p)个主成分。

(4)计算主成分得分矩阵由此可以进一步计算主成分得分矩阵:Z=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡nm n n m m l l l l l l l l l 212222111211............ (5) 进一步还可以根据式:⎪⎪⎩⎪⎪⎨⎧+++=+++=+++=p mp m m m p p pp x l x l x l z x l x l x l z x l x l x l z 22112222121212121111计算各主成分得分:11...j j jp pZ l X l X=++(6)和总得分:1212...mj mmmmiiiiiiy z z z λλλλλλ=+++∑∑∑(7)主成分分析应用实例实证研究1本文是对实施西部大开发以来的经济增长状况作实证研究,把西部地区10个省(自治区、直辖市)的经济增长状况作为研究对象集,即={ 重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆}选取17个经济指标值:即:地区生产总值、财政收入、固定资产投资、城市用水普及率、城市燃气普及率、每万人拥有交通公共车辆、人均城市道路面积、普通高等学校数、每千人医疗卫生机构床位数、居民收入与消费指标等17个经济指标。

进行主成分分析:西部地区2011横向因子分析解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的%累积%合计方差的%累积%合计方差的%累积%123主成分载荷量表:西部地区2011年横向主成分1f2f3f.173 .045 .186 .110 .151 .002 .172 .041 .240 .028 .085 .199 .091 .294 .100 .093 .163 .016 .037 .258 .261 .232 .330 .066 .056 .050 .138 .152 .034 .086.025.006主成分得分函数:12011,12001,22011,32011,42011,52011,62011,72011,82011,92011,102011,112011,122011,132011,1420110.1730.0190.1510.172v 0.0120.0280.0910.0410.1630.0370.0220.0030.0980.0660.138f v v v v v v v v v v v v v v =-++-++-++---++,152011,162011,1722011,12001,22011,32011,42011,52011,62011,72011,82011,92011,102011,112011,122010.1520.0860.0700.1860.0120.064v 0.0420.0850.1360.10.0710.0730.2610.2320.33v v f v vv v v v v v v v v v ++=-+---+-+--+++1,132011,142011,152011,162011,1732011,12001,22011,32011,42011,52011,62011,72011,82011,92011,10200.0560.0210.0050.0250.0450.110.0020.041v 0.240.1990.2940.0930.0160.2580.021v v v v f v vv v v v v v v v +--+=+++++++++-11,112011,122011,132011,142011,152011,162011,170.140.1550.050.0150.0340.006v v v v v v ⎧⎪⎪⎪⎪⎨⎪⎪⎪⎪--+-++⎩各地区主成分得分表:因子得分1f因子得分2f因子得分3f因子综合得分2011,i y排名 重 庆 3 四 川 1 贵 州 5 云 南 4 西 藏 10 陕 西 2 甘 肃 7 青 海 9 宁 夏 8 新 疆6第一类主成分:经济实力、社会基础以及对外开程度是影响经济增长的主要因素(地区生产总值、财政收入、固定资产投资、普通高校数、客运量和货运量等)第二类主成分:居民消费水平、城镇居民人均可支配收入、人均公园绿地面积、人均生产总值。

第三类主成分有:城市用水普及率、城市燃气普及率、每万人拥有交通公共车辆数、每千人医疗卫生机构床位数等。

例:投资项目的风险评估模型现在针对具体的综合投资项目,假设请N名专家对可能次年在的M项风险指标进行打分评估,采用10分制,分支越低,风险越小。

具体打分数据统计表形式如表5-13所示:某项目投资分先评估打分表>>Matlab 命令窗口中输入语句:p=[6 8 4 4 3;4 9 2 7 1;…]; >>princomp(p)112345212345312345 F =-0.5766x +0.0094x -0.1698x +0.6237x +0.4997x F =0.1213x + 0.8054x +0.5409x +0.0987x +0.1854 F =-0.0984x -0.4107x 0.5037x -0.4386x +0.6128x 0.7880 -0.2358 -0.0214 0.4686 0pc =.3215 -0.1490 -0.3563 0.6515 0.4351 -0.4869⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭5.0592 2.6122 = 0.9544 0.3573 0.1168λ⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭从上表可知,前3个主成分的累计贡献率达到%,因此取前三个主成分:112345212345312345F =-0.5766x +0.0094x -0.1698x +0.6237x +0.4997x F =0.1213x + 0.8054x +0.5409x +0.0987x +0.1854 F =-0.0984x -0.4107x 0.5037x -0.4386x +0.6128x 所以最终风险综合评估函数: 12355.6028.7110.49F F F F =++主成分分析实例2对于某区域地貌-水文系统,其57个流域盆地的九项地理要素:x 1为流域盆地总高度(m)x 2为流域盆地山口的海拔高度(m),x 3为流域盆地周长(m),x 4为河道总长度(km),x 5为河等表2-14 某57个流域盆地地理要素数据道总数,x6为平均分叉率,x7为河谷最大坡度(度),x8为河源数及x9为流域盆地面积(km2)的原始数据如表2-14所示。

相关主题