当前位置:文档之家› 主成分分析及其在综合评价系统中的应用

主成分分析及其在综合评价系统中的应用

概率论论文《主成分分析及其在统计综合评价系统中的应用》

主成分分析及其在统计综合评价系统中的应用

一. 文献综述

主成分分析法是在对于复杂系统进行统计分析时十分有效的一种方法。本文主要是对主成分分析法进行详细介绍,并分析其在统计综合评价中的应用[1]。突出介绍主成分分析法在学生综合成绩分析[2]、企业业绩分析[3]及景区游客服务满意度测评[4]这三个综合评价系统中的应用。并在文末,对主成分分析法进行了一定的改进[5],使得主成分分析法更加合理并贴近实际,且在一定程度上减小了统计分析过程中“线性化”产生的误差。

二.相关知识

在我们进行系统分析时,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,这种想法是可以实现的,本文介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。

(一)主成分分析方法的原理

主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n个样本,每个样本共有p个变量描述,这样可构成一个n×p阶的数据矩阵。如何从这么多变量的数据中抓住事物的内在规律性呢?要解决这一问题,自然要在p维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。

如果记原来的变量指标为pxxx21,,它们的综合指标——新变量指标为21,xx,mz(m≤p)。则

概率论论文《主成分分析及其在统计综合评价系统中的应用》

11111221221122221122(1)ppppmmmmppxlxlxlxxlxlxlxzlxlxlx

在(1)式中,系数ijl由下列原则来决定:

(1)iz与jz(;,1,2,...,)ijijm相互无关;

(2) 1z是12,,...,pxxx的一切线性组合中方差最大者;2z是与1z不相关的12,,...,pxxx的所有线性组合中方差最大者;„„;mz是与121,,...,mzzz都不相关的12,,...,pxxx的所有线性组合中方差最大者。这样决定的新变量指标121,,...,,mmzzzz分别称为原变量指标12,,...,pxxx的第一,第二,„,第m主成分。其中,1z在总方差中占的比例最大,21,...,,mmzzz的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。

从以上分析可以看出,找主成分就是确定原来变量(1,2,...,)jxjp在诸主成分(1,2,...,)izim上的载荷(1,2,...,;1,2,...,)ijlimjp,从数学上容易知道,它们分别是12,,...,pxxx的相关矩阵的m个较大的特征值所对应的特征向量。

(二)主成分分析的解法

通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:

(1)计算相关系数矩阵

111212122212(2)PPPPPPrrrrrrRMMMMrrr

概率论论文《主成分分析及其在统计综合评价系统中的应用》

在公式(2)中,ijr(i,j=1,2,„,p)为原来变量ix与jx的相关系数,其计算公式为

12211()()(3)()()nkiikjjkijnnkiikjjkkxxxxrxxxx

因为R是实对称矩阵(即rij=rji),所以只需计算其上三角元素或下三角元素即可。

(2)计算特征值与特征向量

首先解特征方程|λI-R|=0求出特征值λi(i=1,2,„,p),并使其按大小顺序排列,即λ1≥λ2≥„,≥λp≥0;然后分别求出对应于特征值λi的特征向量ei(i=1,2,„,p)。

(3)计算主成分贡献率及累计贡献率

pkkmkkpkkiipirz111),,,2,1(/累计贡献率:贡献率:主成分。

一般取累计贡献率达85-95%的特征值m,,21,所对应的第一,第二,„„,第m(m≤p)个主成分。

(4)计算主成分载荷

),,2,1,(),(pkiexzpkikik (4)

由此可以进一步计算主成分:

Z=nmnnmmzzzMMMMzzzzzz212222111211 (5)

概率论论文《主成分分析及其在统计综合评价系统中的应用》

三.主成分分析法的应用

近年来, 随着统计分析活动的广泛开展, 评价对象也越来越复杂, 简单评价方法的局限性也越来越明显。因此, 通过对实践活动的总结, 逐步形成了一系列运用多个指标对多个单位进行评价的方法, 简称综合评价方法。在综合评价方法中应用极为广泛的就是主成分分析法[1]。

采用主成分分析法进行综合评价的原因是主成分分析的降维处理技术能较好地解决多指标评价的要求且主成分分析在进行多指标综合评价时,权数是从信息量和系统效应角度来确定的。

用主成分分析法进行多指标综合评价的几个优点是:

I. 消除了评价指标间的相关影响。另外, 主成分分析用于多指标综合评价是对彼此独立的分量进行合成, 正适于采用加权线性相合成方法, 不必在合成方法选择上多做工作。

II. 减少了指标选择的工作量。在主成分分析中由于可以消除评价指标间的相关影响, 因而在指标选择上相对容易些。但主成分分析法确定评价指标的原则是宁多勿少, 尽可能地全面。主成分分析可以保留原始评价指标的大部分信息。如果指标选择不够全面, 就会先天不足,再好的分析方法也会失去效用。

III. 在主成分分析将原始变量变换为成分的过程中, 同时形成了反映成分和指标包含信息量的权数, 以计算综合评价值, 这比人为地确定权数, 工作量少些, 也有助于保证客观地反映样本间的现实关系。

主成分分析法在进行综合评价上应用得十分广泛,在很多系统的综合评价中都起到了很重要的作用。这里举出其在学生综合成绩分析[2]、企业业绩分析[3]及景区游客服务满意度测评[4]这三个综合评价系统中的应用。

(一) 主成分分析法在学生综合成绩分析中的应用[2]

随着经济全球化和知识经济的强力推动,人力资源已成为人类的第一宝贵资源。各行各业高素质人才培养主要基地是高等院校,因此,如何科学地评价大学生的综合成绩成为当前各高校在全面推进素质教育过程中所面临的问题之一。目前高校普遍采用的方法是取学习成绩的加权平均,然而这种方法存在着许多不足,无法反映学生的整体素质,也不利于素质教育的推进。

以某数学班2009-2010 学年的大学物理①、大学英语③、概率统计、数学分

概率论论文《主成分分析及其在统计综合评价系统中的应用》

析、中国近现代史纲、常微分方程、程序设计基础、数学模型与数学实验作为变量,分别用X1, X2⋯ X8表示。通过数据[2],可计算得出各主成分的得分函数:

F1 =0.843X1+0.311X2+0.727X3+0.835X4+0.216X5+0.712X6+0.528X7+0.293X8

F2 =0.123X1-0.128X2+0.239X3+0.159X4+0.077X5+0.375X6+0.612X7+0.702X8

F3 =-0.099X1+0.563X2-0.285X3+0.023X4+0.454X5-0.021X6-0.241X7-0.440X8

F4 =0.101X1-0.138X2 +0.087X3-0.003X4 +0.436X5-0.403X6-0.012X7 +0.283X8

从上述统计分析中可以得到如下结论:影响学生综合得分的主要因素有四个方面:F1:大学物理①,概率统计,数分,常微方程; F2:计算机;F3:英语;F4:史政。其中最主要的是F1, F1反映了学生专业基础课方面的能力水平。普物虽属于公共课,但它与数学有着非常密切的联系,普物与数学同属于理科,且普物中有许多内容都用到了数学中的微积分知识。综上所述, 基于主成分分析的大学生综合成绩评估方法克服了传统方法中只能笼统的反映学生考试成绩的缺点,具有很好的实用性。可以帮助教学人员根据学生的具体情况制定不同的培养方案和教学手

段,切实有效地提高学生的专业素质。该方法能够全面客观地评估大学生的综合成绩与专业素质,可以满足当前社会对人才选拔方式的基本要求。

(二) 主成分分析法在企业业绩评价指标选择中的应用[3]

业绩评价是评价主体利用其所掌握的信息对评价客体运用一定的方法、程序、指标等进行分析,进而对评价客体在一定时期内的行为表现做出某种判断的过程。业绩评价指标的选择完全可以依靠主成分分析法来进行。首先按着战略业绩评价体系的分类,将业绩评价指标分为财务指标和非财务指标,然后分组做主成分分析。下面以财务指标为例,对主成分分析法在业绩评价指标选择中的运用进行阐述。

选取n家企业(或者项目、事业部等需要做业绩评价的单位)作为样本,对每个样本观测p个财务指标指标(变量),分别用X1,X2,X3,„,XP,例如,假设X1为总资产周转率,X2为销售净利率,X3为资产负债率„计算业绩评价单位的各个财务指标Xi,得到原始的数据资料矩阵,再通过主成分分析法的过程对数据矩阵进行计算和处理。对战略业绩评价指标进行主成分分析的目的之一是希望能用尽可能少的综合指标F1,F2,F3,„„代替原来的p个指标,从而将业绩评

概率论论文《主成分分析及其在统计综合评价系统中的应用》

价指标简化。而到底选用多少个主成分,本文认为各个企业可以参照该企业的实际情况恰当确定。

在实践中比较通行的确定主成分个数方法的主要原则有以下几种[1]:

①α(k)≥85%准则(α(k)即前k个主成分保留原观测变量信息的比重)。根据国内外用主成分分析进行多指标综合评价的实践来看, α (k)>85%通常可以保证样本排序的稳定。

②λg>λ准则。先计算特征根λg, 的均值λ然后将之与λg比较, 选取λg>λ的前k个成分作为主成分。由标准化数据的相关矩阵R求得的λ=1, 因此只要取λg>1的前k个主成分即可。

③选取第一主成分用于综合评价。主成分分析法作为数据降维方法, 其每一个主成分均有特定经济含义, 可以用于揭示原始样本中的基本性质。第一主成分说明了原始数据变动的总规模, 而其余各主成分则说明样本内部的各方面的特征。

(三) 主成分分析法在景区游客服务满意度测评中的应用[4]

随着市场竞争的加剧和顾客消费观念的转变,顾客满意度被越来越多的学者和经营者所关注。景区作为一个企业化运营的经济体,游客满意度的高低直接影响了游客的重游率和向亲友推荐的意向。因而,游客的满意度越来越受到景区管理部门和学者的重视。可运用主成分分析法,对游客的满意度进行测评,在测评结果的基础上,通过对景区游客服务的研究,来提出提高景区游客服务满意度的对策,以供景区服务工作者参考。

可根据景区游客服务满意度测评指标体系的各项指标,设计调查问卷。运用主成分分析法对所得的数据进行指标分析,可得到总方差解释表和旋转后的成分矩阵载表,得出景区游客服务满意度测评指标层的权重和最终的评价得分。以广州白云山麓湖公园为例,得出的最终评价得分[4]为:

目标层 准则层 指标层 N 权重 评价值

景区游客服务满意度 景区游客交互服务 态度 3.34 0.13 3.52

行为 3.51 0.08

专业技能 4.10 0.11

景区游客服服务设施 2.87 0.07

相关主题