当前位置:文档之家› 主成分分析法在我国居民生活质量状况-多元统计分析

主成分分析法在我国居民生活质量状况-多元统计分析

《多元统计分析》课程设计报告 学生姓名: 峰 学 号: 090 090 鹤 090 学 院: 理学院 班 级: 数学0 题 目: 主成分分析法在我国居民生活质量状况

综合评价中的应用 指导教师: 辰 职称: 教 授

红 讲 师

2012 年 12 月 7 日 2

一、问题分析 1.1 问题及背景 人均GDP达到1000美元,标志着我国居民生活水平迈上了一个新台阶,我国经济步入了一个崭新的发展时期。然而,我国地域辽阔,人口众多,地区间经济发展很不平衡,城乡差距明显,经济发展的非均衡性已经严重威胁到我国经济的持续、健康发展。若不妥善处理,将会成为制约我国经济发展的瓶颈因素。事实上,东、中、西部地区的经济发展差距已是众所周知,并引起中央政府和有关部门的广泛重视。但在地区间经济发展差距的背后,东、中、西部地区居民的生活质量究竟存在着多大的差距却鲜为人知。随着生产力水平的不断提高,我国居民生活水平不断提高,生活质量也在不断改善。但是,受各地生产力发展水平不平衡的影响,我国各地居民的生活质量也表现为不平衡。利用主成分分析法对我国31个省市、自治区居民的生活状况进行评价分析。为全面分析各地居民生活状况,可选取如下指标体系进行反应:职工人均工资、人均居住面积、城市人均用水普及量、城市煤气普及量、人均拥有道路面积、人均绿地公共面积、批发零售贸易商品销售总额、旅游外汇收入。对我国居民生活质量问题的研究不仅是社会经济发展的客观要求,也是我国全面建设小康社会的迫切需要 城市居民生活质量的评价体系,是依据中国城市居民生活的特征,并参阅国内外生活质量评价研究的大量成果后构建的,集中体现了研究者的专业知识和对生活质量评价体系的理论构思,具有主观色彩,因此,有必要对理论遴选的评价指标进行隶属度分析、相关分析和辨别力分析等实证筛选,以增强评价指标的科学性、合理性和可操作性。 3

1.2 数据 图1 数据来源:《中国统计年鉴2009》 4

二、主成分分析方法基本原理 2.1 主成分分析定义 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。 2.2 主成分分析法方法简介

主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用1F(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(1F)越大,表示1F包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称1F为第一主成分。如果第一主成分不足 5

以代表原来P个指标的信息,再考虑选取2F即选第二个线性组合,为了有效地反映原来信息,1F已有的信息就不需要再出现在2F中,用数学语言表达就是要求0)F,F(21Cov,则称2F为第二主成分,依此类推可以构造出第三、第四,„„,第P个主成分。 ppi22i11iXaXaXaFp其中m),1,(ia, ,a ,api2i1i为X的协方差阵Σ的特征值所对应的特征向量,P21X , ,X ,X是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响。

iaiaim21ijR,)a,a,(am)p(aA,R为相关系数矩阵,i、ia是相应的特征值和单位特征向量,0p21。 进行主成分分析主要步骤如下: 1. 指标数据标准化; 2. 指标之间的相关性判定; 3. 确定主成分个数m; 4. 主成分iF表达式; 5. 主成分iF命名; 其中Li为p维正交化向量,iZ之间互不相关且按照方差由大到小排列,则称iZ为X的第I个主成分。设X的协方差矩阵为Σ,则Σ必为半正定对称矩阵,求特征值i(按从大到小排序)及其特征向量,可以证明,i所对应的正交化特征向量,即为第I个主成分iZ所对应的系数向量iL,而iZ的方差贡献率定义为ji/,通常要求提取的主成分的数量k满足85.0/kj。

2.3主成分分析主要目的 主成分分析主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。 6

三、问题求解 第一步:录入数据,有以下变量:职工人均工资,人均居住面积,城市人口用水普及量,城市煤气普及量,人均拥有道路面积,人均绿地公共面积,批发零售贸易商品销售总额,旅游外汇收入,见图2

图2 第二步:选择功能模块

图3 7

第三步:将变量添加到Varicrible 图4 第四步:输入信息

图5 8 图6

图7 9 图8

第五步:单击“OK”按钮,完成运算。

图9 10

四、结果分析 Communalities Initial Extraction 人均工资 1.000 .730

居住面积 1.000 .598

人均用水 1.000 .636

煤气普及 1.000 .794

人均道路 1.000 .776

人均绿地 1.000 .771

商品总额 1.000 .883

旅游外汇 1.000 .653

分析:第一列是列出八个原始变量,第二列是根据主成分分析初始解计算出变量共同度,第三列是是根据主成分分析最终解计算出变量共同度,这时由于因子变量个数少于原始变量个数,因此每个变量的共同度必然小于1。例如,第一行中0.730表示m个因子变量共同解释掉原始变量“人均工资”方差72.2%。

Total Variance Explained

Component Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %

1 3.955 49.438 49.438 3.955 49.438 49.438 3.874 48.419 48.419 2 1.886 23.581 73.019 1.886 23.581 73.019 1.968 24.600 73.019 3 .883 11.033 84.051 4 .463 5.783 89.834 5 .442 5.530 95.364 6 .230 2.874 98.239 7 .093 1.164 99.403 8 .048 .597 100.000 Extraction Method: Principal Component Analysis.

分析:上表为SAS输出结果,从上表可以看出特征值和和贡献率。从上表可以看出公共因子对原变量总体的描述情况。可以看出前2个公共因子的的贡献率达到73.019%,所以提取2个公共因子就可以反映原变量的大部分信息。

相关主题