定量分析方法实验课程论文题目:主成分分析与聚类分析的实际运用专业年级:学号:姓名:任课教师:目录一.摘要 (3)二:研究的背景及意义 (4)三.指标体系的构建 (4)1.指标体系的构建 (4)2.数据的收集整理 (4)3.指标变异系数和相关性的分析 (5)3.1指标的变异性分析 (5)3.2指标的相关性分析 (6)四.主成分分析 (7)3.1主成分基本概述 (7)3.2实际计算运用 (8)3.2.1数据的计算 (8)3.2.2结果的解释 (9)五.聚类分析 (10)4.1主要步骤 (10)4.1.1数据预处理 (10)4.1.2为衡量数据点间的相似度定义一个距离函数 (10)4.1.3聚类或分组 (10)4.1.4评估输出。
(11)六.结论 (13)七.参考文献 (14)摘要随着改革开放的进行,我国进入了一个前所未有的经济飞速发展时期,整体经济实力与日俱增。
但是,我们也应该看到各个地区的发展不平衡,沿海地区发展较快,经济增长也较快,而中西部发展相对较慢。
基于这种现状,本文从我国31个省市自治区经济的发展视角入手,运用相应的分析方法对我国各地区经济发展状况进行统计分析,用以说明我国各地区经济发展不协调的现状。
并对全国各地区的经济用聚类分析进行分类,用主成分分析对其进行分排序。
一.研究的背景及意义我国地域辽阔,由于历史、地理位置及经济基础等原因,各地经济发展水平差异很大。
改革开放以来,特别是实施西部大开发、振兴东北地区等老工业基地、促进中部地区崛起、鼓励东部地区率先发展的区域发展总体战略以来,各地经济社会发展水平有了很大提高,人民生活也有了很大改善。
但区域发展不协调、发展差距拉大的趋势仍未根本改变。
因此通过主成分分析可以得出个地区间的差距大小。
我国拥有31个省市,如果国家对每个不同的地区都采取不同的宏观政策是不切实际的,因此,通过聚类分析,对其进行分类,可以更好的对不同的经济类型采取不同的政策。
也便于发现自身现在所处在怎样的发展状况,并制定适应的政策。
而不是盲目的定制过高的发展目标。
当然也便于经济发展较慢的经济类型城市可以分辨出哪些城市是发展卓有成效的,进而借鉴发展快速类型城市的一些经验和政策。
二.指标体系的构建1.指标体系的构建地区综合经济实力的指标体系是指构成综合经济实力的各系统组成要素之间相互联系、相互依赖、相互制约的关系所形成的整体。
对地区综合经济实力的测度可以通过反映综合经济实力的经济规模子系统、经济结构子系统、开放程度子系统、人力资本子系统、基础设施子系统、可持续发展水平子系统六大子系统来进行综合评价。
当前对如何测度地区综合经济实力指标体系的研究已有很多,但多数研究只注重考虑地区经济实力,忽略了地区经济可持续发展的重要性。
本研究是在已有研究成果的基础上强调地区经济可持续发展的重要性,故在评价地区综合经济实力的指标体系中加入了影响地区综合经济实力的重要因素-可持续发展水平。
根据安徽省阜阳市《基于GIS和TOPSIS法的阜阳区域经济发展状况评价》构建评价地区综合经济实力的如下指标体系:(1)经济规模子系统:人均GDP(元/人)=GDP/人口总数,该指标是反映区域经济发展水平的最主要指标之一,通常该指标的值越高,地区经济越发达。
国内生产总值增长率=当年GDP/上年的GDP农民人均纯收入(元/人),是反映该地区农村人口实际生活水平的重要指标。
职工年平均工资(元),是反映地区城镇居民工资所能达到的一般水平。
(2)经济结构子系统。
第三产业增加值占国内生产总值的比重=第三产业增加值/GDP,该指标的值越高,说明该地区第三产业越发达。
第二产业产值占GDP比重=第二产业值/GDP第一产业产值占GDP比重=第一产业值/GDP(3)开放程度子系统。
进出口额占国内生产总值比重=进出口额/GDP,该指标反映地区经济对国外市场的依存度。
国际旅游外汇收入(亿美元),该指标反映地区旅游经济是发否发达以及对外开放程度。
(4)人力资本子系统。
每万人从事自然科技活动人员数(人/万人),该指标反映地区科技水平的高低。
每万人高校学生数(人/万人)=地区高校在校学生数和高校毕业生数(本专科生)/地区人口总数。
教育投入率=教育投资经费/GDP。
(5)基础设施子系统。
人均城市道路面积=城市道路面积/人口总数。
每万人拥有公共汽电车数(辆/万人)=公共汽电车数/人口总数。
每万人拥有医生数(人/万人)=医生人员数/人口总数。
2.数据的收集整理(数据来源于统计局官网2011年统计年鉴:)总的财政收入消费价格总指数居民的储蓄存款城市人口密度生产总值第三产业的生产总值北京7061.7903 102.40 17003.11 1383 14113.58 10600.84 天津3206.4279 103.55 5558.23 2752 9224.46 4238.65 河北3995.5641 103.07 15678.43 2354 20394.26 7123.77 山西2908.9926 103.02 9222.97 2890 9200.86 3412.38 内蒙古3209.9328 103.20 4618.11 981 11672 4209.02 辽宁6014.5056 103.04 13690.27 1814 18457.27 6849.37 吉林1807.2276 103.70 5147.26 1449 8667.58 3111.12 黑龙江2266.7364 103.90 7254.71 5239 10368.6 3861.59 上海8620.7489 103.11 15650.24 3630 17165.98 9833.51 江苏12239.5785 103.81 23334.48 2027 41425.48 17131.45 浙江7825.3962 103.84 20612.16 1773 27722.31 12063.82 安徽3448.1856 103.14 7788.48 2469 12359.33 4193.68 福建3454.4766 103.22 8101.02 2290 14737.12 5850.62 江西2334.2766 103.04 6113.24 4786 9451.26 3121.4山东8248.1495 102.93 19648.21 1389 39169.92 14343.14 河南4143.9534 103.53 12884.1 5178 23092.36 6607.89 湖北3033.6928 102.91 9798.05 1929 15967.61 6053.37 湖南3245.0703 103.11 9022.58 2992 16037.96 6369.27 广东13551.1314 103.12 36318.66 2428 46013.06 20711.55 广西2315.9756 102.98 5702.43 1498 9569.85 3383.11 海南812.9745 104.84 1667.14 2739 2064.5 953.67 重庆2856.2232 103.25 5839.66 1860 7925.58 2881.08 四川4685.0175 103.18 13650.83 2743 17185.48 6030.41 贵州1601.1927 102.92 3244.99 3266 4602.16 2177.07 云南2613.5625 103.73 5719.97 3795 7224.18 2892.31 西藏109.9419 102.20 267.13 575 507.46 274.82 陕西2874.6195 103.97 7957.78 5506 10123.48 3688.93 甘肃1060.7499 104.10 3598.24 3793 4120.75 1536.5 青海330.6459 105.35 868.22 2320 1350.43 470.88 宁夏460.6521 104.07 1170.25 1093 1689.65 702.45 新疆1501.7277 104.33 3713.47 4977 5437.47 1766.693.指标变异系数和相关性的分析3.1指标的变异性分析变异系数是级差、标准差和方差一样都是反映数据离散程度的绝对值,其数据大小不仅受变量值离散程度的影响,而且还受变量值平均水平大小的影响。
一般来说,变量值平均水平高,其离散程度的测度值也大,反之越小。
变异系数是衡量资料中各观测值变异程度的另一个统计量。
当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。
如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。
标准差与平均数的比值称为变异系数,记为C·V。
变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
变异系数的计算公式为:变异系数C·V =(标准偏差SD/平均值MN)×100%表一:指标的变异性序号指标名称变异系数1 总财政收入 0.812 消费价格指数 0.013 居民的储蓄存款 0.784 城市的人口密度 0.485 生产总值 0.786 第三产业的生产总值 0.83我们知道,变异系数的大小反映了样本在该指标上取值的离散程度。
由上表观察可知居民的消费价格指数的标准变异系数比较小,不具备区分样本的评价能力。
3.2指标的相关性分析相关系数只是一个比率,不是等单位量度,无什么单位名称,也不是相关的百分数,一般取小数点后两位来表示。
相关系数的正负号只表示相关的方向,绝对值表示相关的程度。
对于相关系数的大小所表示的意义目前在统计学界尚不一致,但通常按下是这样认为的:相关系数:相关程度;0.00-±0.30:微相关;±0.30-±0.50:实相关±0.50-±0.80:显著相关;±0.80-±1.00 高度相关表二:指标的相关系数矩阵由上表可知,第一个指标和第3、5、6个指标具有高度相关,而第3个指标和第5,6个指标也是高度相关,第五个指标和第六个指标也是高度相关。
但是在综合评价中指标的相关程度过高反映了指标体系的冗余,会导致指标相关系数高掩盖了其他相关系数低的指标,也就是说夸大了相关系数高的指标。
因此本应该剔除消费价格总指数、总财政收入、第三产业的总产值和居民的储蓄存款,但是第三产业的总产值在评价一个地区的经济发展水平中起到很重要的作用所以仅仅剔除总财政收入和居民的储蓄存款和消费价格总指数。