基于全国主要城市平均气温的统计分析摘要本文主要采用2012年全国主要城市平均气温的统计数据,首先通过相关分析对全国主要城市的平均气温进行简单的相关分析,然后在控制平均气温的基础上对个月平均气温进行偏相关分析;其次运用聚类分析对各相似省份进行聚类分析;最后运用因子分析对各城市进行因子分析,计算出每个城市的综合得分,通过综合得分计算出每个城市平均气温的排名。
关键词:相关分析;聚类分析;因子分析1、研究背景及目的全球气温变暖为世人所瞩目,近几十年来的全球气候变暖是一个国内外都非常关注的重大问题。
自从全球气温变暖的议题出现以来,关于气温的不正常变化仁者见仁,智者见智。
气温的变化对农作物,人们的生活及经济的运行都有重要的影响。
全世界的气温研究工作者都研究出了许多关于气温的结论,但都有一个共性即全球气温变暖。
然而我国跨北纬4度到北纬53度,从东经73度到东经135度,具有比较丰富的气候和比较多变的气温,因此对我国气温的研究具有很重要的意义。
在此大背景下,对我国气温的研究不仅能说明我国气温的分布和变化,同时对世界气温的研究同样具有重要作用。
本文的研究目的如下:通过对我国主要城镇平均气温的研究和分析,一方面可以得出我国各市平均气温与全国平均气温差异;另一方面也可以给我们以后的就业进行指导,在适宜的季节去适宜的城市工作。
2、研究方法气温的变化不仅能促进经济的发展,同时也能阻碍经济的发展。
据此我们通过全国各主要城市每个月份的平均气温对我国气温的分布情况进行分析。
本研究采用的数据是《中国2012年主要城市平均气温的数据指标》,数据摘自《中国统计年鉴2013》7-7.采用的分析方法主要有相关分析,聚类分析,因子分析等。
基本思路是:首先利用线图分析各个月份平均气温的分布,然后利用条形图分析全国主要城市平均气温的对比,得出平均气温最高和最低的城市;然后利用因子分析对各个月份的平均气温进行相关分析;其次利用聚类分析对各个城市在不同气温下的类别;再次利用因子分析对构成平均气温的各各月平均气温提取公因子;最后使用一些简单的SPSS数据处理技巧依据提出的公因子对各城市进行分类及排序。
3、实证分析由于从国家统计局网站下载的数据为EXCEL格式,可以将数据导入成SPSS 数据,我们共设置了14个变量,分别是“城市”、“@1月”、“@2月”、“@3月”、“@4月”、“@5月”、“@6月”、“@7月”、“@8月”、“@9月”、“@10月”、“@11月”、“@12月”和“年平均气温”。
样本是中国2012年全国重要城市平均气温的主要数据。
数据参见附表1。
3.1、画基本图形图1通过图1可以看出全国平均的月份气温最低在0度左右,最高在25度左右,说明全国平均月份气温比较温和。
图2条形图反映的是各个城市的年平均气温的情况,最高的为海口,最低的为哈尔滨,比较符合现实的气温分布。
3.2、相关分析对于相关分析主要有以下几部分;第一、对每个季度的平均气温进行简单相关分析;第二、在控制年平均气温的情况下,再分别对各季度的平均气温进行偏相关分析。
3.2.1各季度平均气温的相关分析相关性1月2月3月1月Pearson 相关性 1 .989**.981**显著性(双侧).000 .000N 31 31 312月Pearson 相关性.989** 1 .984**显著性(双侧).000 .000N 31 31 313月Pearson 相关性.981**.984** 1显著性(双侧).000 .000N 31 31 31**. 在 .01 水平(双侧)上显著相关。
图3显示的是1月、2月和3月的平均气温的相关性,可以看出这三个月的相关性比较明显。
通过这三个月的相关分析我们容易得到其他三个季度的气温也具有比较强的相关性。
3.2.2各个季度平均气温的偏相关分析图4相关性控制变量1月2月3月年平均1月相关性 1.000 .913 .724显著性(双侧). .000 .0000 28 28df2月相关性.913 1.000 .859显著性(双侧).000 . .000df 28 0 283月相关性.724 .859 1.000显著性(双侧).000 .000 .df 28 28 0在控制年平均气温的情况下第一季度个月平均气温的相关性有所下降,但是没有改变它们的相关性。
说明各个季度各个月份的平均气温都具有非常强的相关性。
图5图5表示的是各个月份平均气温的相关图,可以看出每个月份之间的相关性都非常好。
3.3聚类分析图8聚类成员案例号城市聚类距离1 北京 3 4.6862 天津3 4.2153 石家庄 3 6.4704 太原 3 5.9965 呼和浩特 1 4.7726 沈阳 1 5.2917 长春 1 7.2958 哈尔滨 1 10.3969 上海 2 3.93310 南京 2 4.35411 杭州 2 3.89612 合肥 2 4.86913 福州 4 8.10614 南昌 2 5.97715 济南 3 7.86016 郑州 2 8.48717 武汉 2 4.32818 长沙(望城) 2 4.95319 广州 4 1.88520 南宁 4 3.34621 海口 4 10.97322 重庆(沙坪坝) 2 7.87023 成都(温江) 2 5.00524 贵阳 2 11.22325 昆明 2 16.41926 拉萨 3 17.50427 西安(泾河) 3 7.07928 兰州(皋兰) 1 8.33829 西宁 1 13.20830 银川 3 9.75631 乌鲁木齐 1 7.466通过聚类分析,由图6到图8我们可以清晰的看出,在图6和图8中对各个城市的划分比较统一,而在图7中我们显然发现对于气温我们可以分成4类,分别是5、6、7、8、9月为第一类,4、10月为第二类,3、11月第三类,1、2、12月为第四类,很显然是根据气温的从高到低进行分类的,第一类温度最高,第二类次之,第三类温度稍低,第四类温度最低。
3.4因子分析在上面的研究中,我们分别对温度和城市进行了分类,并且对气温进行了相关分析,得出了气温的分布情况,并且研究了气温对城市的影响,但是由于各种变量的多重共线性问题,不太利于具体问题意义解释,因此我们可以利用因子分析对各个月份的平均气温变量提取公因子,对数据进行降维处理。
首先利用主菜单分析中的降维工具条进行因子分析。
在对话框中,依次将“@1月”、“@2月”、“@3月”、“@4月”、“@5月”、“@6月”、“@7月”、“@8月”、“@9月”、“@10月”、“@11月”和“@12月”添加到“变量”列表中。
接着在相应的按钮中选中输出相关系数矩阵和KMO和Bartlett的球形度检验的复选框,并且设置特征根大于1为提取公因子的要求,利用最大方差法进行因子旋转,最后保存因子得分变量,并显示因子得分系数矩阵,输出结果参见图9至图15(1)KMO 和 Bartlett 的检验,如图9所示,KMO的取值为0.811,表明变量间有较强的相关性,数据很适合做因子分析。
Bartlett检验的Sig.值为0.000,说明数据来自正态总体,适合进一步分析。
图9KMO 和 Bartlett 的检验取样足够度的 Kaiser-Meyer-Olkin 度量。
.811Bartlett 的球形度检验近似卡方1009.087 df 66 Sig. .000(2)变量共同度,指的是按照所选标准提取相应数量主成分后,各变量中信息分别被提取的比例。
如图10所示,所有变量共同度都在90%以上,所以提取这几个公因子对各变量的解释力非常好。
公因子方差初始提取1月 1.000 .9842月 1.000 .9873月 1.000 .9904月 1.000 .9525月 1.000 .8906月 1.000 .9257月 1.000 .9628月 1.000 .9249月 1.000 .95210月 1.000 .98411月 1.000 .98712月 1.000 .986提取方法:主成份分析。
(3两个特征值大于1,所以只选取了前两个公因子;“提取平方和载入”一栏显示第一公因子的方差贡献率是82.367%,前两个公因子的方差总和占所有主成分方差的96.014%,可见选取前两个因子已足够替代原来的变量。
解释的总方差成份初始特征值提取平方和载入旋转平方和载入合计方差的 % 累积 % 合计方差的 % 累积 % 合计方差的 % 累积 %1 9.884 82.367 82.367 9.884 82.367 82.367 6.458 53.813 53.8132 1.638 13.646 96.014 1.638 13.646 96.014 5.064 42.201 96.0143 .260 2.166 98.1804 .074 .618 98.7985 .065 .545 99.3436 .032 .266 99.6107 .025 .208 99.8188 .008 .070 99.8889 .007 .056 99.94410 .005 .040 99.98411 .001 .010 99.99412 .001 .006 100.000提取方法:主成份分析。
可以看到有;两个成分的特征值超过1。
图12(5)成分矩阵,如表13可见,所有的因子都聚集在第一主成分中,因此有必要进行因子旋转。
我们利用最大方差法进行因子旋转得到的旋转成分矩阵如图13所示。
图13成份矩阵a成份1 210月.992 -.0324月.975 -.00211月.958 -.2629月.951 .2161月.927 -.3525月.916 .22712月.906 -.4072月.895 -.4328月.838 .4716月.821 .5007月.750 .632提取方法 :主成份。
a. 已提取了 2 个成份。
图14旋转成份矩阵a成份1 22月.962 .24612月.955 .2733月.937 .3331月.936 .32911月.902 .41710月.779 .6154月.747 .6277月.166 .9666月.305 .9128月.337 .9009月.588 .7785月.554 .763提取方法 :主成份。
旋转法 :具有 Kaiser 标准化的正交旋转法。
a. 旋转在 3 次迭代后收敛。
这样每个因子都很明确了,第一主成分包括1、2、3、4、10、11、12月,可以命名为较冷气温;第二主成分包括5、6、7、8、9月,可以命名为叫人气温。
(6)成分得分矩阵成份得分系数矩阵成份1 21月.210 -.1043月.210 -.1034月.076 .0635月-.018 .1656月-.133 .2877月-.191 .3448月-.121 .2759月-.011 .16310月.089 .05011月.177 -.06012月.230 -.131提取方法 :主成份。