对我国主要城市空气质量的聚类分析
摘要
本文应用多元统计分析中聚类分析理论,使用SPSS17.0软件和spss13.0对我国主要城市的空气质量进行了聚类分析,将31个城市按照空气质量的类型分为了四类。
在此基础上,对这些城市的空气质量归属进行了回报判别,结果令人满意。
1引言
大气环境质量评价是环境质量评价的一项重要内容。
对空气环境质量的充分认识对我国社会的可持续发展具有现实的指导意义。
在多元统计分析中,常常使用聚类分析和判别分析来解决样本的分类问题。
在事先不知道应将样品或指标分为几类、怎么分类的情况下,可以使用聚类分析根据样本或指标的相似程度,将样本或指标归组分类。
聚类分析的基本思想是:在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。
按相似程度的大小,将样品逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品进行分类。
一般地,根据分类对象的不同,聚类分析可以分为Q型和R型两大类。
Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。
[2]
判别分析也是一种数据的分析方法。
在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。
本文以4种空气质量指标为变量,采用系统聚类分析Ward方法(离差平方和法),对我国31个主要城市的空气质量类型进行了聚类。
并在此基础上,对这些
城市的空气质量归属进行了回报判别。
从结果来看,比较圆满地完成了预定目标。
2聚类分析和主要城市空气质量类型的划分
2.1指标的选取
本文选取了全国31个城市的2008年的四项空气质量指标作为对空气质量类型划分的依据,所选数据全部来自《中国统计年鉴》,具体见下表。
主要城市空气质量指标 (2008年)
单位:毫克/立方米
城市
空气质量达到及可吸入颗粒物二氧化硫二氧化氮好于二级的天数
(天)
北京0.123 0.036 0.049 274 天津0.088 0.061 0.041 322 石家庄0.116 0.046 0.031 301 太原0.094 0.073 0.021 303 呼和浩特0.070 0.049 0.045 340 沈阳0.118 0.059 0.037 323 长春0.096 0.030 0.038 342 哈尔滨0.102 0.043 0.055 308 上海0.084 0.051 0.056 328 南京0.098 0.054 0.053 322 杭州0.110 0.052 0.053 301 合肥0.134 0.022 0.025 257 福州0.071 0.023 0.046 354 南昌0.083 0.050 0.036 344 济南0.126 0.052 0.022 295 郑州0.094 0.060 0.047 325 武汉0.113 0.051 0.054 294 长沙0.097 0.053 0.043 329
广州0.071 0.046 0.056 345 南宁0.056 0.040 0.044 352 海口0.043 0.009 0.017 366 重庆0.106 0.063 0.043 297 成都0.111 0.049 0.052 319 贵阳0.082 0.064 0.023 347 昆明0.067 0.051 0.039 366 拉萨0.051 0.005 0.024 353 西安0.113 0.050 0.044 301 兰州0.132 0.070 0.054 268 西宁0.118 0.029 0.030 296 银川0.084 0.049 0.021 330 乌鲁木齐0.145 0.105 0.065 261
表2
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
11 -+
27 -+
3 -+
4 -+
15 -+
29 -+
17 -+-----+
22 -+ |
8 -+ |
9 -+ +-------------+
18 -+ | |
30 -+ | |
2 -+-----+ |
10 -+ |
6 -+ +---------------------------+
16 -+ | |
23 -+ | |
21 -+---+ | |
25 -+ | | |
13 -+ +---------------+ |
26 -+ | |
20 -+---+ |
5 -+ |
7 -+ |
14 -+ |
19 -+ |
24 -+ |
12 -+ |
31 -+-----------------------------------------------+
1 -+
28 -+
表 3
类型城市
第一类合肥,兰州,太原,呼和浩特,郑州,银川,长沙,上海,成都
第二类南京,广州,乌鲁木齐,石家庄,杭州,武汉,长春,贵阳
第三类拉萨,重庆,南昌,西安,海口,哈尔滨,沈阳,济南,南宁,昆明
第四类天津,西宁,福州,北京
从图1,2中可以看出,全国31个城市可以分为四种空气质量类型,如表3
所示。
2.3结果讨论
按照表3聚类分析的分类结果,可以将我国31个城市的空气质量类型分为四类:优、良、污染和轻微污染。
第一类型的城市空气质量良好。
第二类型的城市属于轻微污染型,这些城市的工业类型多以轻工业为主,对大气环境的污染较轻。
第三类型的城市空气质量优,尤其是拉萨,作为我国独具特色的一个旅游城市,在发展经济的同时,特别需要将环境保护的重要性提上日程,不可再走先污染后治理的道路。
第四类型的城市属于污染型城市,这些城市人口密集、交通拥挤、工业发达,像北京是全国的政治文化中心,汽车拥有量很大,汽车尾气的排放对环境的污染十分严重。
这些城市的大气质量急需改善。
第三类型的城市空气质量优,尤其是拉萨,作为我国独具特色的一个旅游城市,在发展经济的同时,特别需要将环境保护的重要性提上日程,不可再走先污染后治理的道路。
总的来说,结合这些城市的工业等的发展状况,该聚类结果还是比较符合实际的。
3判别分析
定义:判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。
近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。
判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。
当遇
到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。
判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。
下面对这些城市的空气质量归属进行了回报判别,判别分析采用逐步选择判别分析Fisher判别法。
本文采用Wilk’Lambda(每步选择Wilk的λ统计量值最小的变量进行判别函数)方法进行样品分析及分类。
表4表示对判别函数的显著行检验,其中Wilk的λ值很小,显著概率Sig=0.000,从而认为判别函数有效。
表5是逐步判别后给出的判别函数系数表,最后进入的自变量是可吸入颗粒物、二氧化硫和二氧化氮的含量,分别设这三个变量为x1、x2、x3,其判别函数如下:
F1=687.606x1+573.39x2+325.217x3-65.827
F2=433.725x1+488.629x2+422.513x3-42.275
F3=573.032x1+400.508x2+189.123x3-40.646
F4=274.6x1+119.857x2+118.602x3-11.182
表6为回报判别的结果。
可以看到所有的回报率均为1,所以采用的判别分析方法是适用的。
4结论
本文对我国31个主要城市的空气质量进行了聚类分析,将其空气质量的类型分为了四类:优、良、污染和轻微污染。
通过对实际情况的分析,发现这种划分结果与实际比较相符。
通过对这些城市的空气质量归属进行了回报判别,结果令人满意。
5建议
随着社会的发展,城市的发展也越来越快,随之而来的环境问题越来越突出,环境污染严重。
在附录表中可以看到工业废水排放量都超标。
毕竟城市是很多人的居住环境,在运行费用多做些投入,废水治理设施多增加些,可能我的环境会变得更好,当然,这也需要市
民的共同努力,使我们的城市居住环境更加美好!。