当前位置:文档之家› 应用空间聚类进行点数据分布研究_林冬云

应用空间聚类进行点数据分布研究_林冬云

2006年 8月第42卷 第4期北京师范大学学报(自然科学版)JournalofBeijingNormalUniversity(NaturalScience)Aug.2006Vol.42 No.4应用空间聚类进行点数据分布研究*林冬云1) 刘慧平1,2,3)†(1)北京师范大学地理学与遥感科学学院;2)北京师范大学遥感科学国家重点实验室;3)北京师范大学环境遥感与数字城市北京市重点实验室:100875,北京)摘要 空间数据挖掘是寻找大数据量空间分布的重要方法,应用地理信息系统(GIS)进行空间数据挖掘是目前进行海量数据分析的重要手段之一.应用空间聚类方法对北京市海淀区54325个企业点数据进行量化分析研究,通过空间位置聚类,进行属性指标量化,从而进行属性指标分层聚类,得到企业空间分布特征.研究表明,空间聚类方法是进行点数据空间分布研究的有效方法.关键词 空间聚类;企业分布;地理信息系统;量化

*国家自然科学基金资助项目(40271035);国家“十五”科技攻关课题资助项目(2003BA808A16-6)†通讯作者收稿日期:2005-11-23 随着数据获取和处理技术的迅速发展及数据库管理系统的广泛应用,人们积累的数据越来越多,但在激增的数据背后隐藏着许多重要的信息,由于缺乏有效的方法,导致了一种“数据爆炸但知识贫乏”的现象[1],面对这一挑战,数据挖掘(datamining,DM)和知识发现(knowledgediscoveryindatabases,KDD)技术应运而生并得到迅速发展,它的出现为自动和智能地把海量的数据转化成为有用的信息和知识提供了手段.作为DM技术一个新的分支,空间DM也称基于空间数据库的数据挖掘和知识发现(spatialdataminingandknowledgediscovery),是指从空间数据库中提取隐含的、用户感兴趣的空间和非空间的模式、普遍特征、规则和知识的过程[2].空间聚类方法是空间数据挖掘中的主要方法之一,是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域.聚类算法无需背景知识,能直接从空间数据库中发现有意义的空间聚类结构[3].在无先验知识的情况下,聚类分析技术是进行数据挖掘时的首选[4],因而运用空间数据聚类方法来处理海量数据,对于提取大型空间数据库中有用的信息和知识具有十分重要的现实意义.目前,对于空间聚类的研究主要集中在算法研究和应用研究上,存在2种偏向,一是从事GIS理论方法和技术工具研究的工作者大多根据空间对象的地理坐标进行聚类,即只考虑对象的空间邻近性,而不考虑对象属性特征的相似性[2,5];另一种是从事GIS应用和地学研究的工作者,直接套用传统聚类分析方法,根据属性特征集进行分析,忽视了对象的空间邻近性[6].而空间对象本质上具有地理位置和属性特征双重含义,二者结合才能完整地描述空间特征和空间差异.将地理位置和属性特征纳入统一的空间距离测度和空间聚类分析系统,将会改善空间分析和空间DM的信息质量[7-9].本文主要应用GIS分析技术,采用空间DM中的空间聚类方法,通过将空间位置与属性相结合的聚类方法,对北京市海淀区5万多个企事业单位的点分布数据进行分析,探讨对于属性是定性描述的点分布数据的量化方法.1 研究区和数据来源海淀区是北京市重要近郊区,占地面积大,人口众多,交通发达,存在着大量的居民和村民混居现象,是中心城市自上而下的扩散能力最强、城乡一体化程度最高、城乡联系最密切的地区,也是大都市空间扩展的主要地区[10].研究使用的数据来源是2001年北京市企业数据的统计表,经数字化处理生成企业单位点位分布图,按照数据文件中企业注册地址信息,结合参考北京市电子地图、北京市街道胡同地图集、北京市地图、网上北京市地图以及有关企事业单位的网站,将海淀区共计54325条记录生成5万多个企业的点分布图.2 研究方法应用GIS提取企事业单位分布空间坐标,进行按位置距离聚类分析,获得位置聚类小区,然后进行属性指标的量化,应用聚类分析进行属性聚类,分析企事业 420 北京师范大学学报(自然科学版)第42卷 分布的空间规律.此方法可以弥补将位置和属性分立的不足.为此,分别定义位置距离和属性距离.聚类分析中常用的距离有近10种,最常采用的是欧氏距离.记点状地物或区域中心Pi的平面直角坐标为(Xi,Yi),对应的属性向量为(ai1,ai2,…,ain),则点Pi和Pj之间的位置距离和属性距离可分别表示为:位置距离为:Dp=(xi-xj)2+(yi-yj)2,属性距离为:Da=(∑nk=1(aik-ajk)2.在聚类中,地理特征向量应是无量纲的,因此应进行标准化处理.2.1 空间位置聚类 聚类算法[11]的步骤如下:1)地理特征向量中的每一个元素进行无量纲化处理.2)令类别数k=2,迭代误差阈值emin=0.00001(可根据需要设置).3)置迭代次数t=0,k个初始聚类中心为:C(t)j=Sj j=1,2,…,k.4)对第t次迭代,若有|SiC(t)j0|<|SiC(t)j|, j=1,2,…,k且j≠j0;i=1,2,…,m.则把样本Si分配到第j0个聚类域D(t)j0.如此,所有的m个样本可以被划分到k个聚类域D(t)j中,j=1,2,…,k.5)计算新的聚类中心C(t+1)j=1Nj∑Sj∈D(t)jSi, j=1,2,…,k,式中Nj为第j个聚类域中包含的样本个数.6)若|C(t+1)j-C(t)j|

图1 海淀区空间位置聚类(共25类小区) 分别计算聚类结果中3大区各区行业平均百分比、经济性质平均百分比、人员数量平均百分比和营业 第4期林冬云等:应用空间聚类进行点数据分布研究421

图2 海淀区25类小区外接多边形边界显示图3 海淀区25类小区显示收入平均百分比,并对属性指标进行分层聚类.将25个小区分别进行指标计算,形成行业指标、经济性质指标、人员数量指标、营业收入指标,共64×25个指标,进行分层聚类,获得树型图,见图4.

图4 海淀区25类按64个指标分层聚类本文按树型图结果分为3大区进行研究分析.第1大区包含:Q8,Q24,Q17,Q23,Q25,Q10,Q21,Q14,Q4.第2大区包含:Q18,Q22,Q1,Q5,Q6,Q13,Q2,Q11.第3大区包含:Q15,Q19,Q7,Q12,Q9,Q20,Q3,Q16.其中“Q”为便于计算而设置的小区代号.将结果显示在图中,见图5.通过对3大区企事业单位行业特点、经济性质的进一步的分析,海淀区的企事业单位的空间分布具有较强的空间分布规律.1)行业特点分布 海淀区3大区各区行业平均百分比如图6所示.海淀区3大区的行业分布中每大区均有4个较高的峰,分别为制造业,批发和零售贸易、餐饮业,社会服务业,科学研究和综合技术服务业,说明海淀区是以这4个行业为主导行业.其分布规律是:a)制造业分布排序依次为第3区(31.26%),第2区(11.95%),第1区(3.87%);b)批发和零售贸易、餐饮业分布排序为第2区(34.75%),第1区(28.17%),第3区(18.75%);c)社会服务业分布排序为第1区(30.48%),第2区(20.49%),第3区(13.31%);d)科学研究和综合技术服务业分布排序为第1区(24.58%),第2区(16.88%),第3区(9.39%).从以上行业分布可以看出交通发达,城镇化发展较快的地区,其社会服务业、科学研究和综合技术服务业发展较快,如社会服务业中第1区比第3区高出17.17%,科学研究和综合技术服务业第1区比第3区高出15.19%.而离城区较远,城镇化发展水平较慢的地区,相对地说制造业发展较快,如制造业第3区比第1区高出27.39%.2)3大区企业的经济性质分布 3大区各区经济性质平均百分比如图7所示.从图7可以看出,从海淀区3大区企业经济性质的分布是以私营有限责任公司为主,其次是其他有限责任公司,再次是国有企业、集体企业和股份合作企业.其中,国有企业在3个大区中分布基本相同,分别占3大区各区的平均百分比为:11.07%,12.53%,12.32%.分布规律为: a)私营有限责任公司分布排序依次为第1区(48.29%),第2区(39.86%),第3区(21.41%);b)其他有限责任公司分布排序依次为第1区(19.89%),第2区(14.57%),第3区(13.83%);c)集体企业分布排序依次为第3区(22.97%),第2区(10.73%),第1区(4.59%);d)股份合作企业分布排序依次为第3区(15.62%),第2区(10.18%),第1区(5.73%). 422 北京师范大学学报(自然科学版)第42卷 

图5 海淀区分层聚类3大区结果a.25类聚类结果;b.50类聚类结果.图6 海淀区3大区行业平均百分比比较 1.农、林、牧、渔业;2.采掘业;3.制造业;4.电力、煤气及水的生产和供应业;5.建筑业;6.地质勘查业、水利管理业;7.交通运输、仓储及邮电通信业;8.批发和零售贸易、餐饮业;9.金融、保险业;10.房地产业;11.社会服务业;12.卫生、体育和社会福利业;13.教育、文化艺术及广播电影电视业;14.科学研究和综合技术服务业;15.国家机关、政党机关和社会团体;16.其他行业.图7 海淀区3大区企业经济性质平均百分比比较 1.国有企业;2.集体企业;3.股份合作企业;4.国有联营企业;5.集体联营企业;6.国有与集体联营企业;7.其他联营企业;8.国有融资公司;9.其他有限责任公司;10.股份有限公司;11.私营独资企业;12.私营合伙企业;13.私营有限责任公司;14.私营股份有限公司;15.其他内资企业;16.合资经营企业(港、澳、台);17.合作经营企业(港、澳、台);18.港、澳、台商独资企业;19.港、澳、台投资股份有限公司;20.中外合资经营企业;21.中外合作经营企业;22.外资(独资)企业;23.外商投资服从有限公司.4 结论与讨论以北京市海淀区为例,利用空间聚类结合GIS分析方法对海淀区5万多个企事业单位的点分布图进行了深入研究,得出以下主要结论:1)采用空间DM中的空间聚类分析,将空间位置信息和属性特征相结合进行北京市企业空间分析研究十分有效.提出了先按空间位置聚类进行属性指标量化和聚类,既能反映点数据空间位置的邻近性,又反映出其属性特征的相似性.

相关主题