当前位置:文档之家› 多边形统计数据空间分析的不确定性研究

多边形统计数据空间分析的不确定性研究

第15卷第3期 2013年6月 地球信息科学学报 

JOURNAL OF GEO—INFORMATION SCIENCE v01.15.No.3 

Jun.,2013 

多边形统计数据空间分析的不确定性研究 以北京市海淀区人口普查数据为例 张小虎1,2,钟耳顺 ,王少华 ,张殉 ,张济 f1.中国科学院地理科学与资源研究所,北京100101;2.中国科学院大学,北京100049 3.国家林业局林产工业规划设计院,北京100714) 

摘要:普查数据是地理学空间分析的重要数据源。由于受到数据与计算机处理能力的限制,以往的研究对普查数 据空间分析的不确定性未给予足够重视,也未形成成熟的研究方法。在建筑物单元的人口普查数据支持下,本文 基于多边形统计数据的可塑面积单元问题(Modifiable arealunitproblem,MAUP)特征,设计了一种该类数据空间 分析不确定性的研究方法,采用不同的尺度(Scale)及分区(Zoning)系统对多边形的统计数据空间分析的准确性进 行了分析。实验引入尺度与形态指数,利用可视化分析和数据拟合的研究方法,对尺度及分区对空间分析结果的 影响模式进行了模拟。研究结果表明:(1)以统计小区的空间分析,其结果受统计小区空间形态的影响较大,不确 定性强,不能充分反映统计数据本身的空间特征;(2)规则格网能较好地保持原始统计数据的空间分布特征,但仍 然受尺度及分区影响;(3)规则格网的空间分析结果及其准确性与尺度有较好的拟合关系,不同尺度下的分析结果 不确定性是原始数据不同尺度特征的体现;(4)分区效应受空间分析方法的计算尺度影响,两者共同对空间分析结 果产生影响。对于固定尺度的规则格网,其邻接多边形数目是分析结果不确定的主要原因。本文研究结果表明, 在多边形统计数据空间分析时,应该对其使用规则格网重新聚合,并根据实际应用的需求选择多尺度分析方法,以 达到实际应用目的。 关键词:多边形统计数据;空间分析;不确定性;可塑面积单元问题 Dol:】0.3724/SPJ.】 .20】3..047 00369 

1引言 普查数据通常是以行政区为单元,通过普查、 抽样等方式逐级汇总得到的典型统计型数据n 。在 地理信息系统中,该数据一般是作为行政区多边形 对象的属性数据进行存储。因此,本文将该类统计 数据称为多边形统计数据,其在地理学及社会科学 研究中较易获得,可得到广泛使用。该类数据的空 间分析较好地揭示了研究对象的空间分布特征-z~1,可 服务于政府及企业的战略决策工作 。因此,对于 多边形统计数据空间分析的研究方法、评价手段及 应用模式的分析,具有重要的研究意义和科学价 值。本文以多边形统计数据空间分析的不确定性, 研究多边形统计数据的可塑面积单元问题效应对 空间分析结果的影响模式,从而对多边形统计数据 空间分析做出评价。 多边形数据空间分析通常以空间统计学为基 础,很大程度上与空间数据的描述与探索有关。由 于数据本身不满足经典统计学独立性的假设,许多 情况下,经典假设检验方法不适用多边形统计数据 空间分析f5]。经过多年的研究,多边形统计数据的 空间分析方法逐渐发展成为描述性、空间统计的两 大类核心分析方法 。这两类方法均依赖多边形的 距离、方向、形态特征、邻近关系等多边形自身的空 间特征。其中,描述性方法通常为对多边形的属性 数据表进行简单的单元统计,如总值、标准差、均值 等,及对属性数据的可视化直观表达。在空间统计 分析中,统计区(多边形)组成统计区集合P,P中每 个统计区P 具有统计指标 P的邻接矩阵 {W 表达了多边形之间的邻接关系。W =1表示统 

收稿日期:2012-07—10;修回日期:2012—12—24. 基金项目:国家科技支撑计划项目(2011BAHO6B03)。 作者简介:张小虎(1986一),男,江苏宝应人,博士生,研究方向为GIS软件技术与统计地理信息系统。 

E-mail:zhangxh@lreis.ac.cn 3期 张小虎等:多边形统计数据空间分析的不确定性研究 371 作的北京市海淀区建筑物空间单元统计数据作为 原始统计区集合。该数据在2010年全国第6次人 口普查中被修正完善,共包含107 864个建筑物多 边形。由于以建筑物为统计单元的人口数据可近 似作为人口统计的总体,因此,此数据构建的不同 格网区划人口数据使得探究可塑面积单元对多边 形统计数据空间分析不确定性的影响模式成为可 能。实验采用北京海淀区2010年l1月1日零时的 常住人口数作为人口统计指标,在107 864个建筑 中的常住人口为3 216 646人。值得注意的是,官方 发布的北京市海淀区常住人口统计数据为3 280 670 人[1 ,与实验数据有1.9%的差别,这主要是由于建 筑物数据库并未完善,一定量的人口与建筑物仍未 能关联,但该差异并不影响本文实验。 3.2实验方法 多边形空间分析的描述性指标和空间统计指 标均受可塑面积单元的影响。由于多边形数据 MAUP效应的基本机理并未有准确物理模型。本 实验采用了模拟研究的方法,即通过模拟可塑面积 单元问题的尺度、分区指数和部分空间分析分析指 标的关系,达到研究多边形统计数据空间分析不确 定性的目的(图2)。实验的基本步骤为:(1)以建筑 物单元的人口普查数据,对数据的谬误及奇异值进 行预处理修正;(2)构建形状一致尺度不同的正方 形格网体系及尺度一致形状不同的分区体系;(3) 构建不同格网区划,采用了面插值【 的方式对修正 后的人口统计数据重新聚合,形成格网区划人口统 计数据;(4)格网区划人口统计数据,以SuperMap 地理信息系统软件为平台,采用可视化分析与数据 拟合方法,研究尺度效应及分区效应对多边形统计 数据空间分析的影响模式。 3.2.1实验格网体系的建立 本文构建了两套格网体系分别探索尺度效应 和分区效应对多边形统计数据空间分析的影响模 式。针对尺度效应,实验采用了统一的规则正方形 格网控制分区效应的影响,并采用了5个不同尺度 (表1)。为了去除格网数据受边界问题的影响,实 验中的格网完全构建在海淀区行政边界内部。 针对分区效应,实验统一采用10 O00m:的尺度 单元,分别采用规则正方形格网结构,规则矩形格 网,规则三角网结构和北京市统计小区多边形①,研 究多边形形态特征与空间分析指标的关系(图3), 以此探讨分区效应的影响模式。 3.2.2多边形统计数据空间分析指标及不确定性评 价方法 实验选取了多边形统计数据空间分析的5个指 标,包括总值、均值、标准差、全局空间自相关系数 (Global Moran’S I)及空间聚类分析(Anselin Local Moran’S I,LISA)。其中,总值、均值、标准差是描述 

图2多边形统计数据空间分析的不确定性分析实验流程 Fig.2 Diagram ofresearch on uncertainty ofpolygon—based statistical data spatial analysis 

①北京市海淀区实际统计小区的尺度并非10 O00m ̄,实验中加入实际统计小区以更好说明实际应用状况 372 地球信息科学学报 2013年 100m lUl 200m 200m 

图3分区效应实验中采用的4种不同形状的格网(10 000m ) Fig.3 Four zoning systems(10 000m )applied in aggregation effect exploration 

表1尺度效应实验采用的5种不同尺度的规则格网 1 b.1 Five regular grid systems applied in scale effect exploration 

性指标,是对统计数据的概括性度量。全局空间自 相关系数和空问聚类分析是空间统计指标。空间 自相关系数Global Moran’S I定义如公式l所示。 

I= . ∑∑w (z ·z)(zj一 1 I 』 ∑∑w ∑(z 一 

i J i 其中, 是 的均值。Global Moran’S I反映的 是多边形统计数据的整体空间依赖程度,其置信度 依靠P值和z值检验 。P值显著且z值为正值表 示空间自相关性强,且Z值越大,空间自相关性越显 著。LISA的定义如公式2所示。 

I- 一 (2) u‘ J=1J≠i 

其中, 

∑ s = 1一 ‘ n(3) 

LISA的计算结果为多边形的局部集聚模式, 分别为高高集聚(HH)、低低集聚(LL)、高低集聚 (HL)及低高集聚(LH)。这些模式只是一个相对指 标,分析的精确性需要其z值得分来评价口”。 实验采用可视化分析和数据拟合两种方法研 

究可塑面积单元对指标不确定性的影响模式。这 里,可视化分析是指对不同格网区化的人口数据做 分级设色分析,直观上阐述了不同格网区划数据表 现能力和表现重点。对于尺度效应,实验中尺度以 规则格网的边长及面积来表征。采用多项式函数 拟合和幂函数拟合的方法展现尺度和空间分析指 标的数量关系,其拟合精度用拟合的均方误差 (MSE)来衡量。通过评价拟合精度阐述和评价尺 度效应对空间分析的不确定性模式。对于分区效 应,实验中使用多边形形态指数P(P=周长 /面积) 及邻接多边形数目N表征分区多边形的形态特 征。采用对比分析P、N和空间分析指标的方法阐 述分区效应带来的空间分析不确定性模式。 

3.3实验结果及分析 3.3.1尺度效应导致的不确定性 (1)尺度效应对数据的直观影响 海淀区人口分布(图4)呈现从市中心(东南)向 远郊区(西北)减少的规律,这一总体规律在lkm的 格网上表现尤为明显,而50m的格网对该信息的表 现最弱。50m的格网分辨率高,较好地展现了人口 分布的细节,但由于数据特征被碎化,使得全局信 息特点被掩盖;lkm格网可较好表现数据的总体特 征,但由于过量的均值过滤作用,数据局部信息被 弱化,从而导致部分原始数据信息丢失。这些直观 表现反映了尺度效应对统计数据的影响,不同尺度 展现了数据不同的空间特征信息。据此,可以推论 不同尺度的多边形数据空间分析的结论也不尽相 同。 (2)尺度效应对空间分析的影响模式 5种不同尺度规则格网化数据的总值、均值、标 准差及全局空间自相关系数(Global Moran’S I)计算 结果如表2所示。数据表明随着格网面积的增大,

相关主题