当前位置：文档之家› 空间统计分析方法

空间统计分析方法

《地理信息系统科研方法》课程
第5讲空间统计分析
授课人：王杰 Email: wangjie09@
安徽大学资源与环境工程学院
本讲内容
➢探索性空间统计分析 ➢地统计分析方法
空间统计分析
✓ 空间统计分析,即空间数据（spatial data）的统计分析，是现代计量地理学中一个快速发展的方向和领域。
✓ Geary 系数与Moran指数存在负相关关系。
Patrick A.P.Moran （1917-1988）
如果是位置（区域）的观测值，则该变量的全局Moran指
数I，用如下公式计算
n n
n
wij xi x x j x
I i1 j1
nn
n
wij xi x 2
i1 j1
i 1
❖ 1854年8月到9月英国伦敦霍乱流行时，当局始终找不到发病的原因，后来医生约翰·斯诺 (John Snow) 参与调查。
❖ 他在绘有霍乱流行地区所有道路、房屋、饮用水机井等内容的1： 6500比例尺地图上，标出了每个霍乱病死者的居住位置，得到了霍乱病死者居住分布图。
霍乱病死者居住分布图(John Snow, 1854)
第4象限代表了高观测值的区域单元被低值的区域所包围的空间联系形式。
2. 应用实例
中国大陆30个省级行政区人均GDP的空间关联分析。根据各省（直辖市、自治区）之间的邻接关系，采用二进制邻接权重矩阵，选取各省（直辖市、自治区）1998—2002年人均GDP的自然对数，依照公式计算全局Moran指数I，计算其检验的标准化统计量Z （I），结果如下表所示。
空间联系的局部指标（ local indicators of spatial association ，缩写为LISA）满足下列两个条件：
（1）每个区域单元的LISA，是描述该区域单元周围显著的相似值区域单元之间空间集聚程度的指标；
（2）所有区域单元LISA的总和与全局的空间联系指标成比例。
①简单的二进制邻接矩阵
1 当区域i和j相邻接
wij 0
其他
②基于距离的二进制空间权重矩阵
1 当区域i和j的距离小于d时
wij 0
其他
（二）全局空间自相关
全局空间自相关概括了在一个总的空间范围内空间依赖的程度。
✓ Moran指数和Geary系数是两个用来度量空间自相
关的全局指标。
✓ Moran指数反映的是空间邻接或空间邻近的区域单元属性值的相似程度。
年份 1998 1999 2000 2001 2002
I 0.5001 0.506 9 0.511 2 0.505 9 0.501 3
Z 4.503 5 4.555 1 4.597 8 4.553 2 4.532 6
P 0.000 0 0.000 0 0.000 0 0.000 0 0.000 0
从表中可以看出，在1998—2002年期间，中国大陆30 个省级行政区人均GDP的全局Moran指数均为正值；在正态分布假设之上，对Moran指数检验的结果也高度显著。这就是说，在1998—2002年期间，中国大陆30个省级行政区人均GDP存在着显著的、正的空间自相关，也就是说各省级行政区人均GDP水平的空间分布表现出相似值之间的空间集聚，其空间联系的特征是：较高人均GDP水平的省级行政区相对地趋于和较高人均GDP水平的省级行政区相邻，或者较低人均GDP水平的省级行政区相对地趋于和较低人均GDP水平的省级行政区相邻。
一. 探索性空间统计分析
➢基本原理与方法 ➢应用实例
探索性空间数据分析(ESDA)
ESDA是指利用统计学原理和图形图表相结合对空间信息的性质进行分析、鉴别，用以引导确定性模型的结构和解法。
ESDA与EDA区别在于它考虑了数据的空间特性，在方法上它将数据分解为一般趋势和叠加于其上的局部变化两部分。然后用一定的数学函数去拟合由样本点产生的经验变率函数，进行诸如克立格内插等空间操作。
Moran散点图
以（Wz，z）为坐标点的Moran散点图，常来研究局部的空间不稳定性，它对空间滞后因子Wz和z数据对进行了可视化的二维图示。
全局Moran指数，可以看作是Wz对于z的线性回归系数，对界外值以及对Moran指数具有强烈影响的区域单元，可通过标准回归来诊断出。
由于数据对（Wz，z）经过了标准化，因此界外值可易由 2－sigma规则可视化地识别出来。
性，且在不同的空间分辨率下呈现不同之相关程度； (2)地球只有一个，大多数空间问题仅有一组（空间分布不规
则的）观测值，而无重复观测数据。因此，空间现象的了解与描述是极为复杂的，而传统方法，尤其是建立在独立样本上的统计方法，不适合分析空间数据。
经典统计：独立性、随机性假设空间统计：自相关、依赖性、异质性
G
wij xi x j /
xi x j
ij
ij
❖ 对每一个区域单元的统计量为
Gi wij x j / x j
i
j
✓ 对统计量的检验与局部Moran指数相似，其检验值为
Z
(Gi
)
Gi E(Gi ) VAR(Gi )
✓ 显著的正值表示在该区域单元周围，高观测值的区域单元趋于空间集聚，而显著的负值表示低观测值的区域单元趋于空间集聚,与Moran指数只能发现相似值(正关联)或非相似性观测值(负关联)的空间集聚模式相比，具有能够探测出区域单元属于高值集聚还是低值集聚的空间分布模式。
✓ 空间统计分析，其核心就是认识与地理位置相关的数据间的空间依赖、空间关联或空间自相关，通过空间位置建立数据间的统计关系。
✓ 空间统计分析的任务，就是运用有关统计方法，建立空间统计模型，从凌乱的数据中挖掘空间自相关与空间变异规律。
空间统计 VS. 经典统计
空间数据分析与传统统计分析主要有两大差异： (1)空间数据间并非独立，而是在维空间中具有某种空间相关
东部的江苏、上海、浙江三省市的Z值在0.05的显著性水平下显著，天津的Z值在0.1的显著性水平下显著。而东部上海、江浙等发达省市趋于为一些相邻经济发展水平相对较高的省份所包围，东部发达地区的空间集聚分布特征也显现出来。
以（Wz,z）为坐标，进一步绘制Moran散点图
可以发现，多数省（直辖市、自治区）位于第1和第3象限内，为正的空间联系，属于低低集聚和高高集聚类型，而且位于第3象限内的低低集聚类型的省（直辖市、自治区）比位于第1象限内的高高集聚类型的省（直辖市、自治区）更多一些。
n
wij zi z j
i1 j1
n
z T Wz
S0
n
(xi x)2
S0
n
zi2
S0 zT z
i 1
i 1
Moran指数I的取值一般在[-1，1]之间,小于0表示负相关，等于0表示不相关，大于0表示正相关；
Geary系数C的取值一般在[0，2]之间，大于1表示负相关，等于1表示不相关，而小于1表示正相关。
1. 基本原理与方法
（一）空间权重矩阵
✓ 通常定义一个二元对称空间权重矩阵W，来表达n个位置的空间区域的邻近关系，其形式如下
w11 w12 w1n
W
w21
w22
w2
n
wn1
wn2
wnn
式中：Wij表示区域i与j的临近关系，它可以根据邻接标准或距离标准来度量。
两种最常用的确定空间权重矩阵的规则
FLG的一般性: 自然地理、人文地理、社会经济
空间自相关是普遍存在的，否则地理分析便没有多大意义。经典统计：独立
空间自相关的存在，使得经典统计学所要求的样本独立性假设不满足。
如果地理学从根本上值得研究，必然是因为地理现象在空间上的变化不是随机的。经典统计：随机
为什么要用空间统计
I i
j
(xi x)2
j
zT z
zi wij zj
j
i
式中：zi 和 z j是经过标准差标准化的观测值。
✓ 局部Moran指数检验的标准化统计量为
Z(Ii )
Ii E(Ii ) VAR(Ii )
G统计量
探测区域单元是属于高值集聚还是低值集聚的空间分布模式.
❖ 全局G统计量的计算公式为
LISA包括局部Moran指数（local Moran index）和局部Geary指数（local Geary index），下面重点介绍和讨论局部Moran指数。
✓ 局部Moran指数被定义为
I
i
(xi S2
x)
j
wij (x j x)
可进一步写成
n(xi x) wij (x j x) nzi wij z j
Moran散点图的4个象限，分别对应于区域单元与其邻居之间4种类型的局部空间联系形式：
第1象限代表了高观测值的区域单元被高值的区域所包围的空间联系形式；
第2象限代表了低观测值的区域单元被高值的区域所包围的空间联系形式；
第3象限代表了低观测值的区域单元被低值的区域所包围的空间联系形式；
上图进一步显示了30个省级行政区人均GDP局部集聚的空间结构。可以看出，从人均GDP水平相对地来看：
高值被高值包围的高高集聚省（直辖市）有：北京、天津、河南、安徽、湖北、江西、海南、广东、福建、浙江、山东、上海、江苏；
低值被低值包围的低低集聚省（自治区）有：黑龙江、内蒙古、新疆、吉林、甘肃、山西、陕西、青海、西藏、四川、云南、辽宁、贵州；
选取2001年我国30个省级行政区人均GDP数据，计算局部Gi统计量和局部Gi统计量的检验值Z(Gi)，并绘制统计地图如下。
检验结果表明，贵州、四川、云南西部3省的Z值在0.05的显著性水平下显著，重庆的Z值在0.1的显著性水平下显著，该4省市在空间上相连成片分布，而且从统计学意义上来说，与该区域相邻的省区，其人均GDP趋于为同样是人均GDP低值的省区所包围。由此形成人均GDP低值与低值的空间集聚，据此可认识到西部落后省区趋于空间集聚的分布特征。

e商务文档

空间统计分析方法

相关文档推荐：