。 。 1
实习序号和题目 空间分布模式与空间相关分析 实习人 专业及编号 实习目的: 熟悉和掌握Spatial Statistics Tools里的基本工具,对所给数据进行空间分析。
实习内容: 1.参考文献《多尺度人口增长的空间统计分析》,练习多距离L(d)、全局Moran’I与G*统计量分析,显著性检验的置信区间定义为90%; 2.对adabg00数据进行全局与局部的moran I与G统计量分析; 3.对deer数据进行基于距离的最近邻分析与L(d)分析;
实习数据: 1.省区.shp:中国各省分布图 2.各省第5次和第6次人口普查:各省人口普查数据 deer.shp:鹿场点分布图 3.adabg00.shp:爱达荷州阿达各街区2000年人口普查数据
基本原理: 空间分布的模式一般来说,有三种,分别是离散、随机、和聚合。离散的概念就是指观测的每个数据之间的差异程度,离散程度越大,差异性就越大。聚合与离散正好相反,表示在一定区域内的相关程度,就是聚合程度越大,相关性就越大。随机是纯粹的无模式,既不能从随机数据中获取结论,也发现不了规律和模式。 1.零假设(null hypothesis):指进行统计检验时预先建立的假设。在空间统计中,零假设指的就是空间位置在一定区域里面呈现完全随机(均匀)分布。在检验结果之前,先对这些结果假设一个数值区间,这个区间一般是符合某种概率分布的情况,如果真实结果偏离了设定的区间,就表示发生了小概率事件。这样原来的假设就不成立了。 。
。 2
如果计算结果落在-2到2之间,就表示假设是可以接受,但是不在这个范围内,就说明发生小概率事件了。有两种可能:1,假设有错误;2,出现了异常值。 2.z得分(Z scores)表示标准差的倍数 标准差:总体各单位标准值与其平均数离差平方的算术平均数的平方根”也就是“标准差能反映一个数据集的离散程度”。比如z得分是+2.5,得到的结果是标准差的正2.5倍,表示数据已经高度聚集。反之,如果是-2.5,那么就表示标准差的负2.5倍,就是高度离散的数据。 置信度:数据落在期望区间的可能性 在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。这个概率被称为置信水平。置信水平是指总体参数值落在样本统计值某一区内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。 3.在空间统计分析中,通过相关分析可以检测两种现象(统计量)的变化是否存在相关性,若所分析的统计量为不同观察对象的同一属性变量,则称之为自相关。而空间自相关反映的是一个区域单元上的某种地理现象或某一属性值与邻近区域单元上同一现象或属性值的相关程度,是一种检测与量化从多个标定点中取样值变异的空间依赖性的空间统计方法。当变量在空间上表现出一定的规律性,即不是随机分布则存在着空间自相关,空间自相关理论认为彼此之间距离越近的事物越相像。也就是说,空间自相关是针对同一个属性变量而言的。 4.空间自相关方法按功能大致分为两类:全域型自相关和区域型自相关。全域型自相关的功能在于描述某现象的整体分布状况,判断此现象在空间是否有聚集特性存在,但其并不能确切得指出聚集在哪些地区,若将全域型不同空间间隔的空间自相关统计量依序排列,可进一步得到空间自相关系数图,用于分析该现象在空间上是否有阶层性分布。区域型自相关能够推算出聚集地的范围。 5.最近邻分析 。 。 3
是根据每个要素与其最近邻要素之间的平均距离计算其最近邻指数。最近邻指数是平均观测距离和平均期望距离之比。如果小于1,则要素呈现空间聚集式;如果大于1,则要素呈现空间离散模式或竞争模式。最近邻分析并没有考虑到属性特征,只是根据空间位置。 6.Moran’s I 法 高的自相关性代表了空间现象聚集性的存在,空间自相关分析的主要功能在于同时可以处理数据的区位和属性。全域型 Moran’s I 计算方式是基于统计学相关系数的协方差关系推算出来的。I 值一定介于-1 到 1 之间,大于 0 为正相关,且值越大表示空间分布的相关性越大,即空间上聚集分布的现象越明显,反之,值越小代表空间分布相关性小,而当值趋于0 时,代表此时空间分布呈现随机分布的情形。 若 I 值大于 0,说明相邻地区拥有相似的数据属性,属性值高或低的地区都有聚集现象;若 I 小于 0,说明相邻地区属性差异大,数据空间分布呈现高地间隔分布的状态;若 I 趋近于 0,则相邻空间单元间相关低,某空间现象的高值或低值呈无规律的随机分布状态。若 I 值显著大于 I 的期望值(I 值为正值且显著),说明两点存在相似关系,若 I 值显著小于 I 的期望值(I 值为负值且显著),说明两点存在不相似关系。 区域空间自相关值累加之和即全域空间自相关 Moran’s I 值。 其对应的公式为:
7. 多距离空间聚类分析 (Ripley's K 函数) Ripley's K方法是一种点数据模式的分析方法,利用Ripley's K函数对点数据集进行不同距离的聚类程度分析。Ripley's K函数就是用来表明要素的质心的空间聚集或空间扩散的程度,以及在邻域大小发生变化时是如何变化的。原理:设定一个起算距离,还可以指定最终距离或者增量步长。计算的距离增加的时候,包含的相邻的要素自然就会原来越多,那么就可以针对不同的距离,去计算包含的数据的密度。当全部算完之后,把每个距离的密度进行一下算数平均,并且用这个平均密度,作为用于比较的标准密度值。然后用每个距离里面,包含的数据量的密度,来与标准密度值进行比较。大于标准密度,那么我们就认为这个距离上,数据处于聚类分布,而小于标准值的,我们就认为他处于离散分布。为了避免平均数带来的一些简单粗暴的计算,在研究空间分布的时候,更多是利用零假设的方式,来设定随机数进行分布,作为预期值。特定距离的 K 观测值大于 K 预期值,则与该距离(分析尺度)的随机分布相比,。 。 4
该分布的聚类程度更高。如果 K 观测值小于 K 预期值,则与该距离的随机分布相比,该分布的离散程度更高 多距离空间聚类分析工具返回的值以及含义如下:
应用到的基本工具 1.ArcToolbox—Spatial Statistics Tools—Average Patterns(分析模式)—Average Nearest Neighbor(平均最近邻) 2.ArcToolbox—Spatial Statistics Tools— Average Patterns—High/ Low Clustering (Getis- OrdGeneral G) 3.ArcToolbox—Spatial Statistics Tools—Average Patterns, Spatial Autocorrelation (Moran I) 4.ArcToolbox— Spatial Statistics Tools— Average Patterns—Multi-Distance Spatial Cluster Analysis (Ripleys K Function) 5. ArcToolbox— Spatial Statistics Tools— Mapping Clusters— Cluster and Outlier Analysis(Anselin Local Morans I) 。 。 5
6. ArcToolbox— Spatial Statistics Tools— Mapping Clusters— Hot Spot Analysis (Getis-Ord Gi*)
操作流程图(尽量为图解模型)
操作步骤(方法) 一、参考文献《多尺度人口增长的空间统计分析》,练习多距离L(d)、全局Moran’I与G*统计量分析,显著性检验的置信区间定义为90%
定义工作空间,对province数据添加投影,选择兰勃特投影
处理数据,将统计数据汇总连接到省区的shp文件;
空间分析 deer数据 adabg00数据 Province数据
L(d)统计 全局Moran’I G*统计量分析
全局Moran’I
G统计量分析 局部moran I L(d)分析
最近邻分析 。
。 6
右键点击“province”,采用Symbology/Quantities/Graduated colors来符号化“人口增长率”字段;观察分布格局; 分布格局为:西部部分地区的人口增长率要明显高于东部,如青海,西藏,新疆。北方地区主要是京津地区增长率较高,南方的上海和广东地区人口增长率高。由此可知,人口增长率最高的地方主要是发达的地区和贫困地区。发达地区由于人口迁入导致,而贫困地区是由于出生率高于死亡率导致。
提取质心点,求取点对之间的距离; 。
。 7
k(d)函数 先利用province计算点距离,最短为30734米,最长为2216312米 则步长为十, Beginning_Distance (起算距离)选择30000米, Distance_Increment (递增步长)选择220000米