研究生课程空间点模式分析杜世宏北京大学遥感与GIS研究所提纲一、点模式空间分析概念二、点模式空间分析方法三、基于密度的点模式分析四、基于距离的点模式分析空间点模式分析概念•在地图上,居民点、商店、旅游景点、流行病、犯罪现场等都表现为点的特征,有些是具体的地理实体对象,有些则是曾经发生的事件的地点。
•这些离散地理对象或事件(点)的空间分布模式对于城市规划、服务设施布局、商业选址、流行病的控制等具有重要的作用。
•根据地理实体或事件的空间位置研究其分布模式的方法称为空间点模式,这是一类重要的空间分析方法。
森林中树木位置的分布鸟巢位置的分布学校位置的分布•点模式是研究区域R内的一系列点[S1=(X1,Y 1),S2=(X2,Y2),…,S n=(x n,y n)]的组合,其中Si 是第i个观测事件的空间位置。
研究区域R的形状可以是矩形,也可以是复杂的多边形区域。
•图4.1是点在研究区域中的各种分布模式。
•在研究区域中,虽然点在空间上的分布千变万化,但是不会超出从均匀到集中的模式。
因此一般将点模式区分为3 种基本类型:–聚集分布–随机分布–均匀分布•对于区域内分布的点集对象或事件,分布模式的基本问题是:这些对象或事件的分布是随机的、均匀的,还是聚集的?•研究分布的模式对于探索导致这一分布模式形成的原因非常重要。
如果这些点对象存在类型之分,或者随时间产生变化,那么还需要深入研究的问题是一类点对象的分布模式是否依赖于另外一类点对象的分布模式,或者前期的点模式是否对后期的点模式产生影响。
•例如在一个城市区域中大型商业网点的空间分布模式是否显著地影响了餐饮网点的分布,这是所谓的二元空间点模式问题。
•从统计学的角度,地理现象或事件出现在空间任意位置都是有可能的。
如果没有某种力量或者机制来“安排”事件的出现,那么分布模式可能是随机分布的,否则将以规则或者聚集的模式出现。
•若点模式为规则或聚集模式,则说明地理世界中的事物可能存在某种联系。
•一种现象的分布模式是否对另一种现象的分布模式产生影响也是点模式需要解决的重要问题。
•空间点模式的研究一般是基于所有观测点事件在地图上的分布,也可以是样本点的模式。
•由于点模式关心的是空间点分布的聚集性和分散性问题,所以形成了两类点模式的分析方法:–第一类是以聚集性为基础的基于密度的方法,它用点的密度或频率分布的各种特征研究点分布的空间模式;–第二类是以分散性为基础的基于距离的技术,它通过测度最近邻点的距离分析占的空间分布模式。
•第一类分析方法主要有样方计数法和核函数方法两种;第二类方法主要有最近邻距离法,包括最近邻指数(NNI、G-函数、F-函数、K-函数方法等。
•对点模式的空间分析,应注意空间依赖性对分布模式真实特征的影响。
空间依赖性所产生的空间效应可能是大尺度的趋势,也可能是局部效应。
–大尺度趋势称为一阶效应,它描述某个参数均值的总体变化性;–局部效应也称为二阶效应,它是由空间依赖性所产生的,表达的是近邻的值相互趋同的倾向,通过其对于均值的偏差计算获得,例如传染病的空间过程需要二阶效应描述。
•点模式分析:–要从全局上揭示事件的分布是随机的、聚集的,还是规则的模式–还要描述尺度相关的分布模式,描述两类事件分布模式的关系及其随时间的演化–从全局角度研究空间点模式主要基于一阶性质的测度,可根据过程的密度即单位面积上平均的事件数量定量地描述。
–空间依赖性对于点模式的影响可通过二阶性质测度,采用点和点之间距离的关系描述。
•一阶效应一般用点过程密度λ(S)描述,指在点S处单位面积内事件的平均数目(P.J.Diggle,1983)。
用数学极限公式可定义为–ds是指在点S周围一个足够小的邻域;E表示数学期望;Y(ds)是ds内事件的数目。
•点模式的一阶效应有两种分析方法:–样方计数法–核密度方法•样方计数法首先将研究区域划分为面积相等的子区域,即样方,并根据每一个样方中的事件数量来计算和概括统计量,然后将计数值除样方的面积得到点分布的密度。
•样方计数方法给出的是空间点的密度变化,缺点是将信息聚集到面积单元中,引起信息的损失。
•核密度估计是使用原始的点位置产生光滑的密度直方图的方法。
•二阶效应通过研究区域中两个足够小的子区域内事件数目之间的相互关系来描述。
用数学极限公式可表示为•dsi和dsj分别表示si 和sj周围足够小的邻;E表示数学期望;Y(dsi)、Y(dsj)分别指dsi和dsj两个小区域内的事件个数。
•点模式的二阶性质通过点之间的距离进行研究,如最近邻距离。
•最近邻距离的估计有两种技术,即随机选择的事件与其最近邻之间的距离或随机选择的空间上的位置与最近邻的事件之间的距离。
•空间依赖性可通过可视的方式检查近邻事件距离的概率分布。
–聚集事件通常在低值端表现出陡峭的部分,而规则分布则在高值区域具有陡峭的曲线形式。
–K-函数允许考虑的不仅是最近邻的事件,还依赖于过程是各向同性的基本假设。
•完全随机模式与点模式分析•空间点模式分析技术的目的是解释观测的点模式,分析过程包括:–基于一阶或二阶性质的计算分析–建立完全随机模式(CSR)–比较或显著性检验3个步骤–CSR是建模中的一个关键过程•随机空间点模式遵循同质泊松过程,即研究区域中的每一个事件是以等概率发生在区域的任意位置上的,并且独立于空间位置和其他的事件。
因此完全随机过程是不存在一阶或二阶效应的。
•通过随机模式比较就能评价点过程是均匀的、聚集的还是随机的。
用于检验过程是否是CSR的方法有很多,包括χ2检验、K-S检验,以及蒙特卡罗检验等方法。
• 1. 样方分析的思想•样方分析(Quadrat analysis,QA)是研究空间点模式的最常用的方法。
•基本思想是通过点分布密度的变化来探索空间分布模式:–用随机分布模式作为理论上的标准分布;–将QA计算的点密度和理论分布作比较,判断点模式属于聚集分布、均匀分布,还是随机分布。
•QA的计算过程:–首先,将研究的区域划分为规则的正方形网格区域。
–其次,统计落人每一个网格中点的数量。
由于点在空间上分布的疏密性,有的网格中点的数量多,有的网格中点的数量少,还有的网格中点的数量为零。
–再次,统计出包含不同数量的点的网格数量的频率分布。
–最后,将观测得到的频率分布和已知的频率分布或理论上的随机分布(如泊松分布)作比较,判断点模式的类型。
• 2. 样方分析的方法•QA中对分布模式的判别产生影响的因素有:样方的形状,采样的方式,样方的起点、方向、大小等,这些因素会影响到点的观测频次和分布。
•QA分析中样方的形状一般采用正方形的网格覆盖,但也可定义其它样方形状,如圆形、正六边形等。
•不管采用何种形状的样方,形状和大小必须一致,以避免在空间上的采样不均匀。
•由于QA估计的点密度随着空间而变化,保持采样间隔的一致性非常重要。
•除规则网格外,采用固定尺寸的随机网格也能够得到同样的效果。
•样方方法分析空间点模式时,样方的尺寸选择对计算结果会产生很大的影响。
•对于上图(b)和(c)两种不同尺寸的网格,可能导致不同的分析结论。
•根据Greig-Smith于1962年的试验以及Tylor和Griffith、Amrhein的研究,最优的样方尺寸可根据区域的面积和分布于其中的点的数量确定:•Q是样方的尺寸(面积);A为研究区域的面积;n是研究区域中点的数量。
这就是说最优样方的边长取。
2A/n•当样方的尺寸确定后,利用这一尺寸建立样方网格覆盖研究区域,统计落入每一个样方中的点的数量,统计包含0,1,2,3,…,个点的样方的数量,建立其频率分布。
•根据观测得到的频率分布和已知点模式的频率分布的比较,判断点分布的空间模式。
•观测的频率分布与己知频率分布之间差异的显著性是推断空间模式的基础,通常采用Kolmogorov-Simirnov检验(简写为K-S检验)。
•用80个样方计算美国俄亥俄州的164个城市的分布模式。
城市作为点实体。
QA计算的各种模式下不同数量城市的样方的频率分布• 3. 样方分析中点模式的显著性检验•通过实际的城市分布观测频数和均匀分布与聚集分布两种模式的比较,不难看出:实际的分布模式比均匀模式更为聚集,而比聚集模式更为均匀。
•但是到底属于何种模式还需要定量化地计算频率分布的差异才能得出结论。
常用的检验方法包括:根据频率分布比较的K-S检验,根据方差均值比的χ2检验。
•1) K-S检验–K-S检验的基本原理是通过比较观测频率分布和某一“标准”的频率分布,确定观测分布模式的显著性。
首先假设两个频率分布十分相似。
如果两个频率分布的差异非常小,那么这种差异的出现存在偶然性;而如果差异大,偶然发生的可能性就小。
•(1)假设两个频率分布之间不存在显著性的差异。
•(2)给定一个显著性水平α,例如100次试验中只有5次出现的机会,则α=0.05。
•(3)计算两个频率分布的累积频率分布。
•(4)计算K-S检验的D统计量,即•(5)计算作为比较基础的门限值,即–如果是两个样本模式比较,则•(6)如果计算得出的D值大于Dα=0.05这一域值,可得出两个分布的差异在统计意义上是显著的。
•因为本例是观测模式和均匀模式两个样本模式之间的比较,于是有•显然D的观测数值要大于D的阔值,表明两个分布之间在α=0.05的水平上差异显著。
即俄亥俄州的城市分布模式和规则分布之间差异显著。
•在排除了均匀分布模式的基础上,我们还需要进一步分析模式是否来自于随机过程产生的点模式。
•随机分布的点模式通过泊松过程产生。
泊松分布的数学公式是•泊松分布的含义为,当事件x取值k时的概率分布。
在样方分析中含义为,当研究区域中有n个随机分布的点时,恰好有1,2,…,k,…,n个点落入一个样方中的概率。
λ=n/m,指平均每个样方中包含的点的数量。
•为简化泊松分布的概率计算,先给出x=0时的概率,然后给出概率计算的递推表达式:e=2.71828182845904•到x=k时的递推公式:•用K-S检验方法对泊松分布计算的概率分布和俄亥俄州的城市分布进行比较,推断城市分布的空间模式。
泊松分布的参数λ= n/m=164/80=2.05。
从表中的数据得到统计量D=0.3213;而阈值。
•显然原始假设被拒绝,城市的分布模式在统计意义上不同于随机分布。
观测模式和随机模式的比较• 4. 样方计数存在的问题–理论上我们可以将观测点模式和任何已知特征的点模式作比较。
例如,首先将观测点模式和随机分布模式作比较,当二者差异显著时,进一步将观测的点模式和聚集分布模式或均匀模式相比较。
–通常先采用视觉观察的方法,假设点的分布模式和哪一种特征分布相似,然后进行统计量的计算和检验。
–样方技术存在一定的限制,样方方法只能获得点在样方内的信息,不能获取关于样方内点之间的信息,其结果是样方分析不能充分地区分点分布模式。