研究生课程探索性空间数据分析杜世宏北京大学遥感与GIS研究所提纲一、地统计基础二、探索性数据分析•地统计(Geostatistics)又称地质统计,是在法国著名统计学家Matheron大量理论研究的基础上逐渐形成的一门新的统计学分支。
它是以区域化变量为基础,借助变异函数,研究既具有随机性又具有结构性,或空间相关性和依赖性的自然现象的一门科学。
凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性时,皆可应用地统计学的理论与方法。
•地统计学与经典统计学的共同之处在于:它们都是在大量采样的基础上,通过对样本属性值的频率分布或均值、方差关系及其相应规则的分析,确定其空间分布格局与相关关系。
但地统计学区别于经典统计学的最大特点是:地统计学既考虑到样本值的大小,又重视样本空间位置及样本间的距离,弥补了经典统计学忽略空间方位的缺陷。
•地统计分析理论基础包括前提假设、区域化变量、变异分析和空间估值。
• 1. 前提假设–⑴随机过程。
与经典统计学相同的是,地统计学也是在大量样本的基础上,通过分析样本间的规律,探索其分布规律,并进行预测。
地统计学认为研究区域中的所有样本值都是随机过程的结果,即所有样本值都不是相互独立的,它们是遵循一定的内在规律的。
因此地统计学就是要揭示这种内在规律,并进行预测。
–⑵正态分布。
在统计学分析中,假设大量样本是服从正态分布的,地统计学也不例外。
在获得数据后首先应对数据进行分析,若不符合正态分布的假设,应对数据进行变换,转为符合正态分布的形式,并尽量选取可逆的变换形式。
• 1. 前提假设–(3)平稳性。
对于统计学而言,重复的观点是其理论基础。
统计学认为,从大量重复的观察中可以进行预测和估计,并可以了解估计的变化性和不确定性。
–对于大部分的空间数据而言,平稳性的假设是合理的。
其中包括两种平稳性:•一是均值平稳,即假设均值是不变的并且与位置无关;•另一类是与协方差函数有关的二阶平稳和与半变异函数有关的内蕴平稳。
二阶平稳是假设具有相同距离和方向的任意两点的协方差是相同的,协方差只与这两点的值相关而与它们的位置无关。
内蕴平稳假设是指具有相同距离和方向的任意两点的方差(即变异函数)是相同的。
二阶平稳和内蕴平稳都是为了获得基本重复规律而作的基本假设,通过协方差函数和变异函数可以进行预测和估计预测结果的不确定性。
• 2.变异分析–(1)协方差函数协方差又称半方差,表示两随机变量之间的差异。
在概率论中,随机变量X与Y的协方差定义为:–借鉴上式,地统计学中的协方差函数可表示为:–其中,Z(x)为区域化随机变量,并满足二阶平稳假设,即随机变量Z(x)的空间分布规律不因位移而改变;h为两样本点空间分隔距)为Z(x)在空间点x i处的样本值;Z(x i+h)是Z(x)在x i处距离离;Z(xi偏离h的样本值[i=1,2,…,N(h)];N(h)是分隔距离为h时的样本点)和Z(x i+h)的样本平均数:对总数。
和分别为Z(xi• 2.变异分析–(2)变异函数。
半变异函数又称半变差函数、半变异矩,是地统计分析的特有函数。
区域化变量Z (x )在点x 和x +h 处的值Z (x )与Z (x +h )差的方差的一半称为区域化变量Z(x )的半变异函数,记为r(h ),2r(h )称为变异函数。
根据定义,有:)]()([21),(h x Z x Z Var h x +-=γ∑=+-=)(12)]()([)(21)(h N i i i h x Z x Z h N h γ• 3.变异分析–(3)变异分析。
半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数,是地理学相近相似定理定量量化。
• 3.变异分析–(3)变异分析。
•半变异值的变化随着距离的加大而增加,协方差随着距离的加大而减小。
这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现,当两事物彼此距离较小时,它们是相似的,因此协方差值较大,而半变异值较小;反之,协方差值较小,而半变异值较大。
此外,协方差函数和半变异函数随着距离的加大基本呈反向变化特征。
•它们对异常采样点具有很好的探测作用,在ArcGIS地统计分析模块中可以使用两者的任意一个,一般采用半变异函数。
在半变异曲线图中有两个非常重要的点:间隔为0时的点和半变异函数趋近平稳时的拐点,由这两个点产生四个相应的参数:块金值(Nugget)、变程(Range)、基台值(Sill)、偏基台值(Partial Sill)• 4. 空间估值–一个完整的统计分析过程,或者空间估值过程,一般为:•首先获取原始数据,检查、分析数据,找寻数据暗含的特点和规律,比如是否为正态分布、有没有趋势效应、各向异性等等;•然后选择合适的模型进行表面预测,这其中包括半变异模型的选择和预测模型的选择;•最后检验模型是否合理或几种模型进行对比。
–数据显示。
在GIS软件中显示待分析的数据。
–数据检查。
数据检查内容包括检验数据分布、寻找数据离群值、全局趋势分析、探测空间自相关及方向变异,以及多数据集协变分析。
–模型拟合。
基于对数据的认识,初步选择一个合适的模型创建表面。
全面的数据检查有助于选择出合适的模型。
–模型诊断。
评估模型的输出,了解所选模型对未知值的预测效果。
诊断的主要内容包括:①预测的准确性。
②模型的有效性。
–模型比较。
通过设置不同参数,或选择多个可选模型创建表面,对比分析那个模型更好。
地统计基础•数据分析包括探索阶段和证实阶段。
•探索性数据分析是在一组数据中寻求重要信息的过程,利用EDA技术,分析人员元须借助于先验的理论或假设,直接探索隐藏在数据中的关系、模式和趋势等,获得对问题的理解和相关知识。
•探索性数据分析首先分离出数据的模式和特点,再根据数据特点选择合适的模型。
探索性数据分析还可以用来揭示数据对于常见模型的意想不到的偏离。
探索性方法既要灵活适应数据的结构,也要对后续分析步骤揭露的模式灵活反应。
•与探索性分析有关的技术主要有:–数据可视化技术•单变量可视化–直方图–箱线图–Voronoi图–方差变异分析工具•多变量可视化–散点图–平行坐标图–QQPlot分布图–方差变异分析工具–图形交互式技术•箱线图就是数据分布特征直观简洁的表示方法。
箱线图与描述统计中的五数概括(最小值、下四分位数、中位数、上四分位数、最大值)密切相关,这些数值给出集中性、分散性、极端数据的分布情况。
• 1.中位数、分位数–设某地理数据集中某一变量的n个记录为:xl ,x2,…,x n–数据的数值从小到大排列为:x(1), x(2),…,x(n)–则最小值和最大值分别为•中位数(media,简写为M) 是从小到大排列的数据列中位于中间位置的数,用公式表示为:•中位数在统计上有着良好的性质:–以中位数为界将数据为两部分,其中大于和小于中位数的数据各占50%;–如果数据的分布是对称的,则中位数和均值、众数是一致的;–中位数更为显著的特性是它具有均值所不具有的稳健性,即不受或很少受异常值(最大值或最小值)的影响,因为中位数虽然表现为数值,但是其本质是数据排序的位置,虽然极大或极小数值的出现对于均值产生影响,但是很少影响排序的位置。
–中位数是一个重要的统计量,别是在探索性数据分析和建模中。
•极差(range,简写为R)是一个描述数据分散性的统计量:•分位数(quantile)是另一种利用数据的位序描述数据特征的统计量。
设p是介于0到1之间的一个数值,有0≤p≤1,有n个位序统计量,则p分位数定义为•[np]表示n×p的整数部分,x的下标是数据位序上的位置,x(np)表示该位序位置上的数值。
最常用的分位数是p=0.75和p=0.25,记为Q3、Ql,其含义是小于Q3和Ql的数据的个数分别占数据总数的75%和25%。
又分别称为上、下四分位数。
• 2.异常数据、极端数据–异常数据(outlier)是产生均值不稳健的原因,判别一个数据列中的数据是否为异常值,需要一个标准,探索性数据分析技术给出了一种简单的判别方法。
记A1、A3分别为异常数据的下、上截断点,则–即非异常数据的分布区间为–数据列中的数据如果大于上截断点或小于下截断点都是异常数据。
异常数据的分布区间分别为–在异常数据中还可进一步地分离出极端数据(extreme data)分布区间为• 3.箱线图(Boxplot)–箱线图也称箱须图(Box-whisker Plot),用于反映一组或多组连续型定量数据分布的中心位置和散布范围;–图中,矩形表示上、下四分位数之间的数据分布,中间的横线为中位数的位置,有时中位数的位置用小的方形符号“□”来表示;–从矩形的两端各画一条直线到非异常值的最大和最小数值点,这条线称为须线(whisker),在这一点各画一条和须线垂直的短画线表示非异常的最大和最小值的位置;–在最大、最小值之外的异常值用“○”表示,极端值则用星号“*”表示。
•直方图指对采样数据按一定的分级方案(等间隔分级、标准差分等)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。
直方图可以直观的反映采样数据分布特征、总体规律,可以用来检验数据分布和寻找数据离群值•直方图的一些基本统计量,包括:个数(Count)、最小值(Min)、最大值(Max)、平均值(Mean)、标准差(Std.Dev.)、峰度(Kurtosis)、偏态(Skewness)、1/4分位数(1-st Quartile)、中数(Median)、3/4分位数(3-rd Quartile),通过这些信息可以对数据有个初步的了解。
•四分位数(位置的度量):反映了数据的集中趋势(包括平均数、中位数),它们都可以用来表示数据的分布位置和一般水平。
–如果将N个数值由小至大排列,第N/4个数就是第一个四分位数,通常以Q1来表示;第2N/4个数就是第二个四分位数(Q2),即中位数;第3N/4个数就是第三个四分位数(Q3)。
四分位距即为:Q=Q3-Q1,它将极端的前1/4和后1/4去除,而利用第三个与第一个分位数的差距来表示分散情形,因此避免了极端值的影响。
但它需要将数据由小到大排序,且没有利用全部数据。
–中位数不受极端数值的影响,如果数据集的分布形状是左右对称的,则中位数等于平均数;当数据集的分布形状呈左偏或右偏,以中位数表示它们的集中趋势比算术平均数更合理。
•数据离散程度度量•平均数、中位数在反映总体一般数量水平的同时,也掩盖了总体中各单位的数量差异。
•只有这些统计量还不能充分说明一个数列中数值的分布情况和波动状态。
有时虽然两个数据集的平均数相等,但各数据分布在平均数左右的疏密程度却不相同,即它们的离散程度不一样,为了把一个数据集的离散程度表现出来,就需要研究离散度。