当前位置:文档之家› 空间数据分析分析解析

空间数据分析分析解析


不规则多边形表示场是经常使用的一种近似 技术,如Thiessen多边形. 提出及原理:荷兰气候学A· H· Thiessen提出
根据离散分布气象站的降雨量计算平均降雨量
的方法,即将所有相邻气象站连成三角形,作
这些三角形各边的垂直平分线,每个气象站周
围的若干垂直平分线便围成一个多边形。用这
个多边形内所包含的一个唯一气象站的降雨强
该值与真实零点之间的差值,因此数量关系的运算
受到限制,加减运算有效,乘除无效.
比率属性:数值与真实零点之间差异幅度的 度量,两个比率数值之间的加减乘除运算是有 效的,如100Kg人的重量是50Kg人的两倍.
空间广延量(面积)与空间强度量(密度).
此外还要注意数据的方向与周期. 空间数据的性质
空间数置上的数值,最常用的分位数:
p=0.75,p=0.25,分别记为 Q3 , Q1 ,其含义为
小于 Q3 , Q1 的数据的个数分别占数据总数的
75%和25%,因此也称为上,下四分位数. 2)极差 上下四分位数之间的差值为半极差(H):
H Q3 Q1 极差是度量数据分散性的指标.
归模型与空间自回归模型被提出,导致空间
计量经济学的出现.
20世纪90年代,空间分析的发展与 GIS的发展紧密结合在一起, GIS为空间分 析提供了广泛的数据源,空间分析集中体现 在以下4个方面:
1)GIS的数据革命极大地促进了空间分析
在众多领域的应用.
2)数据环境发生了巨大的变化,空间分析需
要的海量数据,迫切需要新一代的以数据为
连续场描述的是空间-时间框架下地理变
量的空间变化.
表示连续世界的空间数据模型都是某种程
度的近似,这些模型包括:规则(不规则)的空 间点,等值线,规则单元格,不规则三角网,及多 边形等.点模型与线模型不能完整地表示场, 因为所关心的地理变量的值只存在于特定的 点或线的位置上. 空间插值的方法将基于点或线的模型转 化为基于面的模型,如三角网,多边形.
并揭示了空间加权矩阵的本质.
1981年Ripley对空间点分布模式进行 了研究,提出了测度空间点模式的K函数方法,
OpenShaw对空间数据中的可塑面积单元
问题进行了深入研究,这对正确使用空间数 据及解释空间结果意义重大.
Anslin提出描述局部相关性的测度方
法与统计量,这一时期空间相关性的空间回
8)地理模型与决策支持 第2章 空间数据的性质 2.1地理世界的概念模型与数据模型 对现实世界进行高度抽象,概括其概念模型, 然后建立适应于计算机存储与表示的数据模型.
2.1.1地理世界的概念模型
1)离散实体
通过其独特的局部化特征相互区别,通过特
定属性的个体被识别,如建筑物,街道等.
离散对象观的重要特征是可以计数.
气候类型区的划分,很多专家意见不一. 2地理现象测度的不确定性 2.1物理测量误差(高山海拔测量)
2.2数字化误差
2.3不同来源数据集整合时的误差
3地理对象表示的不确定性
3.1栅格数据表示的不确定性
栅格数据将空间划分为等面积的单元格
(像素),一个单元格不完全是一个属性构成, 而包含了某几个属性,这样的单元格为混合 元,但一个单元格只能有一个值,这样混合元
复杂的建模分析.
ESDA技术是EDA的推广,空间数据存
在自相关性,使数据无法满足独立性假设.
1.1EDA 与可视化基本方法
包括两种类型:1)计算EDA,2)图形EDA技术
1.1.1箱线图
属性数据表不能反映总体特征,分布特征与
相互之间关系,需要通过统计方法集中反映数
据集中性,分散性,偏态性,异常性等.箱线图是
面积单元对分析结果的影响,1)尺度效应:
空间单元经聚合改变尺度大小时,空间数据的 统计分析结果也会发生变化,且不同聚合方案 得到不同的结果.2)划区效应:不同聚合方式
对分析结果的影响.
可塑性面积单元问题是由区域数量,规模, 形状对空间数据分析的影响.
P24有关两种效应的说明
MAUP对政治也有影响.
名义属性:是对地理实体的分类,地理对象的名称 对数字的名义属性进行运算没有任何意义.
是最好的例子,名义属性包括数字,文字,甚至颜色. 序数属性:序数属性的类型存在等级关系,序数属
性的算术运算也没有任何意义.如区域收入等级
划分.平均数无意义,中位数则有意义.
间距属性:一个值对另一个值的差异幅度,而不是
驱动的地理探索与建模工具,使分析处理过
程中多维复杂性不被忽略.
3)高性能计算机的出现,使复杂数据处理的
空间分析成为可能.
4)神经网络,遗传算法成为空间分析的范例
空间分析的研究内容 1)空间数据模型与地理世界的表示 2)探索性空间数据分析与可视化
3)空间数据的性质
4)空间数据分析的点模式方法 5)面数据的空间分析方法与空间回归模型 6)空间连续数据的分析方法 7)地图代数与栅格数据建模技术
中位数的本质是数据排列的位置,不受异常 值的影响,比均值稳定.
中位数反映数据的集中性,描述分散性的统
计量是极差:
R x( n) x(1)
分位数是另一种利用数据的位序描述数据 的统计量,设p是[0,1)之间的一个数,有n 个位序统计量,则p分位数为:
x([ np ]1), np不是整数 Qp 1 ( x( np ) x( np 1) ), np是整数 2
度来表示这个多边形区域内的降雨强度
泰森多边形的特性是:
1),每个泰森多边形内仅含有一个离散点数据; 3),位于泰森多边形边上的点到其两边的离
2),泰森多边形内的点到相应离散点的距离最近; 散点的距离相等
2.1.2 GIS空间数据模型---矢量与栅格 离散对象与连续场只考虑了地理现象的概念 或方式,不能以数字的形式表示地理数据. 1)栅格数据 栅格表示中,地理空间被划分成矩形单元格 矩阵,所有的地理变化通过对单元格赋予性质或
空间分析的概念与研究进展 1.空间分析的概念
4种相互联系的空间分析概念:空间数据操作,
空间数据分析,空间统计分析,空间建模. 1.1空间数据操作 主要应用于GIS中,包括缓冲区分析,距离, 路径,面积计算及空间查询 1.2空间数据分析
空间数据描述性与探索性分析技术与方法,
特别是对规模庞大的数据集,通过数据图形化
明确不确定性的类型,来源及产生机制对 提高空间数据质量,建立控制与修正机制意义 重大.
1.不确定性的类型
1.1空间不确定性 这种不确定性是由对象定义的主观性引起
的,如不清晰的边界,空间对象的属性具有主
观性.
1.2对象定义的不确定性
对象定义依赖于人为规定
1.3关系不确定性
生物量与测树因子的关系
1.4分区问题
若数据序列 x1 , x2 ,, xn 符合正台分布总 体 2 N (, ) ,则其总体的上下四分位数为:
r3 0.674 , r1 0.674
1空间依赖性与空间异质性 1.1空间依赖性
空间上距离相近事物的相似性比距离远的
事物的相似性大.其含义如下: 空间某一位置i,某变量的值与其邻近位置j 上的观测值有关,其形式为:
yi f ( y j ),i 1,2,, n; i j
假如地理现象是由一个过程及其表述的
环境定义,过程表示现象基本因素的变化,环
境表示现象的观测框架(空间与时间),空间
依赖性表示环境对过程的重要影响.
这样传统统计理论关于独立同分布的假
设是不成立的.
空间依赖性是通过空间自相关测度的,空
间自相关的指标多样,可分为全局测度与局 部测度.
全局测度给出研究区域整体的一个参数或指数
局部测度提供与数据观测点等量的参数或指数
1.2空间异质性
用多折线表示曲线.
矢量形式表示的区域:形成区域多边形顶点的 点被获取,此方法表示区域比栅格简单,因栅格 表示多边形需列出所有单元格. 2.1.3属性数据的测度
地理信息中的属性非常广泛,有的是自然或
环境的,有的是社会或经济的,区分属性信息
的测度类型很重要.
量测层次上将属性数据分为离散尺度或连 续尺度,定性的或定量的.
反映属性数据这些特征的常用方法.
1)中位数与分位数
某一变量的n个记录为: x1 , x2 ,, xn
数据的值从小到大进行排序
x(1) , x( 2) ,, x( n)
中位数是从小到大排列数据中位于中间位置
的数:
x n 1 , n为奇数 ( ) 2 M 1 , n为偶数 ( x n x n 1 ) ( ) ( ) 2 2 2
更详细的划分如下:
变量类型 点 线
空间表示
面 表示
案发地的 道路是否 环境保护 土地利用 名义(=) 分类 在修补 的功能区 类型 区域中城 城市中各 道路的等 土壤质量 序数( , ) 镇按收入 县的收入 级分类 等级 水平排序 水平 河流的平 城市中各 各城镇的 间距 均海拔高 县的产值 地表温度 产值份额 度 份额 连锁店销 道路.河流 区域的人 比率 降水量 售额 长度 均收入
维数是离散实体的显著特征,实体自然被 抽象为点(只有位置的0维实体),线(具有长 度属性的一维实体)和多边形(占据一定面积 的2维实体).
点,线与多边形的抽象与研究与空间尺度有
关,如大尺度时城市就是一个点,城市为研究对
象时就是一个多边形. 具有连续变化的自然现象不适合用离散对象 方法表示. 空间对象的几何形态与属性特征共同构成
地理信息的完整信息.属性特征常用表描述,表
的一行是一个离散实体,一列是对象一个属性.
离散对象也可以表示连续变化的场,如用 等高线表示地形的连续起伏,线的稀疏表示 空间变化的剃度.
2)连续场(标量场与矢量场)
相关主题