空间不确定性研究进展张勇(浙江师范大学地理与环境科学学院,浙江金华321004)摘要:GIS随着计算机技术的发展而出现,并正处于激烈的演化和发展状态。
文中介绍了GIS现状及发展趋势,以及由错误导致的拓扑关系的不确定性和GIS(空间数据、空间推理、空间查询、空间查询语言)的不确定性、拓扑关系理论的发展、GIS在21世纪的发展等问题。
关键词:地理信息系统(GIS);空间数据;拓扑学关系;不确定性;不一致性Advance of study in spatial uncertaintyZhang Yong( Zhejiang Normal University College of environment and sciences , Zhejiang Jinhua 321004) Abstract: The emergence of GIS keep pace with the development of computer technology,and be in the state of evolution and intense development. This paper describes the current situation and development of GIS trend, as well as the uncertainty caused by the error of topological relations and GIS (spatial data, spatial reasoning, spatial query, spatial query language) of uncertainty, development of topological relation theory, development and other issues of GIS in the 21 century.1绪论地理信息系统(GIS)是以采集、存储、管理、分析和描述整个和部分地球表面与空间和地理分布有关的空间信息系统。
GIS在采集和处理、分析中出现的数据范围很广,包括位置数据、属性数据、时域数据、逻辑关系等。
由于现实世界的复杂性和模糊性、人类表达能力的局限性,数据不可避免地含有误差,研究GIS的误差理论,直接关系到GIS产品的质量控制。
因此在GIS初步形成和产品化时,提出了数据质量中空间数据的不确定性理论,并被国际上列为20世纪90年代的重点基础理论课题之一。
所谓不确定性是指一种广义的误差,它包含数值和概念的误差,也包含可度量和不可度量误差。
数值误差总是可度量的,而概念误差一般难以度量。
测量误差被定义为观测值与真值之差,是数值上可度量的误差。
从这个意义看,不确定性表示的误差范围要广,故定义为广义误差。
尽管如此,不确定性理论中主要研究的对象仍是数值上可度量的误差,它是占主导地位的。
GIS质量控制的指标体系主要取决于这类误差的研究成果。
因此,在这一点上不确定性理论与测量误差理论没有根本区别,甚至两者是一致的。
2不确定性研究现状及研究进展2. 1研究的基础理论不确定性问题是非线性复杂问题。
除了经典误差理论、概率论、数理统计作为研究该问题的理论基础外,还需要寻找证据理论、模糊数学、空间统计学、嫡理论、云理论、信息论、人工智能等非线性科学理论的支持,随机几何学、分形几何学、神经网络、遥感信息模型等基于边缘学科的不确定性分析处理方法也逐渐受到重视。
下面简单介绍几个基本的不确定性研究理论基础。
(1)基于概率论及数理统计的不确定性研究。
这方面的理论主要有概率论、证据理论、空间统计学。
概率论主要用于处理由于随机误差而产生的不确定性。
证据理论也称Dempster-Shafer理论,是对传统概率论的一个扩展。
证据理论是概率论的更一般性表达,证据理论可以利用结合规则和两两比较的方法分析不确定性。
其最大弱项在于,不能就矛盾证据或不同假设之间具有的微弱支持问题提出解决办法。
(2)基于模糊集合、粗集理论的不确定性研究。
模糊数学以模糊集合为基础,用模糊可行区间表示数据非统计不确定度。
其优点在于算处理不确定性的能力,如土地分类中土壤渐变区域的处理、基于自然语言的空间查询等。
其弱点是没有严格证明的过程,它所处理的对象是可能性而不是概率。
因此,模糊数学常用于处理不确定性中的不准确性而非随机性,如两线状地物连接处的不确定性场模型中确定域与模糊域目标间拓扑空间关系的描述等。
粗集理论从集合论的观点出发,在给定论域中以知识足够与否作为实体分类的标准,并给出划分类型的精度。
粗集理论不排斥不确定性,力求按照实体的原形来研究实体,非常适合用于不确定影像分类、模糊边界划分、属性不确定性及评定属性的绝对不确定性和相对不确定性、简化属性依赖和属性表等。
(3)基于云理论、信息熵的不确定性研究。
云理论是一个分析不确定信息的新理论,包括云模型、不确定性推理和云变换3部分。
云在空间由系列云滴组成,具有期望值、熵和超熵3个数字特征。
以云理论为基础提出了云方法,它用期望值,熵和超熵这3个数字特征描述整个云团,实现定性和定量的转换,适用于空间关联规则的挖掘、空间数据库的不确定性查询及地理空间数据中模糊性和随机性为一体的属性不确定性问题。
熵是信息论中的一个基本概念,是用以度量信息源不确定性的惟一量,非常适合用来对测量结果的不确定度进行评定。
利用熵理论评定测量数据的不确定性方法主要有:①直接根据样本的信息熵计算测量值的不确定度,②由最大偏方法确定出样本的概率分布,再根据此概率分布计算测量结果的估计及其不确定度。
其优点是在小样本容量下能获得可靠的评定结果。
2. 2研究现状及进展刘文宝研究了GIS矢量数据中不确定性分析(测绘学报,2000)。
史文中分析了GIS数据之属性不确定性研究(中国图像图形学报,2001)张伟在其硕士论文中研究了高程数字模型的不确定性分析(西北大学2001)。
宋涛在其硕士论文中对矢量GIS模糊地理位置区域地理信息的不确定性分析(西南交通大学,2003)。
巫兆聪在其博士论文中分析粗集理论在遥感影像分类中的应用(武汉大学,2004)。
杜世宏《分析不确定性空间关系》一文中得到现有的精确空问关系表达基本上不能处理空问关系所固有的不确定性由于空间对象、人类对空问关系的认知、空问关系的处理等过程中充满了各种特征的不确定性,因而探讨空间关系表达和处理过程中的不确定性问题,对于空问关系在GIS中的应用有着重要的意义.(中国图像图形学报,2004)王培法,都金康,冯学智在《DEM不确定性影响评价中的填洼分析》一文研究发现,洼地对不同参数DEM不确定性影响评价作用不同,随着DEM不确定性的增大,洼地的影响也增大。
(地理与地理信息科学,2007)。
刘二永,汪云甲在《GIS 中网络最短路径的不确定性分析》一文中提出GIS中线段长度的误差模型推导出网络最短路径的不确定性模型据此模型可以求出最短路径的可信度和在给定的置信水平下的最短路径长度的置信区间。
(测绘通报,2009)。
周涛,陆惠玲,杨德仁,拓守恒在《“蛋黄”模型的拓展研究》一文中得到区域之问的拓扑关系在空间数据挖掘、图像数据挖掘、图像分析和GIS中占的地位日益突出。
本文在文献巨川给出的“蛋一黄”模型的基础上,进一步讨论了“蛋一黄”模型中的46种拓扑关系的内部逻辑关系,指出不能够反映空间目标之间拓扑关系的变化趋势,使得“蛋一黄”模型的空间推理能力受到限制,从而有效改善了“蛋满”模型的空间推理能力。
(武汉大学学报·信息科学版,2012)。
从当前研究的重点看,GIS数据不确定性研究主要集中在位置不确定性、属性不确定性等方面。
由于表达基本几何要素的数据是GIS数据的最为关键的部分,位置数据的不确定性又会引起属性数据的不确定性,因此对位置数据不确.定性的研究有着重要的理论意义和应用价值,有利于整个GIS数据的质量评定。
在矢量GIS空间数据中,点、线和面目标是它的基本要素。
因此,GIS空间数据的不确定性研究主要是研究点的定位不确定性和线元的定位不确定性以及面域的定位不确定性。
点位精度是测绘学科研究的重要内容,点位不确定性处理模型己经发展得比较完善,这包括利用误差传播定律来决定点的误差;描述点分布的模型即二维正态分布或简化的圆形正态分布模型;用误差椭圆来表示点坐标的准确度等。
在经典测绘科学中,对线要素和面要素的研究较为薄弱。
其中以线要素的研究最为关键,因为线元不仅是面域不确定性的基础,其本身也是GIS叠置分析、缓冲区分析和空间地址配对分析等的基本元素。
对面要素的研究很大程度上取决于对线要素的研究进展状况。
线要素常常分为2类:类型I线和类型II线。
类型I线是指现实世界中有明确点描述其位置的线,如道路中心线、地籍边界;类型II线是指现实世界中没有明确点描述其位置的线,如土壤边界、森林边界等。
目前,有些学者提出了3种用于描述线的位置不确定性的模型:ε-带、误差带和误差熵不确定带模型。
1982年Chrisman提出了度量线元位置不确定性的“ε-带”模型。
ε-带是一种定宽带,它是沿一条线或多边形边界线两侧具有定宽(ε)的带所构成。
ε带既可以表示该数字化线的误差带,又可以当作该线真实位置的概括范围,可作为判断数字化线段的质量指标。
如何合理定义ε值是应用ε带法的关键,很多情况下是根据经验人为选定的,带有主观性。
在ε-带模型的基础上,人们又进一步提出了误差带模型。
首先是Caspary 等提出了“e-带”模型;继而史文中、刘文宝基于随机过程理论提出了"G带”模型,G-带是更广泛意义上的误差带,能够准确表现线要素的非均匀性和各向异性;刘文宝等根据求解曲线族包络线原理,导出了“G带”边界线的解析表达式,并证出平面线位误差带“G-带”的边界线为连续闭合曲线;刘大杰等提出了改进后的“εm”模型;刘大杰等将平面直线的不确定性εm模型和ɛm模型推广到了三维空间直线;童小华等研究了平面圆曲线和一般曲线不确定性的模型和εm模型。
与ɛ带不同的是误差带在中间最窄而两端较宽,呈现出“两端大、中间小”的形状特点。
范爱民等利用误差熵确定了“ε带”的带宽,提出了误差嫡不确定带(H-带)模型,根据线元端点的误差嫡确定“ε带”的带宽;李大军等又考虑了线元上误差分布不均匀的特点,对“H-带”进行了发展,提出了以整个线元边缘概率分布的平均信息熵作为确定“ε-带”带宽的依据,建立了线元的平均墒不确定带模型。
误差不确定带模型在描述的精细程度方面不及“G-带”,但有利于系统地研究空间数据的不确定性。
另外,不确定性的可视化研究是进人90年代以后随着计算机技术的发展而兴起的,目前主要采用灰度方法、彩色加三维的方法,通过采用直观的二维、三维图形或其他灵活的形式,把抽象的空间数据不确定性的大小及分布转换为人的视觉可以直接感受的具体图形,以利于用户对数据质量的认识。