当前位置:文档之家› 空间数据挖掘工具浅谈_汤海鹏

空间数据挖掘工具浅谈_汤海鹏

第28卷第3期2005年6月测绘与空间地理信息G E O M A T I C S &S P A T I A LI N F O R M A T I O NT E C H N O L O G YV o l .28,N o .3J u n .,2005收稿日期:2004-09-14基金项目:国家重点基础研究发展规划(973)资助项目(2001C B 309404)作者简介:汤海鹏(1979-),男,湖南沅江人,本科,主要从事信息化管理和信息化建设等方面的研究。

空间数据挖掘工具浅谈汤海鹏1,毛克彪2,3,覃志豪2,吴 毅4(1.公安部出入境管理局技术处,北京100741;2.中国农业科学院自然资源与农业区划研究所农业遥感实验室,北京100081;3.中国科学院遥感所,北京100101;4.黑龙江乌苏里江制药有限公司,黑龙江哈尔滨150060)摘要:数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。

空间数据挖掘有十分广阔的应用范围和市场前景,目前已出现大量的数据挖掘工具用于企业决策、科学分析等各个领域。

文中对2个数据挖掘工具进行讨论,介绍它们的功能、所使用的技术以及如何使用它们来进行数据挖掘。

关键词:数据挖掘;空间数据挖掘;数据立方体;知识库引擎中图分类号:P 208 文献标识码:A 文章编号:1672-5867(2005)03-0004-02AS u r v e y o f D a t a Mi n i n g T o o l sT A N GH a i -p e n g 1,M A OK e -b i a o 2,3,Q I NZ h i -h a o 2,W UY i4(1.B u r e a uo f E x i t a n dE n t r y A d m i n i s t r a t i o n ,M i n i s t r y o f P u b l i c S e c u r i t y ,B e i j i n g 100741,C h i n a ;2.T h e K e y L a b o r a t o r y o f R e m o t e S e n s i n g a n d D i g i t a l A g r i c u l t u r e ,C h i n a A c a d e m y o f A g r i c u l t u r e R e m o t e S e n s i n g L a b o r a t o r y ,B e i j i n g 100081,C h i n a ;3.I n s t i t u t eo f R e m o t e S e n s i n g A p p l i c a t i o n s ,C h i n e s e A c a d e m y o f S c i e n c e s ,B e i j i n g 100101,C h i n a ;4.H e i l o n g j i a n g Wu s u l i j i a n g P h a r m a c e u t i c a l C o .L t d .,H a r b i n 150060,C h i n a )A b s t r a c t :B e c a u s e o f c o m m e r c i a l d e m a n d s a n dr e s e a r c hi n t e r e s t ,a l l k i n d s o f s p a t i a l d a t a m i n i n g s o f t w a r e t o o l s e m e r g e .I n o r d e r t o g e t u s e o f t h e d a t a m i n i n g t o o l s ,t w o o f t h e ma r e i n t r o d u c e d i n t h i s p a p e r a n d m a k e p r o s p e c t o f i n t e g r a t i o n o f G I S ,R S ,G P S a n d d a t a m i n -i n g .K e yw o r d s :d a t a m i n i n g ;s p a t i a l d a t a m i n i n g ;d a t a c u b e ;d a t a b a s e e n g i n e0 引 言随着数据获取手段(特别是对地观测技术)及数据库技术的快速发展,科研机构、政府部门在过去的若干年里都积累了大量的数据,而且,目前这些数据仍保持迅猛的增长势头。

如此大量的数据已远远超过传统的人工处理能力,怎样从大量数据中自动、快速、有效地提取模式和发现知识显得越来越重要。

数据挖掘与知识发现作为一个新的研究领域和新的技术正方兴未艾,用于从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式[1~2],很好地满足了海量数据处理的需要。

具体应用中,数据挖掘工具很多。

它们在功能和方法等方面差别很大。

如何选择适合具体挖掘需求的工具,是进行挖掘工作必须考察的前提。

选择某一工具时,应考虑数据类型,主要是考察工具能处理的数据:①关系数据库的数据。

包括数据仓库数据、文本文档、空间数据、多媒体数据、W e b 数据等;②功能和方法。

数据挖掘功能是数据挖掘工具(或系统)的核心,一些数据挖掘工具仅提供一种功能(如分类),另一些工具可能支持另外的挖掘功能(如描述、关联、分类、预测和聚类等);③其他考虑的方面如:系统问题、数据源、可伸缩性、可视化、数据挖掘查询语言和图形用户接口、工具和数据库或数据仓库系统等。

在众多的数据中,有近80%的数据可以通过空间关系表达。

现在,通过卫星扫描地球,每天都能获得大量的关于地表的遥感图像。

要从大量的数据中判读出每一个图片所潜藏的信息,就必然要用到数据挖掘技术。

本文将通过介绍专业的航空遥感图像处理系统E r d a s 和D B -M i n e r 来阐述处理空间数据和关系数据的这一过程及这2种软件的特点。

1E r d a sE r d a s是由E R D A S等公司开发的专用于遥感图像处理的一个系统。

整个软件由不同的模块构成。

常用的几个模块有:V i e w e r、I m p o r t、D a t a P r e p、C o m p o s e r、I n t e r p r e t e r、C a t a l o g、C l a s s i f i e r、M o d e l e r、V e c t o r、R a d a r、V i r t u a l G I S。

分类模块中提供了几个具有数理统计的功能,可用于数据挖掘。

提供的主要功能有:非监督分类、监督分类、知识分类、知识引擎等。

1.1非监督分类和监督分类非监督分类和监督分类的目标是一致的,即把不同类型的地物分离开来。

它们的区别在于非监督分类不需要先验知识,而监督分类需要先验知识。

因此监督分类的精度一般比非监督分类要高,但非监督分类能检测出非目标信息。

非监督分类中方法很多,这里主要介绍I S O D A T A算法。

I S O D A T A聚类方法使用最小空间距离公式构造一个聚类。

第一次聚类时,利用初始值将空间的点分成几类。

然后再以每类的中心为参考点计算离差比较各方差大小。

每计算一次,聚类的中心都会改变。

这样迭代循环,直到得到一个满意的解为止,即聚类中心不再改变。

监督分类的判别规则有2种:无变量和有变量。

无变量表识,有特征空间,平行六面体判别等方法;有变量表识,提供了最大似然距离法、最小距离法等判别方法等。

它在方法上跟非监督分类基本上没什么差别,但是需要先验知识。

1.2知识分类和知识库引擎知识分类是一个基于知识库和知识引擎完成分类的过程。

知识库引擎提供了一个人机交互的界面。

这个界面包含了知识树浏览、规则和变量表以及主要知识库和编辑窗口。

在拥有数据和应用背景知识的情况下,通过这个界面建立模型,来得到所需要的结果。

这个模块大大方便了用户,使得用户能在短时间内建立起自己的模型和进行应用分析。

2D B Mi n e r数据挖掘功能[4]D B M i n e r是加拿大S i m o n F r a s e r大学数据库科研实验室下的数据挖掘科研小组开发的一个多任务数据挖掘系统。

该系统设计的目的是基于关系数据库进行数据开采,以面向属性的多级概念为基础发现各种知识。

这里主要介绍关联模式、分类模式和聚类模式。

2.1关联模式关联模式主要是用于发现不同属性(维)间的关联规则。

例如属性A、B,该规则通常这样表示:A1A2…A n->B1B2…B n。

其中A i,B i表示属性值。

当A1,A2,…, A n发生的时候,B1,B2,…,B n常同时发生。

这就可以认为属性A,B间有这样一条规则:A※B。

评价规则的可信度主要有2种:支持度(s u p p o r t)和可信度(c o n f i d e n c e)。

支持度可理解为A1,A2,…,A n发生的概率;可信度则相当于A1,A2,…,A n发生下,B1,B2,…,B n发生的条件概率。

这2种度量决定了用户对该规则的兴趣度。

用户在执行挖掘任务前,需要指定这2个值的范围,以限制什么样的规则是用户感兴趣的。

一个挖掘过程结束后,D B M i-n e r先用表格的形式显示所发现的规则。

用户可以根据需要,得到多种视图。

例如:3D B a l l G r a g h V i e w,3DB a r C h a r t V i e w,F r e q u e n t I t e m s e t V i e w可以使用户很直观地看到关联规则。

另外用户也可以通过点击具体的图形来获得需要的数据信息。

2.2分类模式分类模式是在已有数据的基础上用一个分类函数或构造一个分类模型。

该函数或模型能把数据库中的记录映射到给定类别中的某一个。

构造分类需要有一个训练样本数据集作为输入,数据记录中用于分类的属性称作标签,也就是训练集的特别标记。

标签的类型必须是离散的,且分类值越少越好。

分类规则产生后,可以用它对数据集中不包含标签属性的记录进行分类,标签属性的值也可以用它来预测。

通常分类的5个步骤是:第一是搜集数据。

并将其分为训练样本数据集和测试数据集2组。

第二是相关分析。

对属性与目标相关度分析,与分类目标相关度高的在分类分析中将被保留,而相关度不高的或不相关的属性将被丢弃。

相关主题