当前位置:文档之家› 12空间数据挖掘和知识发现

12空间数据挖掘和知识发现


由于数据获取技术、网络技术和计算机技术的发 展致使数据以几何级数增长。 数据处理方法的匮乏 。

以遥感数据为例:每年采集的数据量之大都以TB 计(据不完全的统计,SPOT有250TB;ESA有 400TB;NOAA有1000TB;…),而被应用的 数据仅占获取数据的10-15%。 院士之见

John Naisbett说:“我们已被信息所淹没, 但是却正在忍受缺乏知识的煎熬” 。 We are drowning in information,but starving for knowledge.
2 ER (I )
The tools in the spatial statistics toolbox use the randomization null hypothesis as the basis for statistical significance testing. The randomization null hypothesis postulates that the observed spatial pattern of your data represents one of many (n!) possible spatial arrangements. If you could pick up your data values and throw them down onto the features in your study area, you would have one possible spatial arrangement. The randomization null hypothesis states that if you could do this exercise (pick them up, throw them down) infinite times, most of the time you would produce a pattern that would not be markedly different from the observed pattern (your real data). Once in a while you might accidentally throw all of the highest values into the same corner of your study area, but the probabilities of doing that are small. The randomization null hypothesis states that your data is one of many, many, many possible versions of complete spatial randomness. The data values are fixed; only their spatial arrangement could vary.




电信和信用卡欺骗 贷款审批 药物研究 气象预报 金融领域 客户分类 网络入侵检测 故障检测与诊断等
数据挖掘和知识发现的应用范围
生物信息知识发现



DNA的碱基对数目达到30亿 3万到4万个基因 基因和基因组数据库( GenBank 包含了已 知的核算序列和蛋白质序列) 核算序列数据库(EMBL) 基因组数据库(GDB) 蛋白质数据库( PIR 、 PSD 、 SWISS - PROT )
模糊理论
人工智能
数据挖掘和 知识发现
可视化理论
决策理论
数据库理论
专业知识
1.5 数据挖掘和知识发现研究的方法

数据总结与泛化 聚类 分类 相关性分析 关联规则提取 偏差分析
1.6 数据挖掘应用的注意点

机械化 机理不清 所需的先验知识少 归纳方法
参考文献
Miller, H. J., and Han, J., 2001, Geographic Data Mining and knowledge discovery. (Taylor & Francis) 边肇祺,张学工. 模式识别. 北京:清华大 学出版社,2000.
数据挖掘应用
•基因序列
•信用卡 •储蓄卡
•基因表达谱
零售客户 •基因制药 人类基因 电信客户 ………... •存折 植物基因 银行客户 析 基因 分 •按揭 户 分 动物基因 证券客户 •借贷 数据 客 析 挖掘 特殊群体基因 保险客户 其他
•基因功能
1.4 数据挖掘和知识发现的理论基础
粗糙集
概率统计
1.1 数据挖掘和知识发现产生的背景
数据库技术的分支 (80年代后期和90年代早期)
1995年召开了第一届知 识发现与数据挖掘国际会 议(FU96’)
1998年成立的ACM-SIGKDD组织。专 业杂志为: Data Mining & Knowledge Discovery
飞速发展并形成了众多分支
1995年
1stInternational Conference on K nowledge Discovery and Data Mining, Montreal, Canada. 诞生了数据挖掘学科
1994年
6th the Canadian Conference on GIS, Ottawa, Canada. 李德仁首次提出Knowledge Discovery from GIS (KDG)
1989年
1st International Joint Conference on Artificial Intelligence, IJCAI, DETROIT, MICHIGAN. 首次出现KDD概念,标志着数据挖掘技术的诞生
2.1 什么是空间数据
空间数据是带有空间位置信息的数据.
空间数据挖掘的概念
数据预处理和变换
选取抽样
知识发现的过程
从信息到决策的认知过程
数据 数据挖掘 知识发现 信息
知识
决策分析 决策
1.3 数据挖掘和知识发现的 应用范围 商业应用
市场行销:数据库行销( Database Marketing ) 和货篮分析( Basket Analysis )。前者的任务 选择潜在的顾客以便向它们推销产品;后者的任 务是分析市场销售数据(如 POS 数据库)以识别 顾客的购买行为模式。(房地产案例)

数据挖掘是指从大量的、不完全的、有噪 声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。
空间数据挖掘是在空间数据库或空间数据 仓库的基础上,综合利用多门学科的理论 技术,从海量空间数据中挖掘事先未知潜 在有用最终可理解的可信新知识,揭示蕴 含在空间数据中的客观世界的本质规律内 在联系和发展趋势,实现知识的自动获取 ,提供技术决策与经营决策的依据。
PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.
1.2 数据挖掘和知识发现的含义

பைடு நூலகம்
Data Mining & Knowledge Discovery from database(DM & KDD) 数据挖掘和从数据库中发现知识。 与此类似的叫法: 知识抽取(information extraction); 信息发现(information discovery); 探索式数据分析(exploratory data analysis); 数据考古(data archeology);
2.3 空间数据的特点
1)海量的数据 2)空间属性之间的非线性关系 3)空间数据的尺度特征 4)空间信息的不确定性等 5)空间维数的增高
《GIS空间分析方法》 第十二讲
空间数据挖掘和知识发现
李润奎
2014.4.2
本讲的主要内容

数据挖掘含义及研究内容 空间数据挖掘与知识发现 空间聚类简介
1
空间数据挖掘和知识发现 的含义及研究内容
产生背景 含义 应用范围 理论基础 研究任务 应用的注意点

1.1 数据挖掘和知识发现的产 生的背景

金融投资:金融分析领域有投资评估和股票交易 市场预测 欺诈甄别:银行或商业上经常发生诈骗行为,如 恶性透支、洗钱等。

数据挖掘和知识发现的应用范围
Web挖掘(Web Mining)

在搜索引擎(Search Engine)上对文档进 行自动分类、帮助寻找用户感兴趣的新闻 以及利用数据挖掘设计一个电子新闻过滤 系统,它利用文本学习建立起该用户的趣 向模型。 Google Trend 和疾病爆发等( Science 论 文)


2 什么是空间数据挖掘
什么是空间数据和空间数据挖掘? 空间数据从哪里来? 空间数据的特点。 空间数据挖掘的特点。 空间数据挖掘的研究思路。 空间数据挖掘研究理论结构。 空间数据挖掘和知识发现的研究任务。

空间数据挖掘的发展
李德仁将KDG进一步发展为空间 数据挖掘和知识发现 (Spatial Data Mining and Knowledge Discovery)
数据挖掘概念

数据挖掘--从大量数据中寻找其规律的技 术,是统计学、数据库技术和人工智能技 术的综合; 数据挖掘是从数据中自动地抽取模式、关 联、变化、异常和有意义的结构; 数据挖掘大部分的价值在于利用数据挖掘 技术改善预测模型。


数据挖掘与KDD
数据挖掘和知识发现的区别
结果解释和评估
数据挖掘

空间数据挖掘和知识发现

空间数据挖掘和知识发现就是从空间数据库中 抽取和发现新的空间信息,并通过解释评价, 产生知识的过程。 其应用范围包括:“数字地球”的战略目标; 地球物理和地球化学异常的发现;遥感图象的 分类、识别等等。
相关主题