当前位置:
文档之家› 7空间数据挖掘与可视化(完)
7空间数据挖掘与可视化(完)
Semantic network
2)可视化的三种情形
知识结果可视化
知识状态可视化
动态标量场 f : (x, y, t) R
知识过程可视化
3)三种空间知识的可视化
Knowing what可视化
Knowing why可视化
Knowing how可视化
4)挖掘的知识可视化
不同地区人们眼中的空间特征的地图可视化表达
统计学方法
方 法 分 类 模式识别方法 具 体 方 法
机器学习方法
数据库方法
基于模型的方法 基于密度的方法 基于划分的方法 基于层次的方法 基于网格的方法 混合方法
2.3 空间关联规则挖掘聚类挖掘
确定性关联规则挖掘 量化关联规则挖掘 增量式关联规则挖掘 模糊关联规则挖掘 广义关联规则挖掘
基 本 研 究 内 容
3.4 空间关联规则挖掘方法
基于聚类的图层覆盖法 将各个空间或非空间属性作为一个图层,对每个图层上的数据点 进行聚类,然后对聚类产生的空间紧凑区进行关联规则挖掘。 基于空间事务的挖掘方法 利用空间叠加、缓冲区分析等方法发现挖掘目标之间的空间谓词
,将其组成空间事务数据库,进行单层布尔型关联规则挖掘。
描述地理事实,解 译地理知识。表示普 空间结构知 遍几何知识、空间分 点、线、面 布、空间分类规则、 知识要素 知道为什么:知道 识 空间聚类规则、空间 事物现象的原理和规律 关联规则 反映地理概念、面 知道怎么做:地理 逻辑结构知 向对象的知识、空间 示意性拓扑 区分规则、语义关联 图 空间事物技能类知识 识 规则 反映空间演变规律、 知道是何物:因果 时空演变知 虚拟技术结 语义演变规律等趋势 演化,推理地学规律 识 合地图动画
海量数据
2 空间数据挖掘研究
2.1 空间分类挖掘
分类和预测是两种数据分析形式,用于提取描述重要数据 类的数据类型或预测未来的趋势。空间分类挖掘解决大量数据 分类问题。
决策树方法:经典算法-Quinlan的ID3方法
空间 分类 挖掘 方法 贝叶斯分类方法:朴素贝叶斯方法和贝叶 斯网络方法 神经网络方法:前向型、反馈型、随机型、 自组织型
举例:CBA
新加坡国 立大学。基 于关联规则 的分类算法, 能从关系数 据或者交易 数据中挖掘 关联规则, 使用关联规 则进行分类 和预测
4.2 第二代数据挖掘软件
特点 与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口, 具有高的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和 数据挖掘查询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖 掘操作 缺陷 只注重模型的生成,如何和预言模型系统集成导致 了第三代数据挖掘系统的开发
海量数据的挖掘算法效率
在当今“数据爆炸”的大环境下,开发出效率高,负载 数据量大的新算法是趋势所在。
空间数据的特性
频繁项的过滤环节,没有充分地运用空间数据的独特性 质,即没有将“地理学思想应和空间数据有效结合”。 可视化挖掘 大多数空间关联规则挖掘工具都是基于事先定义好的参 数进行黑箱式挖掘,挖掘过程中的交互性较差。
第一代系统与第二代相比因为不具有和数据管理系统 之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预测模型的使用和操作型环境的 部署 第二代系统提供数据管理系统和数据挖掘系统之间的 有效接口 第三代系统另外还提供数据挖掘系统和预言模型系统 之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据 挖掘系统仍然会出现,第二代系统是商业软件的主流, 部分第二代系统开发商开始研制相应的第三代数据挖 掘系统,比如 IBM Intelligent Score Service。第 四代数据挖掘原型或商业系统尚未见报导
空间数据挖掘与可视化
信息工程大学地理空间信息学院
李宏伟
1 背景 2 空间数据挖掘研究 3 实例:空间关联规则挖掘 4 数据挖掘软件 5 空间知识可视化 6 几点思考
1 背景
By 李德仁
数据(Data) 信息(Information)
知识(Knowledge) 智能(Wisdom)
DIKW
大数据
4、数据挖掘软件
代 第一 代 第二 代 特征 数据挖掘算法 集成 分布计算 模型 单个机器 数据模型
作为一个独 立的应用 和数据库以 及数据仓库 集成 和预言模型 系统集成 和移动数据/ 各种计算设 备的数据联 合
支持一个或者 多个算法 多个算法:能 够挖掘一次不 能放进内存的 数据 多个算法
独立的系统
支持向量机方法:基于统计学习理论,适于 数据预处理、样本化应用
空间分类挖
掘方法(续)
K-最邻近分类法
基于案例的推理分类法 遗传算法和进化计算 粗糙集分类法
2.2
空间聚类挖掘
聚类与分类不同,待划分的类是未知的。聚类将数据对象 分组为多个类或簇,使同一个簇中的对象之间相似度最高,不 同簇中的对象相似度最低。
5 空间知识可视化
5.1 可视化分类
数据可视化
信息可视化
知识可视化
数据可视化:运用计算机图形学和图像处理技 术,将数据转换为图形或图像在屏幕上显示出来,并 进行交互处理的理论和方法。 散点矩阵法 投影矩阵法 平行坐标法 层次显示技术 动态显示技术 图标表示技术 直方图法 ……
信息可视化:利用计算机支撑的、交互的、对抽 象数据的可视表示,来增强人们对这些抽象信息的认 知。信息可视化将非空间数据的信息对象的特征值抽 取、转换、映射、高度抽象与整合,用图形、图像、 动画等方式表示信息对象内容特征和语义的过程。信 息对象包括文本、图像、视频和语音等类型。 一维信息可视化 二维信息可视化 三维信息可视化 多维信息可视化 层次信息可视化 文档信息可视化 网络信息可视化
向量数据
数据管理系 统,包括数 据库和数据 仓库 数据管理和 预言模型系 统 数据管理、 预言模型、 移动系统
同质、局 部区域的 计算机群 集 intranet/e xtranet网 络计算 移动和各 种计算设 备
有些系统支持 对象,文本和 连续的媒体数 据 支持半结构化 数据和web数 据 普遍存在的计 算模型
空间关联规则的地图可视化表达
空间关联规则可视化表达
不能支持移动环境
举例:SPSS Clementine
以
PMML 的格式 提供与 预言模
பைடு நூலகம்
型系统
的接口
4.4第四代数据挖掘软件
特点 目前移动计算越发显得重要,将数据挖掘和移动计算 相结合是当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普遍 存在(ubiquitous)计算设备产生的各种类型的数据 第四代数据挖掘原型或商业系统尚未见报导,PKDD2001 上Kargupta发表了一篇在移动环境下挖掘决策树的论 文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER 数据挖掘项目的负责人,该项目研究期限是2001年4 月到2006年4月,目的是开发挖掘分布式和异质数据 (Ubiquitous设备)的第四代数据挖掘系统。
萌芽阶段 发展阶段
199 3
1993年,Agrawal 等人提出频繁项集 挖掘的Apriori算法。 1995年,Koperski and Han 引入空间 谓词构造空间事务 表,给出空间关联 规则的定义及挖掘 过程。
200 0
2000年,Clementini 等考虑空间不确定 性并对多层次空间 关联进行挖掘
不同地理实体间空 间依存、相互作用 、因果或共生的模 式
城 市 分 布
交 通 发 展
空间关联 规则
空间同位 模式
邻近地理空间内频 繁出现的布尔型要 素(或事件)子集
遥相关 模式
地理事件间远距离 的相互关联模式
降 水 海 温
3.3 当前研究重点 着眼于研究挖掘算法本身 着眼于研究空间关联规则的不确定性信息 着眼于研究关联挖掘的可视化 着眼于研究弱空间关联规则
• 2001年, Shekhar 等给出空间同位模 式的一般挖掘算法
•2004-2005年,Yoo 等通过减少连接计 算以提升同位模式 挖掘的效率
2014年,邓敏、石 岩等基于聚类分割 方法研究了太平洋 气候指数与我国极 端降水事件的遥相 关模式
3.2 空间关联规则分类
基于空间谓 词规则的关 联模式
5.3 挖掘可发现知识类型
普遍的几何知识和面向对象的知识 空间特征规则和区分规则
空间分类规则和回归规则
空间聚类规则和关联规则
空间依赖规则和预测规则
空间序列规则和空间例外
5.4 知识可视化 1) 通用性知识可视化
Mind map
Concept map
Cognitive map
Thinking map
经典算法:Apriori算法
A
p r i o r i 算
法
改 进
利用hash表的DHP方法 基于采样的方法 并行关联规则挖掘的方法 分布式关联规则挖掘的方法 多层次关联规则挖掘的方法 数值扩展的关联规则挖掘的方法 形象规则的发现方法 关联规则快速学习方法 基于兴趣度进行数值型关联规则合并的 方法 采样trie树进行关联规则挖掘 利用概念格的关联规则挖掘的方法 ……
200 6
•2006年,陈江平 等提出了一种面向 主题的基于多层次 空间概念的关联规 则挖掘算法 • 2008年,张雪伍、 苏奋振等提出面向 时空过程的关联规 则挖掘算法 •2009年,沙宗尧 等人提出局部的空 间关联模式挖掘
201 1
2011年,Mohan 等 基于事件时序关系 提出级联模式的概 念及挖掘算法