复杂数据类型的挖掘
2020年10月5日
18 /72
Course Outline
• 复杂数据对象的多维分析和描述性挖掘 • 空间数据库挖掘 • 多媒体数据库挖掘 • 时序数据和序列数据的挖掘 • 文本数据库挖掘 • Web挖掘
2020年10月5日
9 /72
对象的概化
• 对象标识符 沿类/子类层次结构概化
• 继承特性 数据概化对直接数据与继承数据同等对待
• 方法 方法本身不能概化,但是可以对方法导出的数据 进行概化
2020年10月5日
10 /72
Course Outline
• 复杂数据对象的多维分析和描述性挖掘 • 空间数据库挖掘 • 多媒体数据库挖掘 • 时序数据和序列数据的挖掘 • 文本数据库挖掘 • Web挖掘
close_to(X, “park”)[0.5%, 80%] 此规则表明80%靠近体育中心的学校同时也
靠近公园,并且有0。5%的数据符合这一规则。
2020年10月5日
14 /72
空间聚类方法
•
空间数据聚类是要在一个较大的多维数据集
中根据距离的计算找出簇,或稠密区域。
2020年10月5日
15 /72
数据仓库与数据挖掘
Chapter 10: 复杂数据类型的挖掘
广东商学院信息学院 胡建军
2020年10月5日
1 /93
Course Outline
• 复杂数据对象的多维分析和描述性挖掘 • 空间数据库挖掘 • 多媒体数据库挖掘 • 时序数据和序列数据的挖掘 • 文本数据库挖掘 • Web挖掘
2020年10月5日
16 /72
Course Outline
• 复杂数据对象的多维分析和描述性挖掘 • 空间数据库挖掘 • 多媒体数据库挖掘 • 时序数据和序列数据的挖掘 • 文本数据库挖掘 • Web挖掘
2020年10月5日
17 /72
多媒体数据库挖掘
• 多媒体数据库是指存储和管理大量多媒体对象的数据库,如音频数据,图象数据,视 频数据,序列数据,以及超文本数据,包含文本,文本标记(text markup),和链接(lin kage)。 多媒体数据的相似搜索 主要考虑两种多媒体标引和检索系统: (1)基于描述的检索系统,主要是在图象描述之上建立标引和执行对象检索,如关 键字,标题,尺寸,创建时间等;(2)基于内容的检索系统,它支持基于图象内容的 检索,如颜色构成,质地,形状,对象,和小波变换等。 多媒体数据的分类和预测分析 多媒体数据中的关联规则挖掘
一般概化方法:
• 将集合中的每个值概化为其对应的更高级别的概 念
• 导出集合的一般特征(元素个数、区间、平均值 、最大值等)
示例:业余爱好{网球,曲棍球,国际象棋,小提琴,任天堂游戏 }
概化: {体育,音乐,电子游戏} {体育(3),音乐(1),电子游戏(1)}
2020年10月5日
7 /72
列表值/序列值
• 列表值/序列值 类似于集合值属性的概化,要求保持元素的次序
。 一般概化方法:
• 将列表中的每个值概化为对应的高层概念 • 导出列表的一般特征(长度、元素类型、平均值
、最大值等)
2020年10月5日
8 /72
空间和多媒体数据的概化
• 聚集和近似计算 • 空间数据颜色、形状、纹理、方位等 • 音乐:音调、节拍、乐器等 • 文本:摘要、关键词等
2020年10月5日
11 /72
空间数据库挖掘
• 空间数据库及其一般特点 • 存储了大量与空间有关的数据 • 包含拓扑/距离信息 • 复杂的、多维的索引结构 • 访问通过空间数据的方法,通常需要空间推理 、地理计算、空间知识表示技术
• 空间数据挖掘:要综合数据挖掘与空间数据库技术
2020年10月5日
2 /72
Course Outline
• 复杂数据对象的多维分析和描述性挖掘 • 空间数据库挖掘 • 多媒体数据库挖掘 • 时序数据和序列数据的挖掘 • 文本数据库挖掘 • Web挖掘
2020年10月5日
3 /72
数据挖掘的对象
• 简单数据 关系数据库、事务数据库、数据仓库
• 复杂类型数据 复杂对象、空间数据、多媒体数据、时间
空间分类和空间趋势分析
• 空间分类指分析空间对象导出与一定空间特征有关的分类模式,如郊区,高速公路, 河流的邻接。
• 空间趋势分析处理的是另一类问题:根据某空间维找出变化趋势 。 例如,当离城市中心越来越远时,我们要分析经济形势的变化趋势,或离海洋越来越
远时,气候与植物的变化趋势。
2020年10月5日
序列数据、文本数据、Web数据等 挖掘技术:基本挖掘技术的扩展
针对复杂数据类型的新技术 实施知识挖掘的方法
2020年10月5日
4 /72
复杂数据对象的多维分析 和描
述性挖掘
• 商品化数据仓库和OLAP工具用于多维分析的局 限:
维———非数字数据 度量———聚集值 • 复杂数据对象的概化及其概化数据的应用 • 复杂数据的组织及存储方法 • 类、类/子类 • 对象:对象标识、属性、方法
• 空间数据挖掘将对传统的空间分析方法加以扩展,重点解决其高效性,可伸缩性,与 数据库系统的紧密结合,改进与用户的交互,以及新的知识的发现。
2020年10月5日
13 /72
空间关联分析
空间关联规则形如: AB[s%,c%] 其中A和B空间和非空间谓词的集合,s%表
示规则的支持度,c%表示规则的的可信度。 例:Is_a(X,”school”)∧close_to(X, “sports_center”)⇒
2020年10月5日
5 /72
复杂结构数据的概化
• 复杂结构数据: • 集合、元组、列表、树、记录等及其组合; • 概化方法: • 保持原结构不变,概化其属性 • 把原结构扁平化,概化扁平化的结构 • 用高层概念或聚集汇总低沉结构 • 返回原结构的类型或概貌
2020年10月5日
6 /72
集合值
• 集合值
12 /72
空间数据库挖掘
• 传统空间数据分析(统计方法)的不足 • 统计方法通常假设空间分布的数据间是统计上独立的,但现实是空间对象间是相 互关联的; • 大部分统计模型只有具有相当丰富领域知识和统计方面经验的统计专家才用得起 来; • 统计方法不适用符号值,或不完整或非确定的数据,对大规模数据库其计算代价 也十分昂贵。