当前位置:文档之家› 第九章 数据挖掘和数据可视化

第九章 数据挖掘和数据可视化


有价值的信息知识,因此对于一个数据挖掘系统而
言,它应该能够同时搜索发现多种模式的知识,以 满足用户的期望和实际需要。
(二)数据挖掘的任务
数据挖掘功能以及所能够挖掘的知识类型说明 描述如下:
(1)关联分析;
(2)分类与预测; (3)聚类分析; (4)异类分析; (5)演化分析。
(1)关联分析
数据可视化的应用
油藏三维图
数据可视化的应用
(3)气象预报:气象预报的准确性依赖于对大量数
据的计算和对计算结果的分析。 一方面,科学计算可视化可将大量的数据转换为图像 ,在屏幕上显示出某一时刻的等压面、等温面、旋涡、 云层的位置及运动、暴雨区的位置及其强度、风力的大 小及方向等,使预报人员能对未来的天气作出准确的分 析和预测。 另一方面,根据全球的气象监测数据和计算结果,可 将不同时期全球的气温分布、气压分布、雨量分布及风 力风向等以图像形式表示出来,从而对全球的气象情况 及其变化趋势进行研究和预测。
… 38
39
… Sunny
Rain
… Hot
Mild
… High
High
… Medium
Not
决策树)
(3)聚类分析
聚类分析(clustering analysis)与分类预测方法明显 不同之处在于: 分类所学习获取分类预测模型所使用的数据是已 知类别归属,属于有教师监督学习方法; 而聚类分析所处理的数据均是无类别归属。因此 聚类分析属于无教师监督学习方法。 聚类原则:类内距离最小,类间距离最大。
决策支持系统
第九章
数据挖掘与数据可视化
本章学习目的与要求
理解数据挖掘的基本概念; 掌握数据挖掘常用的算法; 理解数据可视化的基本概念;
内容提示
第一节 数据挖掘
第二节 数据可视化
第一节 数据挖掘
第一节 数据挖掘
数据挖掘的概念; 数据挖掘的任务。
(一)数据挖掘概念---前言
数据可视化的应用
(1)医学:
长期以来人类就有认识自身内部结构的愿望。直到70
年代计算机断层扫描(CT)和核磁共振图像(MRI) 技术和可视化技术的出现,才使获取人体内部数据的愿 望成为现实。 可视化人体计划 (VHP)数据集的出现,标志计算 机三维重构图像和虚拟现实技术进入了医学领域,从而 大大促进了医学的发展和普及。
(4)异类分析
一个数据库中的数据一般不可能都符合分类预 测或聚类分析所获得的模型。那些不符合大多数数 据对象所构成的规律(模型)的数据对象就被称为 异类(outlier)。 对异类数据的分析处理通常就称为异类挖掘。
(4)异类分析
之前许多数据挖掘方法都在正式进行数据挖掘之 前就将这些异类作为噪声或意外而将其排除在数据挖 掘的分析处理范围之内。
数据挖掘的产生
九十年代中期以来,许多软件开发商,基于数理 统计、人工智能、机器学习、神经网络、进化计算和 模式识别等多种技术和市场需求,开发了许多数据挖 掘与知识发现软件工具,从而形成了近年来软件开发 市场的热点。
目前数据挖掘工具已开始向智能化整体数据分析 解决方案发展,这是从数据到知识演化过程中的一个 重要里程碑。

信息产业的发展引发了数据的大量聚集,如一个中 等规模企业每天要产生100MB以上来自各生产经营等多
方面的商业数据;在科研方面,以美国宇航局的数据库 为例,每天从卫星下载的数据量就达3~4TB之多。
据估计,1993年全球数据存贮容量约为二千TB,到 2000年增加到三百万TB,面对这极度膨胀的数据信息 量,人们受到“信息爆炸”、“混沌信息空间” 和“ 数据过剩” 的巨大压力。
(一)数据可视化的概念
数据可视化主要旨在借助于图形化手段,清晰
有效地传达与沟通信息 。
当前,在研究、教学和开发领域,数据可视化 乃是一个极为活跃而又关键的方面 。 通过数据可视化技术,可以发现大量金融、
通信和商业数据中隐含的规律,从而为决策提供 依据。
(二)数据可视化的意义
数据可视化为我们提供了一条清晰有效地传达与沟 通信息的渠道:
天气预报图,包括云状,液态水和风
数据可视化的应用
(4)工程:
计算机辅助工程(CAE)包括计算机辅助设计( CAD)、计算机辅助制造(CAM)和计算机辅助运行 等多项内容。 可视化技术有助于整个工程过程一体化和流线化, 并能使工程的领导和技术人员看到和了解过程中参数变 化对整体的动态影响,从而达到缩短研制周期、节省工 程全寿命费用的目的 。
(2)分类与预测
分类通常用于预测未知数据实例的归属类别(有 限离散值),如一个银行客户的信用等级是属于A 级、B级还是C级。 但在一些情况下,需要预测某数值属性的值(连 续数值),这样的分类就被称为预测(prediction) 。 尽管预测既包括连续数值的预测,也包括有限离 散值的分类;但一般还是使用预测来表示对连续数 值的预测;而使用分类来表示对有限离散值的预测
数据挖掘的产生
数据到知识的演化过程示意图
(一)数据挖掘的概念
数据挖掘(Data Mining, DM):又名数据库 中的知识发现(Knowledge discovery from database,简称KDD),它是一个从大量数据中抽 取挖掘出未知的、有价值的模式或规律等知识的复 杂过程。
简单地讲就是从大量数据中挖掘或抽取出知识 。
数据仓库的出现,为更深入对数据进行分析提供 了条件,它不同于管理日常工作数据的数据库,它更 便于分析针对特定主题的集成化的、时变的的数据, 且这些数据一旦存入就不再发生变化;
OLAP是数据分析手段的一大进步,以往的分析 工具所得到的报告结果只能回答“什么”(WHAT) ,而OLAP的分析结果能回答“为什么”(WHY)。
数据挖掘的步骤
数据挖掘过程示意图
数据挖掘的过程
整个知识挖掘过程是由若干挖掘步骤组成,而数据挖 掘仅是其中的一个主要步骤。整个知识挖掘的主要步骤
有:
(1)数据清洗:清除数据噪声和与挖掘主题明显无 关的数据;
(2)数据集成:将来自多数据源中的相关数据组合 到一起;
(3)数据转换:将数据转换为易于进行数据挖掘的 数据存储形式。
前言
人类的各项活动都是基于人类的智慧和知识, 即对外部世界的观察和了解,做出正确的判断和决 策以及采取正确的行动; 而数据仅仅是人们用各种工具和手段观察外部 世界所得到的原始材料,它本身没有任何意义。 从数据到知识到智慧,需要经过分析加工处理 精炼的过程。
前言
数据与知识间的关系
数据到知识的转变
关联分析(association analysis )就是从给定的
数据集发现频繁出现的项集模式知识(又称为关联 规则,association rules)。 关联分析广泛用于市场营销、事务分析等应用领 域。 通常关联规则具有:X ⇒Y 形式,表示“数据库 中的满足 X 中条件的记录也一定满足 Y 中的条件 ”。
美国航空航天局阿姆斯研究中心的虚拟风洞
思考与练习
1)数据挖掘技术的概念? 2)数据可视化技术的概念?
数据挖掘的过程
(4)数据挖掘:利用智能方法挖掘数据模式或规 律知识;
(5)模式评估:根据一定评估标准从挖掘结果筛
选出有意义的模式知识; (6)知识表示:利用可视化和知识表达技术,向 用户展示所挖掘出的相关知识。
(二)数据挖掘的任务
利用数据挖掘技术可以帮助获得决策所需的多种 知识。在许多情况下,用户并不知道数据存在哪些
(1)交互性。用户可以方便地以交互的方式管理和
开发数据 ; (2)多维性。可以看到表示对象或事件的数据的多 个属性或变量,而数据可以按其每一维的值,将其分类 、排序、组合和显示 ; (3)可视性。数据可以用图象、曲线、二维图形、 三维体和动画来显示,并可对其模式和相互关系进行可 视化分析 。
人类大脑的三维图像
数据可视化的应用
(2)油气勘探:
目前石油工业面临的一个严峻问题是:如何寻找规模小而 埋藏深的油气田。油气勘探的主要方式,是通过天然地震波 或人工爆炸产生的声波在地质构造中的传播,来重构大范围 内的地质构造,并通过测井数据了解局部区域的地层结构, 探明油藏气藏位置及其分布,估计蕴藏量及其勘探价值。由 于地震数据及测井数据的数据量极其庞大,而且分布不均匀 ,因而无法根据纸面上的数据作出分析。利用可视化技术可 以从大量的地质勘探数据或测井数据中,构造出感兴趣的等 值面、等值线,并显示其范围及走向,并用不同颜色显示出 多种参数及其 相互关系,从而使专业人员能对原始数据作出 正确解释,得到矿藏是否存在、矿藏位置及储量大小等重要 信息 。
演化分析示例
例如:利用演化分析方法可对股市主要股票 交易数据(时序数据)进行分析,以便获得整个
股票市场的股票演化规律,以及一个特定股票的
变化规律,这种规律或许能够帮助预测股票市场 上的股票价格,从而有效提高投资回报率。
第二节 数据可视化
第二节 数据可视化
数据可视化的概念; 数据可视化的意义。
分类与预测示例
表中给出打高尔夫球与天气的关系,要求根据条件属 性的不同取值来决定是否可以打高尔夫球。
ID 1 2 3 Outlook Overcast Overcast Overcast Temperatu re Hot Hot Hot Humidity High High High Windy Not Very Medium Class N N N
数据到知识的转变
但OLAP是建立在用户对深藏在数据中的某种知识有 预感和假设的前提下,由用户指导的信息分析与知识发 现过程; 由于数据仓库中的数据来源于多个数据源,因此其 中埋藏着丰富的不为用户所知的有用信息和知识,而要 使企业能及时准确地做出科学的经营决策,就需要有基 于计算机与信息技术的智能化自动工具,来帮助挖掘隐 藏在数据中的各类知识。
相关主题