当前位置:文档之家› 数据挖掘 - 知识点

数据挖掘 - 知识点

1、数据库与数据仓库的对比2、OLTP与OLAP联机事物处理(On Line Transaction Processing,OLTP)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。

3、数据字典和元数据:数据字典:是数据库中各类数据描述的集合,它在数据库设计中具有很重要的地位。

由:数据项;数据结构;数据流;数据存储;处理过程5部分组成。

元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。

数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据:(1) 关于数据源的元数据(2) 关于抽取和转换的元数据(3) 关于最终用户的元数据4、数据从数据库到知识的流程:DB-->DW-->OLAP-->DM-->KDD-->DSS-->AI5、数据挖掘的含义:知识发现(KDD):从数据中发现有用知识的整个过程。

数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。

6、数据仓库和数据挖掘的区别与联系(1)数据仓库与数据挖掘的区别:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信息。

数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

(2)数据仓库与数据挖掘的关系:①数据仓库与数据挖掘都是决策支持新技术。

但它们有着完全不同的辅助决策方式。

在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。

它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。

②数据挖掘用于数据仓库实现决策支持:预测客户购买倾向;客户利润贡献度分析;分析欺诈行为;销售渠道优化分析等。

③数据仓库和数据挖掘的结合对支持决策会起更大的作用。

(3)数据仓库中数据存储特点:由于数据仓库不同于数据库,数据挖掘也随之发生变化。

数据存储方式的不同;数据存储的数据量的不同;数据存储的结构不同(4)数据仓库中数据挖掘特点:①数据挖掘从数据仓库中挖掘更深层次的信息。

②数据仓库为数据挖掘提出了新要求:数据挖掘需要可扩展性;数据挖掘方法需要能挖掘多维知识。

7、商业智能:商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确的决策。

商业智能与新决策支持系统从组成和目标来看是一致的。

但是,商业智能是一种技术,新决策支持系统是解决实际决策问题的一个系统。

可以理解为:新决策支持系统是利用商业智能技术来解决实际决策问题的系统。

8、数据仓库结构:近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。

历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。

轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。

高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。

图一9、数据仓库系统结构:数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。

图二(1)、仓库管理①数据建模:数据建模是建立数据仓库的数据模型。

②数据抽取、转换、装载:数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。

数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。

③元数据:同13④系统管理:数据管理,性能监控,存储器管理以及安全管理。

(2)分析工具①查询工具:数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。

②多维分析工具(OLAP工具):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。

③数据挖掘工具:从大量数据中挖掘具有规律性知识,需要利用数据挖掘(Data Mining)工具。

10、数据仓库的运行结构数据仓库应用是一个典型的客户/服务器(C/S)结构形式:客户端所做的工作:客户交互、格式化查询、结果显示、报表生成等。

服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。

三层C/S结构:OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。

这种结构形式工作效率更高。

11、数据仓库数据模型:数据仓库存储采用多维数据模型。

(1)星型模型:大多数的数据仓库都采用“星型模型”。

星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。

(2)雪花模型:雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。

(3)星网模型:星网模型是将多个星型模型连接起来形成网状结构。

多个星型模型通过相同的维,如时间维,连接多个事实表。

12、*数据抽取、转换和装载数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。

可以说,数据仓库的数据获取需要经过抽取(Extraction)、转换(Transform)、装载(Load)三个过程即ETL过程。

(1)数据抽取①确认数据源:列出对事实表的每一个数据项和事实;列出每一个维度属性;对于每个目标数据项,找出源数据项;一个数据元素有多个来源,选择最好的来源;确认一个目标字段的多个源字段,建立合并规则;确认一个目标字段的多个源字段,建立分离规则;确定默认值;检查缺失值的源数据②数据抽取技术:考虑两种情况:当前值;周期性的状态。

分为两类:静态数据抽取;修正数据的抽取。

(2)数据转换①数据转换的基本功能:选择:从源系统中选择整个记录或者部分记录。

分离/合并:对源系统中的数据进行分离操作或者合并操作。

转化:对源系统进行标准化和可理解化。

汇总:将最低粒度数据进行汇总。

清晰:对单个字段数据进行重新分配和简化。

②数据转换类型:格式修正;字段的解码;计算值和导出值;单个字段的分离;信息的合并;特征集合转化;度量单位的转化;关键字重新构造;汇总;日期/时间转化③数据整合和合并:数据整合和合并是将相关的源数据组合成一致的数据结构,装入数据仓库。

④如何实施转换:自己编写程序实现数据转换;使用转换工具(3)数据装载①数据装载方式:基本装载:按照装载的目标表,将转换过的数据输入到目标表中去。

追加:如果目标表中已经存在数据,追加过程在保存已有数据的基础上增加输入数据。

破坏性合并:用新输入数据更新目标记录数据。

建设性合并:保留已有的记录,增加输入的记录,并标记为旧记录的替代。

②数据装载类型:最初装载:这是第一次对整个数据仓库进行装载。

增量装载:由于源系统的变化,数据仓库需要装载变化的数据。

完全刷新:这种类型的数据装载用于周期性重写数据仓库。

(4)ETL工具:数据转换引擎;代码生成器;通过复制捕获数据13、*元数据元数据定义了数据仓库有什么,指明了数据仓库中数据的内容和位置,刻画了数据的抽取和转换规则,存储了与数据仓库主题有关的各种商业信息,而且整个数据仓库的运行都是基于元数据的。

分类:关于数据源的元数据;关于数据模型的元数据;关于数据仓库映射的元数据;关于数据仓库映射的元数据;关于数据仓库使用的元数据。

14、OLAP的概念OLAP是在OLTP的基础上发展起来的。

OLTP是以数据库为基础的,OLAP是以数据仓库为基础的数据分析处理。

它有两个特点:一是在线性(On Line),由客户机/服务器这种体系结构来完成的;二是多维分析,这也是OLAP的核心所在。

OLAP理事会给出的定义:联机分析处理(OLAP)是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。

这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。

OLAP的简单定义:联机分析处理是共享多维信息的快速分析。

它体现了四个特征:(1)快速性:用户对OLAP 的快速反应能力有很高的要求。

(2)可分析性:OLAP系统应能处理任何逻辑分析和统计分析。

(3)多维性:系统必须提供对数据分析的多维视图和分析。

(4)信息性:OLAP系统应能及时获得信息,并且管理大容量的信息。

15、OLAP的基本概念OLAP是针对特定问题的联机数据访问和分析。

(1)变量:变量是数据的实际意义,即描述数据“是什么”。

(2)维:维是人们观察数据的特定角度。

如产品维、顾客维、时间维等。

(3)维的层次:数据的细节不同程度为维的层次。

如日、月、季、年是时间维的层次。

(4)维成员:维的一个取值称为该维的一个维成员。

如“某年某月某日”是时间维的一个成员。

(5)多维数组:一个多维数组可以表示为:(维1,维2,……,维n,变量)(6)数据单元(单元格):多维数组的取值称为数据单元。

16、*MOLAP数据模型MOLAP是基于多维数据库存储方式建立的OLAP;表现为“超立方”结构,采用类似于多维数组的结构。

17、*ROLAP数据模型ROLAP是基于关系数据库的OLAP。

它是一个平面结构,用关系数据库表示多维数据时,采用星型模型18、MOLAP和ROLAP的对比MOLAP和ROLAP在技术上各有优缺点。

MOLAP以多维数据库为核心,在数据存储和综合上有明显优势,但它不适应太大数据存储,特别是对有大量稀疏数据的存储将会浪费大量的存储空间。

ROLAP以RDBMS为基础,利用成熟的技术为用户的使用和管理带来方便。

19、*OALP的多维数据分析(1)切片:选定一个多维数组的一个二维子集叫做切片。

(2)切块:在多维数组的某一个维上选定某一区间的维成员的操作;选定多维数组的一个三维子集的操作。

(3)钻取:取有向下钻取(drill down )和向上钻取(drill up )操作。

向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。

向上钻取获取概括性的数据。

(4)旋转:通过旋转可以得到不同视角的数据。

旋转操作相当于平面数据将坐标轴旋转。

20、*数据仓库分析与设计(1)需求分析:需要确定如下问题:确定主题域;支持决策的数据来源;数据仓库的成功标准和关键性能指标;数据量与更新频率。

通过需求分析,需要的数据包括:数据源;数据转换;数据存储;决策分析。

(2)概念模型设计:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,既概念模型。

概念模型的特点是:①能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世界的一个真实模型。

②易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。

相关主题