当前位置:文档之家› 浙江工商大学数据仓库与数据挖掘以及试卷真题回忆

浙江工商大学数据仓库与数据挖掘以及试卷真题回忆

1、数据仓库的定义:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。

数据仓库特征:数据仓库是将原始的操作数据进行各种处理并转换成综合信息,提供功能强大的分析工具对这些信息进行多方位的分析以帮助企业领导做出更符合业务发展规律的决策。

2、数据仓库与数据库的相同点与不同点:3、数据仓库的重要特性:面向主题性、集成性、时变性、非易失性、集合性和支持决策作用。

4、数据挖掘的定义:从技术角度看,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。

5、数据挖掘与数据仓库的关系:●数据挖掘是数据仓库发展的必然结果:数据挖掘可以看作是联机分析处理的高级阶段。

●数据仓库为数据挖掘提供应用基础总之,数据仓库为数据挖掘提供了更广阔的活动空间。

数据仓库完成数据的收集、集成、存储和管理工作,数据挖掘面对的是经初步加工的数据,使得数据挖掘更能专注于知识的发现。

6、数据仓库的体系结构:数据仓库系统是由数据源、数据仓库的数据存储、数据仓库的应用工具和可视化用户界面组成。

7、主题数据是数据仓库的核心数据,一般以多维数据模型的形式存储在数据仓库中。

8、在数据仓库中涉及数据存储包括以下几种:数据源、主题数据、数据准备区和查询服务数据。

9、数据集市定义:数据集市一般是为满足某个业务部门进行分析决策的需求而建立的,我们可以将数据集市理解为部门级的数据仓库,数据仓库是数据集市的集合。

如果一个数据集市不依赖于中央数据仓库,则这个数据集市为独立数据集市。

10、元数据的定义:元数据就是关于数据的数据。

元数据是任何信息处理环境的一个重要组成部分。

元数据描述了数据仓库的数据和环境,并使得用户能够更方便地使用数据仓库中的数据进行各种分析,辅助决策。

11、元数据的主要两种作用:元数据进行数据仓库的管理和通过元数据来使用数据仓库。

用于对元数据进行管理的元数据称为管理元数据,而帮助我们使用数据仓库的元数据又称作用户元数据。

12、元数据的分类:根据元数据的内容我们将其分为四类:数据源元数据、预处理数据源元数据、数据仓库主题数据元数据、查询服务元数据。

13、数据仓库的数据模型:●概念模型:多维数据模型是一种能够清楚地表达分析领域的数据模型。

实体关系模型注重的是数据的结构,而多维数据模型注重的是数据的含义。

数据仓库的概念模型一般采用多维数据模型来建模。

在多维数据模型中,包含两种建模要素:观察事物的角度和观察得到的事实数据,前者被称作维度,后者被称作事实。

一个分析领域或主题表达为由多个维度和一组事实数据构成的一个星型模型。

●一个数据仓库通常包含多个主题,其概念模型也就由多个星型模型组成。

●14、数据仓库中的粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。

越是详细的数据,粒度级别就越小;越是概括的的数据,粒度级别就越大。

判断:粒度问题是设计数据仓库的一个非常重要的方面,它既是一个逻辑设计的问题,也是一个物理设计的问题。

15、数据分割是把大的数据集划分成多个较小的数据集,并分散到多个物理单元中进行存储,使它们能独立的被处理。

粒度的划分和数据的分割对数据仓库的设计和实现有重大的影响。

16、确定粒度大小的一般原则:●如果数据仓库的空间很有限的话,为了节省存储空间,宜采用大粒度集表示数据。

●如果追求数据仓库能够回答的问题类型的能力,要求能够回答非常具体的问题,那么使用较小的粒度级别。

●如果想要减轻服务器的负担,提高查询性能,则采用较大的数据集粒度。

●如果没有存储空间的限制,则可以在一个数据仓库中采用多重粒度级别,既存储多粒度级别的数据,也存储高粒度级别的数据,以同时获得高的查询效率和查询能力。

17、数据仓库的建设应该以建立部门级的数据集市为出发点,同时统观全局,使建立的数据集市成为整个企业数据仓库的逻辑子集。

从而由多个数据集市集成企业级的数据仓库。

为了实施这种数据仓库建设的思想,提出了一种总线型的数据仓库结构,称之为数据仓库的总线型结构。

这种数据仓库结构的核心思想是使用统一的维和统一的事实来构造数据仓库的总线。

18、统一的维是指该维可以在数据集市中共享,且不论它与哪个事实表相连接,维的含义都是完全相同的。

19、统一的事实是指一个事实数据,比如销售额,如果在多个数据集市中出现,则该事实数据必须是一致的。

20、在数据仓库管理中,最关键的是对数据的管理。

21、休眠数据的管理数据仓库管理的第一块基本内容。

22、数据仓库管理的三个基本内容:(1)休眠数据的管理;(2)元数据的管理;(3)数据清理。

23、休眠数据是那些存在与数据仓库中、当前并不使用的、将来也很少使用或者根本就不会使用的数据。

休眠数据会以多种方式进入数据仓库,我们在识别和处理它们之前需要理解它们的进入方式。

造成这些休眠数据在数据仓库中存在的原因至少有四种:●由于概括表格的创建●由于错误估计实际上所需要的历史数据的年限●由于随着时间的推移,需求的现实性逐渐明显●由于坚持让详细数据驻留在数据仓库中24、休眠数据的处理:查找休眠数据、删除休眠数据、选择删除的数据、确定访问可能性。

我们认为数据仓库中包含25%到50%的休眠数据时,数据仓库的结构也许比较适当。

25、(必考填空)数据管理中最重要的一步是协调分布在多种数据仓库中的元数据,而建立企业级的中心知识库则是实现元数据管理的基本途径和关键。

26、脏数据进入的四种方式:●数据源系统中的脏数据进入数据仓库●不合适的集成造成脏数据进入数据仓库●数据仓库中以前输入的数据过期●用户需求的改变或添加了对数据质量有不同要求的用户27、OLAP:联机分析处理OLTP:联机事务处理OLAM:联机分析挖掘FASMI共享多维信息的快速分析28、好的OLAP应该具有的准则:基本特性、特殊特性、报表特性、维控制特性29、OLAP的基本概念:度量值:度量值是人们观察事物的焦点维:维是人们观察事物的角度多维数据集的度量值及其关联的维的维成员构成一个多维数据集,当维数为3时,多维数据集表现为一个数据立方体。

多维数据集能支持各种各样的查询,是OLAP的核心。

每一个多维数据集都可以用一个多维数组表示。

30、虚拟维度是基于物理维度内容的逻辑维度。

31、OLAP的基本操作主要包括对多维数据进行切片、切块、旋转、钻取等分析操作。

切片操作就是在某个或某些维上选定一个属性成员,而在其他维上取一定区间的属性成员或全部属性成员来观察数据的一种分析方式。

切片就是在各个维上取一定区间的成员属性或全部成员属性来观察数据的一种分析方式。

32、钻取包含下钻和上钻/上卷操作。

下钻是从概括性的数据出发获得相应的更详细的数据,上钻则相反。

旋转即改变一个报告或页面显示的维方向。

33(解答必考)OLTP称作联机事务处理,OLAP是继OLTP之后发展起来发展起来的一种技术。

他们的区别如下:●OLAP和OLTP产生的背景和目的不同。

前者的目的是通过对现有数据进行分析处理,获得信息,支持决策;而后者的目的则是则是加速对业务数据的处理,支持企业的业务运作。

●使用的数据模型不同●使用的综合程度不同●OLAP中的数据不可更改,但需周期性的刷新;而OLTP中的数据可以更改●对数据的处理不同。

OLTP对数据进行操作型处理,一般运用SQL命令进行追加、删除、修改、简单查询等处理。

而OLAP则进行切片、切块、旋转、钻取等分析性处理。

34、在实施OLAP时,有两种实施方案可供选择:●多维联机分析处理(MOLAP),直接采用多维数据库进行联机分析处理;●关系联机分析处理(ROLAP),,采用关系数据库来存放多维数据进行联机分析处理35、MOLAP和ROLAP的特征●查询功能:MOLAP在查询性能和相应速度上要优于ROLAP●空间占用:如果所有维成员组合都存在相应度量值,MOLAP比较节省空间,反之,当大量维成员组合不存在相应度量值,MOLAP会造成空间大量浪费。

●分析查询能力:MOLAP在查询能力上要次于ROLAP如果建立功能复杂、规模较大的企业级数据仓库,则一般选择ROLAP方式;而如果是建立功能单一,小型的数据集市则宜采用MOLAP方式。

MOLAP缺点增加系统复杂度,增加系统培训与维护费用受操作系统平台中文件大小的限制,难以达到TB 级(只能10~20G)需要进行预计算,可能导致数据爆炸无法支持维的动态变化缺乏数据模型和数据访问的标准ROLAP缺点一般响应速度较慢不支持有关预计算的读写操作SQL无法完成部分计算无法完成多行的计算无法完成维之间的计算36、星型模式:一般地,我们用一张事实表和多张维表表示星型模式。

事实表在模式图中处于中心位置,存放的是业务数据,具有可加性。

维表的信息用做对事实表进行查询时的约束条件。

37、星座模式:一系列同质而不同综合程度的事实表共享一系列维度表38、雪花模式:维度层次较多,使用多个维度表来描述一个维,形成二级维表结构,可以大大减少数据冗余,节省存储空间39、KDD是基于数据库的知识发现,指的是从大型数据库中或数据仓库中提取人们感兴趣的知识,这些知识是隐含的,事先未知的,易被理解的模式。

KDD过程可分为三部分:数据准备、数据挖掘及结果的解释和评估40、数据挖掘的任务:关联分析、时序模式、聚类、分类、偏差检测及预测关联分析:用来发现关联规则,这星系模式:多个不同的事实表共享多个维度表,且维度表不完全相同时序模式:时间序列模式是用变量过去的值来预测未来的值聚类:把整个数据库分成不同的群组分类:数据挖掘应用最多的任务要属分组,分类找出描述并区分数据类或概念的模型,以便能够使用模型预测类标记未知的对象类偏差检测:在数据分析中发现很多异常情况存在于数据库中,我们可以根据这些异常情况获得很多信息。

预测:预测可以利用历史数据或数据分布依据一定的模型计算出数值数据或识别出未来分布的趋势。

41、数据挖掘与专家系统的区别(必考)数据挖掘和专家系统的共同点是它们都是利用已有的信息来帮助人们解决问题。

不同的是,数据挖掘是利用大量已存在的数据中发现人们难以用直观或手工方法发现的有用信息来进行决策支持;而专家系统则是利用专家知识和启发性知识,按一定的推理规则来帮助人们解决问题。

数据挖掘强调事实第一,而专家系统则强调经验第一;专家系统是“唯专家”,而数据挖掘是“唯数据”。

42、(填空)数据挖掘用各种方法获得知识的表现形式主要有五种:规则、决策树、知识基(浓缩数据)、网络权值和公式。

数据挖掘的信息论方法所获的知识一般表示为决策树。

43、(填空)遗传算子主要有:繁殖算子(复制、选择算子)、交叉算子(重组、配对算子)。

遗传算法是一种基于自然选择原理和自然遗传的搜索算法。

相关主题