当前位置:文档之家› 数据挖掘期末考试重点

数据挖掘期末考试重点

1·元数据:是关于数据仓库中数据的数据。

2·数据仓库中的元数据可以分为四类1)关于数据源的元数据:对不同平台上的数据源的物理结构和含义的描述;2)关于数据模型的元数据:描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础;3)关于数据仓库映射的元数据:反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换,变换和加载过程;4)关于数据仓库使用的元数据:数据仓库中信息的使用情况描述,这类元数据能帮助用户到数据仓库查询所需要的信息,用于解决企业问题。

3·数据仓库和数据集市的区别数据仓库收集了关于整个组织的主题(如顾客、商品、销售、资产和人员)信息,因此是企业范围的。

对于数据仓库,通常使用星座模式,因为它能对多个相关的主题建模。

数据集市是数据仓库的一个部门子集,它针对选定的主题,因此是部门范围的。

对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模。

4·数据集市主要有两种结构:从属数据集市(数据直接来自于中央数据仓库)独立数据集市(数据直接来源于各生产系统)5·数据库与数据仓库的联系与区别?联系:数据仓库的出现,并不是要取代数据库。

可以说,数据库、数据仓库相辅相成、各有千秋。

区别:出发点不同(面向事物/面向主题)、存储的数据不同(实时数据/历史数据)、设计规则不同(范式/反范式)、提供的功能不同(捕获数据/分析数据)、基本元素不同(事实表/维表)、容量不同(GB/TB)、服务对象不同(业务处理人员/高层决策人员)。

6·粒度的作用:粒度越小,数据的综合程度越低,存储的数据越详细,需要的索引项越多,存储的数据量越大;回答查询的种类越多。

粒度越高,数据综合程度越高,需要的索引项越少,存储的数据量越小,查询的效率也越高7·数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。

为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。

8·数据集市的两种架构:(1)、从属数据集市:它的数据直接来自于中央数据仓库。

一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。

(2)独立数据集市:它的数据直接来源于各生产系统。

许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成独立数据集市,用来解决个别部门比较迫切的决策问题。

9·星型模型与雪花模型的比较:本质相同,都由事实表、维表构成大多数的数据仓库都采用“星型模型”。

星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。

“事实表”中存放大量关于企业的事实数据(数量数据)。

雪花模型对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。

雪花模型将维表按层次进行了规范化,可以节省空间,使结构清晰,但在查询时涉及更多的连接操作。

10·星型模型的优点:星型模型存取数据速度快,主要是由于它针对各个维做了大量的预处理,如按照维进行预先的统计、分类、排序等;另外,星型模型比较直观,便于用户理解。

11·星型模型的缺点:当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。

由于事实表的主键由所有的维表的主键组成,这种维的变化带来数据变化将是非常复杂、非常耗时的。

并且,星型模型的数据冗余量很大。

12·雪花模型的优点:在一定程度上减少了数据存储量,规范化的结构更容易更新和维护。

13·雪花模型的缺点:它比较复杂,用户不易理解;浏览内容相对困难;额外的连接降低了查询的性能。

在数据仓库中,通常不推荐使用雪花模型,因为数据仓库对查询性能的要求更高。

14·ETL:*定义:Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程。

*ETL工具:Informatica 公司的Power Center 、IBM 公司的Data Stage 、Oracle 公司的Warehouse Builder 以及Microsoft 公司的SQL Server IS 等。

*主要功能:数据抽取(从数据库中导入与决策相关的数据);数据转换(对数据粒度以及不一致的数据进行转换);数据清洗(校验数据源的数据质量,尽量减少差错);数据装载(把数据装载到数据仓库中.)15·数据挖掘*定义:在数据库中,利用各种分析方法与技术,将过去所累积的大量繁杂的历史数据中,进行分析、归纳与整合等工作,以萃取出有用的信息,找出有意义且用户有兴趣的模式,提供企业管理阶层在进行决策时的参考依据。

*功能:(1)分类:按照分析对象的属性分门别类加以定义建立类组class;(2)估计:根据既有连续性数值的相关属性数据,以获知某一属性未知值;(3)预测:根据对象属性的过去观察值来估计该属性未来值;(4)关联分组:从所有对象决定那些相关对象应该放在一起;(5)聚类:将异质总体中区分为特征相近的同质组类clusters*步骤:(1)理解数据与数据所代表的含义;(2)获取相关知识与技术;(3)整合与检查数据;(4)去除错误或不一致的数据;(5)建模与假设;(6)数据挖掘运行(7)测试与验证所挖掘的数据(8)解释与使用数据16·OLAP联机分析处理(on line analytical processing)从数据仓库中的综合数据出发,提供面向分析的多维模型,并使用多维分析的方法从多个角度、多个层次对多维数据进行分析,使决策者能够以更加自然的方式来分析数据。

17·数据挖掘与OLAP的差异:(1)、OLAP是决策支持领域的一部分。

OLAP分析师是建立一系列的假设,然后通过OLAP 来证实或推翻这些假设来最终得到自己的结论。

(2)、数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。

他在本质上是一个归纳的过程。

(3)、数据挖掘和OLAP具有一定的互补性。

18·数据仓库与数据挖掘联系:数据仓库是指从各种数据源通过ETL(抽取、转换、加载)得到规整的数据,往往是纬度表和事实表的方式;数据挖掘是指在数据仓库的既有数据上通过聚类,回归,神经网络等技术发现知识,得出结论支持决策。

19·3种Web挖掘:(1)Web内容挖掘;(2)Web结构挖掘;(3)Web应用挖掘特性:(1)数据收集容易且不引人注意;(2)以交互式个人定制服务为终极目标;(3)可整合外部数据让Web数据挖掘的分析功能发挥地更深广20·基于文本挖掘的匹配假定分词词典中的最长词条所含汉字个数为n,则用被处理文档的当前字串中的前n个字作为匹配字段,查找字典。

若字典中存在这样的一个字词,则匹配成功,匹配字段被作为一个词切分出来。

如果词典中找不到这样的一个字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理…”。

如此进行下去,直到匹配成功,切分出一个词或剩余字串的长度为零为止。

这样就完成了一轮匹配,然后取下一个n字字串进行匹配处理,直到文档被全部扫描完为止。

21·方定义(事实表)define cube <cube_name> [<dimension_list>]:<measure_list>维定义(维表)define dimension <dimension_name> as(<attribute_or_subdimension_list>)特殊情况(共享维表)首先进行“立方体定义”define dimension <dimension_name> as<dimension_name_first_time> in cube<cube_name_first_time>22·商业智能定义:企业利用信息科技以企业内部及外部既有的数据库数据为基础,根据所需解决的问题进行数据的汇总,整合成数据仓库后,利用适当的工具进行数据处理,利用联机分析(OLAP)及数据挖掘等技术分析数据,将所发现的潜在的特性或是建立的预测模型传递给决策者,以提供协助其进行决策,并达到企业目标。

23·数据仓库:决策支持系统(dss)和联机分析应用数据源的结构化数据环境。

数据仓库研究和解决从数据库中获取信息的问题。

数据仓库的特征在于面向主题、集成性、稳定性和时变性。

24·数据仓库特点:面向主题;整合性(集成的);长期性(时变的);稳定性(非易失的);汇总的;大容量25·OLTP和OLAP的区别*用户和系统的面向性:OLTP面向顾客,而OLAP面向市场。

*数据内容:OLTP系统管理当前数据,而OLAP管理历史的数据。

*数据库设计:OLTP系统采用实体-联系(ER)模型和面向应用的数据库设计,而OLAP系统通常采用星形和雪花模型。

*视图:OLTP系统主要关注一个企业或部门内部的当前数据,而OLAP 系统主要关注汇总的统一的数据。

*访问模式:OLTP访问主要有短的原子事务组成,而OLAP系统的访问大部分是只读操作,尽管许多可能是复杂的查询。

26·(CRISP-DM)实施数据挖掘建模的六个阶段及四个层次*六阶段:(1)定义商业问题:针对企业问题和企业需求进行了解和确认,针对不同的需求做深入的了解,将其转化为数据挖掘的问题,并拟定逐步构想。

(2)数据理解:建立数据库和分析数据库(3)数据预处理:同第二步为数据处理的核心(4)建立模型:分析已经筛选和净化的数据,采用各种定性和定量技术方法,对既有数据构建模式和模型,替企业解决问题。

(5)评价和解释:对建立模型的结果进行解释,并对这一模型所带来的商业效果加以评价。

(6)实施:两种使用方法,第一,提供给分析人员作参考,由他通过察看和分析这个模型之后提出行动方案建议,第二,把此模型应用到不同的数据集上,并不断地检测效果。

*四层次:阶段、泛化任务、具体任务、操作实例每个阶段由若干泛化任务组成,每个泛化实施若干具体任务,每个具体任务由若干过程实例来完成。

上二层独立于具体数据挖掘方法。

27·关联型数据库p37(1)报表服务器(2)表分区(3)使用表分区快速加载数据(4)使用表分区快速删除数据28·alalysis services由两个主要的互补功能组成:OLAP和数据挖掘29·构建分析数据库的途径有两个:p41(1)完全自定义(2)可自定义的模版30·创建商业智能应用程序实际是利用数据挖掘的各种优势,将其应用到整个数据输入、集成、分析和报表过程中。

相关主题