当前位置:文档之家› 数据挖掘

数据挖掘

《数据挖掘》总复习题1.数据挖掘系统可以根据什么标准进行分类?答:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类2.知识发现过程包括哪些步骤?答:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3.什么是概念分层?答:一个映射序列,将低层概念映射到更一般的较高层概念。

4.多维数据模型上的OLAP 操作包括哪些?答:上卷、下钻、切片和切块、转轴/ 旋转、其他OLAP操作5.OLAP 服务器类型有哪几种?答:关系OLAP 服务器(ROLAP)、多维OLAP 服务器(MOLAP)、混合OLAP 服务器(HOLAP)、特殊的SQL 服务器6.数据预处理技术包括哪些?答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。

7.什么是数据清理?答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性8.什么是数据集成?答:集成多个数据库、数据立方体或文件9.什么是数据归约?答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果10.数据清理的内容包括哪些?答:缺失值、噪声数据、数据平滑、聚类、回归11.将下列缩略语复原OLAP——on-line analytical processing DM——data mining KDD——knowledge discovery in databases OLTP——on-line transaction processing DBMS——database management system DWT——discrete wavelet transform (DMQL)--Data Mining Query Language 12.什么是数据挖掘?答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。

具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

13.什么是关联规则?答:(关联规则是形如X→Y的蕴涵式,其中且,X和Y分别称为关联规则的先导和后继。

)假设I是项的集合。

给定一个交易数据库,其中每个事务(Transaction)t是I 的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。

关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。

关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。

这些阈值是根据挖掘需要人为设定。

(关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。

)14.什么是可信度?什么是支持度?答:15. 什么是概念描述?什么是特征化?什么是属性相关分析?答:概念描述:用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。

特征化:是目标类数据的一般特性或特征的汇总。

属性相关分析:可能需要在分类和预测之前进行,它试图识别对于分类或预测过程无用的属性。

这些属性应当排除。

16.什么是数据仓库?其主要特征是什么?答:数据仓库是一个提供决策支持功能的数据库,它与组织机构的操作数据库分别维护。

它允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。

特征:面向主题、数据集成、随时间而变化、数据不易丢失(数据不易丢失是最明显特征)17.什么是数据集市?答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。

其范围限于选定的主题。

(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的) 18.数据库中的知识发现过程由哪几个步骤组成?答:数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示19.典型的数据挖掘系统有哪几个主要成分?答:数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块;用户界面20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。

21.在数据挖掘系统中,为什么数据清理十分重要?答:脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。

22.脏数据形成的原因有哪些?答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码23.数据清理时,对空缺值有哪些处理方法?答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值24.什么是数据变换?包括哪些内容?答:将数据转换或统一成适合于挖掘的形式。

包括:光滑、聚集、数据泛化、规范化、属性构造25.数据归约的策略包括哪些?答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生26.提高数据挖掘算法效率有哪几种思路?答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法27.假定属性income的最小值与最大值分别为12000和980到区间[0.0,1.0],根据min-max 规范化,income的值73600将变为_3631/551_。

28.假定属性income的平均值和标准差分别为54000和16000,使用Z-score 规范化,值73600被转换为_1.225_一、选择题1.数据挖掘技术包括三个主要的部分(C )A)数据、模型、技术B)算法、技术、领域知识C)数据、建模能力、算法与技术D)建模能力、算法与技术、领域知识2.在ID3 算法中信息增益是指(D )A)信息的溢出程度B)信息的增加效益C)熵增加的程度最大D)熵减少的程度最大3. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A)关联规则发现B)聚类C)分类D)自然语言处理4. 什么是KDD? (A)A)数据挖掘与知识发现B)领域知识发现C)文档知识发现D)动态知识发现5. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A) 探索性数据分析B) 建模描述C) 预测建模D)寻找模式和规则 6. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C) A) 根据内容检索B) 建模描述C) 预测建模D) 寻找模式和规则7. 数据仓库是随着时间变化的,下面的描述不正确的是(C)A) 数据仓库随时间的变化不断增加新的数据内容; B) 捕捉到的新数据会覆盖原来的快照;C) 数据仓库随事件变化不断删去旧的数据内容; D) 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合.8. 关于基本数据的元数据是指: (D)A) 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B) 基本元数据包括与企业相关的管理方面的数据和信息;C) 基本元数据包括日志文件和简历执行处理的时序调度信息;D) 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.9. 下面关于数据粒度的描述不正确的是: (C)A) 粒度是指数据仓库小数据单元的详细程度和级别;B) 数据越详细,粒度就越小,级别也就越高;C) 数据综合度越高,粒度也就越大,级别也就越高;D) 粒度的具体划分将直接影响数据仓库中的数据量以及查询质量.10. 有关数据仓库的开发特点,不正确的描述是: (A)A) 数据仓库开发要从数据出发;B) 数据仓库使用的需求在开发出去就要明确;C) 数据仓库的开发是一个不断循环的过程,是启发式的开发;D) 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式11. 在有关数据仓库测试,下列说法不正确的是: (D)A) 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.B) 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.C) 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.D) 在测试之前没必要制定详细的测试计划.12. OLAP 技术的核心是: (D)A) 在线性; B) 对用户的快速响应; C) 互操作性. D) 多维分析;13. 关于OLAP 的特性,下面正确的是: (D)(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性A) (1) (2) (3) B) (2) (3) (4) C) (1) (2) (3) (4) D) (1) (2) (3) (4) (5)14. 关于OLAP 和OLTP 的区别描述,不正确的是: (C)A) OLAP 主要是关于如何理解聚集的大量不同的数据.它与OTAP 应用程序不同.B) 与OLAP 应用程序不同,OLTP 应用程序包含大量相对简单的事务.C) OLAP 的特点在于事务量大,但事务内容比较简单且重复率高.D) OLAP 是以数据仓库为基础的,但其最终数据来源与OLTP 一样均来自底层的数据库系统, 两者面对的用户是相同的.15. 关于OLAP 和OLTP 的说法,下列不正确的是: (A)A) OLAP 事务量大,但事务内容比较简单且重复率高.B) OLAP 的最终数据来源与OLTP 不一样.C) OLTP 面对的是决策人员和高层管理人员.D) OLTP 以应用为核心,是应用驱动的.16. 决策树中不包含一下哪种结点, (C)A)根结点(root node) B)内部结点(internal node)C)外部结点(external node) D)叶结点(leaf node)1.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。

(对)2.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。

(对)3. 图挖掘技术在社会网络分析中扮演了重要的角色。

(对)3.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。

(错)4.寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。

(错)5.离群点可以是合法的数据对象或者值。

(对)6.离散属性总是具有有限个值。

(错)7.噪声和伪像是数据错误这一相同表述的两种叫法。

(错)8.用于分类的离散化方法之间的根本区别在于是否使用类信息。

相关主题