数据挖掘复习提纲
分值分布
一、 选择题(单选10道20分多选5道20分)
二、 填空题(10道20分)
三、 名词解释(5道20分)
四、 解答题(4道20分)
五、 应用题(Apriori算法20分)
1.什么是数据挖掘?
1答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。
具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2. 什么是数据清理?
2答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性
3. 什么是数据仓库?
3答:是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门决策的过程。(最显著特征:数据不易丢失2分选择题)
4. 什么是数据集成?
4.数据集成:集成多个数据库、数据立方体或文件
5. 什么是数据变换?
5答:将数据转换或统一成适合于挖掘的形式。
6. 什么是数据归约?
6答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果
7. 什么是数据集市?
7答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。
(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的)
8.在数据挖掘过程中,耗时最长的步骤是什么?
8.答:数据清理
9. 数据挖掘系统可以根据什么标准进行分类?
9答:根据挖掘的数据库类型分类 、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类
10. 多维数据模型上的 OLAP 操作包括哪些?
10.答:上卷、 下钻、切片和切块、转轴 / 旋转、其他OLAP操作
11. OLAP 服务器类型有哪几种?
11.答:关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器
(HOLAP)、特殊的 SQL 服务器
12. 数据预处理技术包括哪些? (选择)
12.答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。
13. 形成“脏数据”的原因有哪些?
13. 答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码
14. 与数据挖掘类似的术语有哪些?
14答:数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。 15.常用的四种兴趣度的客观度量是什么?
15答:简单性 、确定性、 实用性、新颖性
16.数据立方体的物化可以有哪三种选择?
16
全物化
不物化
部分物化
17. 从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?
17 答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。
18. 在数据挖掘系统中,为什么数据清理十分重要?
18答: 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。
19.脏数据形成的原因有哪些?如何理解现实世界的数据是“肮脏的”?
19答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码
不完整的、含噪声的、不一致的、重复的
20. 数据清理时,对空缺值有哪些处理方法?
20.答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值
21. 什么是数据变换?包括哪些内容?
21. 答:将数据转换或统一成适合于挖掘的形式。
包括:光滑、聚集、数据泛化、规范化、属性构造
22. 数据归约的策略包括哪些?
22.答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生
23. .提高数据挖掘算法效率有哪几种思路?
23.答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法
24. 假定属性income的最小值与最大值分别为12000和98000到区间[0.0,1.0],根据
min-max 规范化,income的值73600将变为__0.716_____。
25. 假定属性income的平均值和标准差分别为54000和16000,使用 Z-score 规范化,值73600被转换为_1.225_。
26. 假定A的值由-986到917.A的最大绝对值为986,使用小数定标规范化,-986被规范化为_-0.986_
27. 从结构角度来看,有哪三种数据仓库模型。
27. 答:企业仓库、数据集市、虚拟仓库
28. 什么是聚类分析?
28.答:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程
30. 可以对按季度汇总的销售数据进行___B___,来观察按月汇总的数据。
A 上卷 B 下钻 C 切片 D 切块
31. 可以对按城市汇总的销售数据进行____A__,来观察按国家总的数据。
A 上卷 B 下钻 C 切片 D 切块
32. 通过不太详细的数据得到更详细的数据,称为____B____。
A 上卷 B 下钻 C 细化 D 维规约
33. 三层数据仓库结构中,从底层到尾层分别是仓库数据服务器、OLAP服务器、前端客户层_。 34.已知事务数据库D,假定最小支持度为2,求所有的频繁项集
35.给出数据仓库的某种概念模式图,会用DMQL语句描述该概念模式,包括事实与维。
见ppt
DMQL首先包括定义数据仓库和数据集市的语言原语,这包括两种原语定义:一种是立方体定义,一种是维定义
立方体定义 (事实表)
define cube
维定义 (维表)
define dimension
特殊案例 (共享维表的定义)
第一次作为维表定义 “cube definition”
然后:define
dimension
实例:使用DMQL定义星型模式
define cube sales_star [time, item, branch, location]:
dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars),
units_sold = count(*)
define dimension time as (time_key, day, day_of_week, month, quarter, year)
define dimension item as (item_key, item_name, brand, type, supplier_type)
define dimension branch as (branch_key, branch_name, branch_type)
define dimension location as (location_key,
street, city, province_or_state,
country)
实例:使用DMQL定义雪花模式
define cube sales_snowflake [time, item, branch,
location]:
dollars_sold = sum(sales_in_dollars), avg_sales =
avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week,
month, quarter, year) define dimension item as (item_key, item_name, brand,
type, supplier(supplier_key, supplier_type))
define dimension branch as (branch_key, branch_name,
branch_type)
define dimension location as (location_key, street,
city(city_key, province_or_state, country))
使用DMQL定义事实星座模式
define cube sales [time, item, branch, location]:
dollars_sold = sum(sales_in_dollars), avg_sales =
avg(sales_in_dollars), units_sold = count(*)
define dimension time as (time_key, day, day_of_week,
month, quarter, year)
define dimension item as (item_key, item_name, brand,
type, supplier_type)
define dimension branch as (branch_key, branch_name,
branch_type)
define dimension location as (location_key, street, city,
province_or_state, country)
define cube shipping [time, item, shipper, from_location,
to_location]:
dollar_cost = sum(cost_in_dollars), unit_shipped =
count(*)
define dimension time as time in cube sales
define dimension item as item in cube sales
define dimension shipper as (shipper_key, shipper_name,
location as location in cube sales, shipper_type)
define dimension from_location as location in cube sales
define dimension to_location as location in cube sales
36. 四种常用的概念分层类型是什么?
36. 答:模式分层、集合分组分层、操作导出的分层、基于规则的分层
37. 各种DMQL子句的表述?(支持度、置信度)
37.见ppt eg: with support threshold = 15%
38.数据挖掘任务的五种原语是什么?
38.答:说明数据库的部分或用户感兴趣的数据集——任务相关数据
要挖掘的知识类型
用于指导挖掘的背景知识
模式评估、兴趣度度量
如何显示发现的知识——发现模式的可视化
39.在进行数据预处理时,对于离群点的处理方法是:视需要而定,有时需要删除,有时需要保留。
40. 多维数据仓库有哪几种概念模型?
40.答:星形模式、雪花形模式或事实星座形模式。
41.Apriori算法的性质是什么?
41答:频繁项集的所有非空子集也必须是频繁的。