数据库应用技术(数据仓库与数据挖掘复习提纲)
一:名词解释
数据仓库、数据挖掘、OLAP、ODS(操作数据存储)、商业智能
二.简答题
1.试述数据仓库系统与数据库系统的区别与相似之处。
2.试述数据仓库设计的步骤以及每一步所完成的工作。
3.OLAP与OLTP的区别有哪些?它们适合于运行在同一个服务器上吗?为什么?
4.在数据挖掘前,为什么要对数据进行预处理,数据预处理的有哪些主要的处理方法?
5.在现实世界的数据中,元组在某些属性上缺少值是常有的。
描述处理该问题的各种方法。
6.对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。
7.数据仓库和数据集市的区别是什么?数据仓库的体系环境具有什么特点?有哪些建立数据仓库体系化环境的方法?它们各有何优劣?
8. 为了提高数据仓库的性能,可以在哪些方面作一些努力?在各个方面分别采用什么样的技术?这些技术易于实现吗?
9. 数据仓库中的数据是数据库中数据的简单堆积吗?它有哪些常用的数据组织方式?
10. 一般来说,数据仓库采用什么样的数据模型?与OLTP的数据库模型相比,这些模型有什么特点?
11.数据仓库的设计包括哪些内容?
12.在内容和使用者方面,数据仓库环境中的元数据与操作型环境中的元数据有何异同?
13.请解释OLAP中维、维层次与维成员的概念,并举例说明。
14.OLAP提供哪些基本操作?
15.OLAP服务器有哪些实现方法?它们的优劣是什么?
16.为什么不能依靠传统的业务处理系统进行决策分析?
17.自然演化体系结构中存在的问题?
18.试述建立多维数据库的过程。
19.数据挖掘的主要方法。
20.数据挖掘中的数据分类是个两步的过程,简述每步过程。
21.试述商业智能系统的演化过程。
三.综合题
第一类:给定一个表的结构及数据,计算每个决策属性的信息增益(请同学们掌握该方法,不同的试题中给定的表结构及数据是不同的)
例一:假设有如下的“雇员基本信息”表的结构及数据,其中属性“工资”为类别标识属性,属性“部门”、“职位”、“年龄”作为决策属性集,请计算每个决策
属性“部门”、“职位”、“年龄”的信息增益。
(另外请同学们自己复习课上所讲
第二类:利用Apriori算法寻找事务集中的频繁项集,并由找到的频繁项集产生强关联规则。
(请同学们掌握该方法,不同的试题中给定的事务集是不同的)
例一:假设现有如下表所示的一个事务数据库,数据库中有10个事务,即|D|=10。
假定最小支持度minsup=20%,最小置信度minsup=65%,利用Apriori算法寻找D中的频繁项集,并由找到的频繁项集产生强关联规则。
(另外请同学们自己复
第三类:利用简单贝叶斯分类对数据进行分类(请同学们掌握该方法,不同的试题中给定的表结构及数据是不同的)
例一:假设有如下的“雇员基本信息”表的结构及数据,其中属性“工资”为类别标识属性,类别标识有3个取值(C1、C2、C3),属性“部门”、“职位”、“年龄”作为决策属性集,请利用贝叶斯简单分类方法对未知数据:
X=(部门=‘系统部’,职位=‘高级’年龄=‘21…30’)进行分类。
(另外请同。