当前位置:文档之家› 历年数据挖掘期末考试试题及答案

历年数据挖掘期末考试试题及答案

历年数据挖掘期末考试试题及答案2019年春
选择题
1. 关于数据挖掘下列叙述中,正确的是:
- A. 数据挖掘只是寻找数据中的有用信息
- B. 数据挖掘就是将数据放置于数据仓库中,方便查询
- C. 数据挖掘是指从大量有噪音数据中提取未知、隐含、先前未知的、重要的、可理解的模式或知识
- D. 数据挖掘就是从数据中提取出数值型变量
2. 下列关于聚类分析的说法中,正确的是:
- A. 聚类分析是无监督研究
- B. 聚类分析的目的是找到一组最优特征
- C. 聚类分析只能用于数值型变量
- D. 聚类分析是一种监督研究方法
3. 一般的数据挖掘流程包括以下哪些步骤:
- A. 数据采集
- B. 数据清洗
- C. 数据转换
- D. 模型构建
- E. 模型评价
- F. 模型应用
- G. A、B、C、D、E
- H. A、B、C、D、E、F
- I. B、C、D、E、F
- J. C、D、E、F
简答题
1. 什么是数据挖掘?介绍一下数据挖掘的流程。

数据挖掘是从庞大、复杂的数据集中提取有价值的、对决策有帮助的信息。

包括数据采集、数据清洗、数据转换、模型构建、模型评价和模型应用等步骤。

2. 聚类分析和分类分析有什么不同?
聚类分析和分类分析都是数据挖掘的方法,不同的是聚类分析是无监督研究,通过相似度,将数据集分为不同的组;分类分析是监督研究,通过已知的训练集数据来预测新的数据分类。

也就是说在分类中有“标签”这个中间过程。

3. 请介绍一个你知道的数据挖掘算法,并简单阐述它的流程。

Apriori算法:是一种用于关联规则挖掘的算法。

主要流程包括生成项集、计算支持度、生成候选规则以及计算可信度四步。

首先生成单个项集,计算各项集在数据集中的支持度;然后根据单个项集生成项集对,计算各项集对在数据集中的支持度;接着从项集对中找出支持度大于某个阈值的,生成候选规则;最后计算规则的置信度,保留置信度大于某个阈值的规则作为关联规则。

相关主题