当前位置:
文档之家› 浙大远程数据挖掘离线作业答案
浙大远程数据挖掘离线作业答案
(4)大型数据库中的关联规则挖掘包含两个过程:找出所有频繁项集和由频繁项集产生强关联规则
(5)根据规则中所处理的值类型,关联规则可分为:布尔关联规则和量化关联规则
(6)Apriori性质是指:频繁项集的所有非空子集也必须是频繁的
(7)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集
二、简答题
(4)简述数据分类的两步过程。
答:第一步建立模型,建立描述预先定义的数据类或概念集的分类器;第二步,在独立测试集上评估模型的预测准确率,通过测试后再使用模型,对新的数据进行分类。
三、算法题
(1)使用判定树归纳算法,根据顾客年龄age(分为3个年龄段:<18,18...23,>23),收入income(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair和excellent)来判定用户是否会购买PC Game,即构建判定树buys_PCGame,假设现有的数据经过第一次划分之后得到如下图所示结果,并根据该结果对每一个划分中的各个属性计算信息增益
请根据以上结果绘制出判定树buys_PCGame,来判定用户是否会购买PC Game。
age
<1818…23 >23
income
student
credit_rating
class
Income
student
credit_rating
class
high
no
fair
no
high
no
fair
no
medium
答:常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。
(2)请描述主成份分析(PCA)算法步骤
答:1)规范化输入的数据:所有属性落在相同区间内;2)计算k个标准正交向量,即主成分;3)每个输入数据的向量都是这k个主成分向量的线性组合;4)主成分按照重要程度降序排列。
答:可以使用以下几个思路提升Apriori算法有效性:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法。常见方法包括:a、基于hash表的项集计数;b、事务压缩(压缩进一步迭代的事务数)c、划分;d、选样(在给定数据的一个子集挖掘);e、动态项集计数。
第八章分类
一、填空题
(1)数据分类模型的常用表示形式包括分类规则、决策树和数学公式等。
第三章数据预处理
一、填空题
(1)进行数据预处理时所使用的主要方法包括:数据清理、数据集成、
数据变换和数据规约
(2)数据概化是指:沿概念分层向上概化
(3)数据压缩可分为:有损压缩和无损压缩两种类型。
(4)进行数值归约时,三种常用的有参方法是:线性回归方法、多元回归
和对数线性模型
二、简答题
(1)常用的数值属性概念分层的方法有哪些?
划分准测是同一个聚类中的对象尽可能地接近或相关,不同聚类中的对象尽可能的原理或不同。
(2)列举离群点挖掘的常见应用。
答:离群点检测应用有:1、欺诈检测;2、网络入侵;3、故障诊断;4、可疑金融交易监控等等。
第四章数据仓库和OLAP技术
一、填空题
(1)数据仓库的多维数据模型可以有三种不同的形式,分别是:星形模式、雪花模式和事实星座模式
(1)简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点。
答:优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索。缺点:最小支持度值设置困难,太高则将丢掉出现在较低抽象层中有意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。
(2)如何提高Apriori算法的有效性?有哪些常见方法?
答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评估模块、图形用户界面。
(3)Web挖掘包括哪些步骤?
答:数据清理:(这个可能要占全过程60%的工作量);数据集成(数据存入数据仓库建立数据立方体,选择用来进行数据挖掘的数据);数据挖掘(选择适当的算法来找到感兴趣的模式);展现挖掘结果(将模式或者知识应用或者存入知识库)。
(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习
(4)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据
二、简答题
(1)什么是数据挖掘?
答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。
(2)一个典型的数据挖掘系统应该包括哪些组成部分?
答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术特点:难以呈现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。
(2)对称的和不对称的二元属性有什么区别?
答:对称的二元属性指变量的两个状态具有同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不同的。对称的二元属性可以使用简单匹配系统评估它们的相异度;不对称的二元属性使用Jaccard系数评估它们的相异度。
yes
fair
no
high
yes
excellent
yes
high
no
fair
no
medium
yes
fair
yes
medium
yes
excellent
yes
low
yes
fair
yes
low
no
excellent
yes
low
no
excellent
no
income
student
credit_r有三种选择:不物化、部分物化和
全物化
(3)著名的数据仓库系统设计师W. H. Inmon认为,数据仓库与其他数据存储系统的区别
的四个特征是:面向主题、数据集成、随时间而变化 和 数据不易丢失
(4)在数据访问模式上,数据仓库以事务操作为主,而日常应用数据库则以只读查询为主。
对age<18的顾客:Gain(income)=0.022,Gain(student)=0.162,Gain(credit_rating)=0.323
对age>23的顾客:Gain(income)=0.042,Gain(student)=0.462,Gain(credit_rating)=0.155
第二章认识数据
一、填空题
(1)两个文档向量d1和d2的值为:d1=(1, 0, 3, 0, 2),d2=(3,2,0, 0, 1),则它们的余弦相似度为:5/13
(2)数据离散度的常用度量包括极差、分位数、四分位数、
百分位数 四分位数极差和标准差
(3)一种常用的确定离群点的简单方法是:出落在至少高于第三个四分卫数或低于第一个四分卫数1.5×IQR处的值。
(8)求和函数sum()是一个分布的函数。
(9)方体计算的主要挑战是海量数据和有限的内存和时间之间的矛盾。
二、简答题
(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。
答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:1、提高两个系统的性能:操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据库是为OLAP而设计,为复杂的OLAP查询,多维视图,汇总等OLAP功能提供了优化。2、两者有着不同的功能:操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这是如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。3、两者有着不同的数据:数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。
二、单选题
(1)对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是:
A、中位数=平均值=众数;B中位数>平均值>众数;
C、平均值>中位数>众数;D;众数>中位数>平均值
答:C。
(2)下面的散点图显示哪种属性相关性?
A不相关;B正相关;C负相关;D先正相关然后负相关;
答:C。
三、简答题
(1)什么是基于像素的可视化技术?它有什么缺点?
high
no
fair
yes
medium
yes
fair
yes
high
no
fair
yes
medium
yes
excellent
yes
答:
第十章聚类分析
一、填空题
(1)在数据挖掘中,常用的聚类算法包括:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。
(2)聚类分析常作为一个独立的工具来获得数据分布的情况
(5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:分布的、
代数的和整体的
(6)关于数据仓库的设计,四种不同的视图必须考虑,分别是:自顶向下视图、数据源视图、数据仓库视图、商务查询视图
(7)OLAP服务器的类型主要包括:关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)
浙江大学远程教育学院
《数据挖掘》课程作业
姓名:
学号:
年级:
学习中心:
—————————————————————————————
第一章引言
一、填空题
(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、
数据选择、数据变换、数据挖掘、模式评估和知识表示