当前位置:文档之家› 大学数据挖掘课程考试复习材料

大学数据挖掘课程考试复习材料

一.1.数据处理与数据分为’操作型’和’分析型’处理与数据. 2.操作型数据:细节的,
存取瞬间准确,可更新,操作需求事先可知,生命周期符合SDLC,性能要求高,操作单元,事务
驱动,面向应用,支持日常操作. 分析型数据:综合的,代表过去数据,不更新,操作需求事先
不可知,完全不同的生命周期,要求宽松,操作集合,分析驱动,面向分析,支持管理需求. 3.
数据组织结构:高度综合级,轻度综合级,当前细节级,早期细节级. 4.数据组织形式:简单
堆积文件,轮转综合文件,简化直接文件,连续文件. 5.数据挖掘七个步骤:数据清理,数据
集成,数据选择,数据变换,数据挖掘,模式评估,知识表示. 6.数据挖掘系统的主要成分:1
数据库,数据仓库或其他信息库2数据库或数据仓库服务器3知识库4数据挖掘引擎5模式
评估模块6图形用户界面. 7数据挖掘功能:用于指定数据挖掘任务中要找的模式类型. 8.数据挖掘任务分为两类:描述和预测. 9.概念/类描述方法:数据特征化,数据区分,数据特
征化与比较. 10.关联分析发现关联规则,适用于事务数据分析.关联规则分为:多维/单维
关联规则. 11.粒度越大,表示细节程度越低,综合程度越高. 12.数据仓库定义:数据仓库
是一个面向主题的,集成的,不可更新且随时间不断变化的数据集合,用来支持管理人员的决策. 二.1.数据立方体由位和事实定义.维是关于一个组织想要记录的透视或实体;事实是
数值的度量. 2.多维数据模型模式分类:星型模式,雪花模式,事实星座模式[维表,事实表].
3.度量根据所用的聚焦函数分成三类:分布的度量,代数的度量,整体的度量.
4.多维数据
模型上的OLAP操作:上卷,下钻,切片,切块,转轴,钻过,钻透. 5.数据仓库设计的四种视图:1自顶向下视图2数据源视图3数据仓库视图4商务查询视图. 6.数据仓库通常采用三
层结构:底层:数据仓库服务器中层:OLAP服务器顶层:前端工具. 7.OLAP服务器类型:关
系OLAP(ROLAP)服务器;多维OLAP(MOLAP)服务器;混合OLAP(HOLAP)服务器;特殊的SQL服务器. 8.ROLAP:关系数据库技术;响应慢;数据装载快;存储耗费小;维数无限制;通过SQL实
现存储;维护困难;无文件大小控制. MOLAP:专为OLAP设计;性能好,反应快;数据装载快;
需进行预计算,无法支持维变化;缺乏模型,访问标准,管理简便;受操作系统文件大小控制. *ROLAP不支持有关预计算读写操作,无法多行计算,无法维间计算. *MOLAP支持高性能决
策支持计算;跨维计算,多用户读写操作. 9.数据仓库设计步骤:1选取待建模的高务处理2
选取高务处理的粒度3选取用于每个事实表记录的维4选取安放在事实表中的度量
三1.数据质量问题:1噪声数据2空缺数据3不一致数据4重复5维度高 2.噪声处理方法:1
分箱2聚类3回归 3.预处理的基本方法:数据清理,数据集成,数据变量,数据归约 4.数
据选取的参考原则:1尽可能赋予属性名和属性值的明确含义2同意多数据源的属性值编码3
去掉唯一的属性4取出重复属性5去除可以忽略字段6合理选择关联字段 5.分箱的4种方法:统一权重,统一区间,最小熵,用户自定义区间 6.数据平滑方法:按箱平均值平滑,按箱
中值平滑,按箱便捷平滑 7.数据集成涉及问题:模式集成,数据冗余,数据值冲突8.数据
交换涉及内容:平滑,聚集,数据概化,规范化,属性构造. 9.数据归约的策略:维归约,数据压缩,数值压缩,离散化和概念分层生成 10.属性子集选择的基本启发式方法包含的
技术:1逐步向前选择2逐步向后删除3向前选择和向后删除的结合4判定树归纳 11.压
缩技术:有损(分为小波变换(分为DWT/DFT)/主要成分分析PCA)/无损 12.数值归约:有参方法/无参方法 13.空缺值处理方法:1忽略元组2人工填写空缺值3使用一个全局常
量填充空缺值4使用属性的平局值填充空缺值5使用与给定元组属同一类的所有样本的平均
值6使用最可能的值填充空缺值 14.抽样:1简单选取n个样本,不回放2简单选择n个
样本,回放3聚类抽样4分层抽样 15.概念分层方法:1分箱2直方图分析3聚类分析4
基于熵的离散化4通过自然划分分段四.1.数据挖掘语言分类:1数据挖掘查询语言DMQL 2
数据挖掘建模语言PMML 3通用数据挖掘语言 2.数据挖掘任务的原语:1任务相关数据原语
2要挖掘的知识种类原语3背景知识原语4兴趣度测量原语5被发现模式的表示和可视原语3.任务相关数据包括:1数据库与数据仓库名称2数据立方3数据选择条件4相关属性或维5
数据分组条件 4.背景知识概念分层的主要类型:1模式层次2集合分组分层3基于操作层次4基于规则分层 5.兴趣度度量特点:简洁性,确定性,实用性,新颖性 6.兴趣度的分类:客观兴趣度(数据驱动),主观兴趣度(用户驱动) 7.数据挖掘系统的结构设计耦合模式:不耦合,松散耦合,半紧密耦合,紧密耦合 8.挖掘的知识类型:1特征化2区分3关联4分类/预测5聚类五六. 1.从数据分析角度,数据挖掘分为:描述性,预测性 2.概念描述基本方法:多层概念,汇总,特征化,比较基本技术:表,图表,图,规则 3.类比较的步骤:数据收集,维相关分析,同步概化,导出比较的表示 4.关联规则挖掘的两个过程:1找出频繁项集 2由频繁项集产生强关联规则 5.关联规则基本分类方法:1按管理规则处理的变量类别:布尔型和量化性 2按关联规则中数据的抽象层次:单层/多层关联规则 3按关联规则中所涉及的变量数目:单维/多维关联规则 4按关联规则的各种扩充,关联规则可扩充到相关分析,以识别项是否相关 6.多层关联规则的主要挖掘方法:1对于所有层使用一致的最小支持度 2在较低层使用递减的最小支持度 3逐层独立 4层交叉单项过滤 5层交叉K-项集过滤七.1.分类与预测是两种数据分析形式.分类是预测分类标号(离散性);预测是建立连续函数模型. 2.数据分类步骤:1学习,用分类算法分析训练数据2分类,测试数据用于评估分类规则的准确率. 3.分类与预测的标准和评估:预测的准确率,速度,强壮度,可伸缩性,可解释性. 4.常用分类方法:1决策树归纳2贝叶斯信念网络3贝叶斯分类4神经网络 5.预测的方法:1线性回归2多元回归3非线性回归4广义线性模型*预测步骤:1.问题的理解与提出2.数据准备2.1变量选择2.2数据清洗2.3变量转化2.4可视化3.1神经网络3.2决策树3.3关联规则3.4其他模型4结果评价与解释(回1) 6.评估分类法准确性的方法:1保持方法2 k-交叉确认方法八.1基于内存的聚类算法通常采用的数据结构:(1)数据矩阵:对象—变量结构(二模矩阵) (2)相异度矩阵:对象—结构(单模矩阵) 2.对聚类质量/相异度估计评估方法:1区间标度变量2二元变量3标称变量4比例标度型变量5混合类型的变量 3.簇间距离度量标准:最短/最长/中间/平均距离 4.典型的聚类过程:1数据准备2特征提取3聚类4聚类结果评估 5.聚类方法的主要分类:1划分方法2层次方法3基于密度的方法4基于网络的方法5基于模型的方法 6.孤立点分析的主要方法:1统计学方法2基于距离的方法3基于偏差的方法 7.划分方法:1全局最优2启发式方法(K-均值,K-中心点) 8.层次方法:1凝聚方法(自底向上方法)2分裂方法(自顶向下)
9.复杂类型数据挖掘包括:1复杂对象2空间数据3多媒体数据4文本数据5WEB数据。

相关主题