当前位置:文档之家› 汕头大学数据挖掘期末复习

汕头大学数据挖掘期末复习

汕头大学2019数据挖掘期末复习资料(浩军老师班)考试范围:数据预处理、数据关联分析、分类与预测、SVM、K-MEANS、聚类考试题型:简答题,复习请以实验相关内容为主数据挖掘课程的主要内容:1.数据挖掘概述2.数据预处理3.数据挖掘算法-关联分析4.数据挖掘算法-分类与预测5.数据挖掘算法-聚类分析一、数据挖掘概述什么是数据挖掘?数据挖掘概念:从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术(机器学习)的综合。

数据挖掘定义:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据的特征:大容量、含噪音(不完全、不正确)、异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子)数据挖掘有哪些步骤?1.确定预测目标2.统计数据特征3.根据数据特征进行数据预处理4.应用数据挖掘模型(分类、聚类、关联分析、离群点挖掘、标记等)5.分析模型的准确率6.找出影响模型准确率的因素,回到第3步迭代直到模型足够完美。

二、数据预处理数据预处理有哪些步骤?1.数据清理2.数据集成3.数据归约4.数据变换与数据离散化为什么要进行数据预处理?现实世界的数据是不完整的、含有噪声的、不一致的、冗余的。

低质量的数据将导致低质量的挖掘结果。

1)现实世界的数据一般是脏的、不完整的和不一致的。

2)数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。

3) 高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。

数据的质量涉及的三个要素是?准确性,完整性和一致性。

现实世界的数据一般是脏的不完整的不一致的。

数据预处理技术可以改善数据的质量。

如何填充数据中存在的缺失值?1.忽略元组(删除)2.使用一个全局常量填充空缺值(例如NULL)3.使用属性的平均值、众数、中位数来填充空缺值4.人工填充空缺值数据清理补充缺失的属性值:使用属性的中心度量(如均值或者中位数或者众数(频率度量出现单峰)填充缺失值。

使用最可能的值填充缺失值(可以用回归,使用贝叶斯形式化方法)光滑数据,去掉噪声:噪声是被测量的变量的随机误差或者方差。

数据光滑的技术:分箱法,把有序的数据数量等频地分到箱子中,可以用箱的均值光滑,用箱的边界值光滑,用箱的中位数光滑。

数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库(集成多个数据库)。

数据归约可以通过如聚集、删除冗余特征或者聚类来降低数据的规模。

(得到数据的简化表示)简化数据、但产生相同或者相似的结果通过选择替代的、“较小的”数据表示形式来减少数据量。

数据变换(例如,规范化,离散化)可以把数据压缩到较小的区间,如0.0到1.0。

这可以提高涉及距离度量的挖掘算法的准确率和效率。

规范化和聚集数据最小-最大规范化最小-最大规范化:将原始数据v经线性变换,映射到区间[new_minA, new_maxA]选择区间,找到数据最大值和最小值,进行区间规范化离群点可能影响规范化零族规范化z-score规范化(零均值规范化):属性A的值基于A的平均值和标准差规范化。

对离群点不敏感AAvvσμ-='离散化:通俗的说,离散化是在不改变数据相对大小的条件下,对数据进行相应的缩小。

概念解释离群点:与数据的一般行为或模型不一致的数据对象数据错误不可避免数据输入和获取过程出现的错误数据集成表现出来的错误数据传输过程所引入的错误分箱:通过考察数据的“近邻”(周围的值)来光滑有序数据的值。

局部光滑。

回归:(线性回归,多元线性回归)用一个函数(回归函数)拟合数据来光滑数据。

聚类:将类似的值聚集为簇。

可以识别并删除离群点、解决数据的不一致基本描述数据汇总的图形显示(数据排序后使用)盒图(需要先将数据进行有序排列):盒图可以用五数概括(上下四分位数、中位数、上下边缘)四分位数是3个值,把排序的数据集分成4个相等的部分。

盒的端点一般在四分位数上,使得盒的长度是四分位数的极差IQR(上四分位数75%,下四分位数25%)中位数用盒内的线标记。

盒外两条虚线(称为胡须)延伸到最小和最大的观测值(上边缘、下边缘)。

超过过四分位数1.5*IQR时,单独画出离群点,否则让胡须扩展到它们。

直方图:通常让一个桶代表给定属性的一个连续值域。

概括给定属性分布的图形方法,每个矩形等宽。

分位数图:是一种观察单变量数据分布的简单有效的方法。

分位数-分位数图可以查看一个分布到另外一个分布是否有漂移(确定间隔)散布图(散点图):是一种观察双变量数据的有用的方法,用于观察点簇和离群点,或考察相关联系的可能性。

确定两个数值变量之间看上去是否存在联系、模式或者趋势的有效图形之一。

两个变量属性的三个关系可以从散点图上看出来:正相关、负相关、不相关。

分布式度量、代数度量、整体度量的概念1)分布式度量:可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。

sum()、count()、min()、max()2)代数度量:可以通过应用一个代数函数于一个或多个分布度量计算的度量(平均数sum/count)3)整体度量:必须对整个数据集计算的度量。

例如:中位数、众数三、数据关联分析关联规则挖掘(Association Rule Mining)是数据挖掘中最活跃的研究内容之一。

一个典型的关联规则的例子:70%购买了牛奶的顾客将倾向于同时购买面包。

发现这样的关联规则可以为市场预测、决策和策划等方面提供依据。

技术用语解释:频繁模式是频繁地出现在数据集中的模式(如项集、子序列、子结构)频繁项集:例如,频繁地同时出现在交易数据集中的商品项目(如牛奶与面包)的集合是频繁项集。

序列模式:例如,先买PC,然后是数码相机,再后是内存卡,如果它频繁地出现在历史数据库中,则称它为一个频繁的序列模式。

子结构:一个子结构可能涉及不同的结构形式,如子图、子树或者子格,它可能与项集或者子序列结合在一起。

如果一个子结构频繁地出现,则称它为频繁的结构模式。

关联规则中的支持度和置信度?规则的支持度和置信度是规则兴趣度的两种度量。

它们分别反映所发现规则的有用性和确定性。

Computer=>antivirus_software[support = 2%;confidence =60%]表示所分析的所有事物的2%显示计算机和杀毒软件被同时购买,置信度60%意味购买计算机的顾客60%也购买了杀毒软件。

支持度(项集X在交易集中出现的概率)可信度(置信度)⏹关联规则的可信度(Confidence)是指包含X和Y的交易数与包含X的交易数之比:support(X)Y)support(XY)(Xconfidence⋃=⇒⏹关联规则的可信度反映了如果交易中包含X,则交易中同时出现Y的概率。

⏹例如:关联规则R1: {bread} ⇒ {milk}的可信度为confidence(R1) =support({bread,milk}) / support({bread})= 0.5/0.7 = 5/7。

项目与项集⏹设I={i1, i2, …, i m}是由m个不同项目构成的集合,其中的每个i k (k=1, 2, …, m)被称为一个项目(Item)。

❑例如:在超市的关联规则挖掘中,项目就是顾客购买的各种商品,如:bread, milk等。

⏹项目的集合I被称为项目集合(Itemset),简称项集。

❑I中元素个数称为项集的长度;⏹例如:超市出售6种商品,即:项集I中包含6个项目,则I的长度为6。

❑长度为k的项集称为k-项集(k-Itemset)。

⏹例如:对于项集{cake, milk},可称为2-项集。

项集的最小支持度与频繁集⏹用于发现关联规则的项集必须满足的最小支持度的阈值,称为项集的最小支持度(Minimum Support),记为sup min。

❑从统计意义上讲,它表示用户关心的关联规则必须满足的最低重要性。

❑只有满足最小支持度的项集才能产生关联规则。

⏹支持度大于或等于sup min的项集称为频繁项集,简称频繁集,反之则称为非频繁集。

❑通常,k-项集如果满足sup min,可称为k-频繁集,记作L k。

强关联规则⏹关联规则的最小支持度(Minimum Support)表示关联规则需要满足的最低支持度,记为sup min。

⏹关联规则的最小可信度(Minimum Confidence)表示关联规则需要满足的最低可信度,记为conf min。

⏹如果关联规则同时满足如下两个条件:support(X⇒Y) ≥ sup minconfidence(X⇒Y) ≥ conf min⏹称关联规则为强关联规则,否则称为弱关联规则。

⏹在挖掘关联规则时,产生的关联规则要经过sup min和conf min的衡量,筛选出来的强关联规则才能用于指导决策。

关联规则的挖掘:经典算法:Apriori算法关联规则挖掘包含以下两个步骤:⏹首先,找出所有频繁集;⏹其次,由频繁集产生强关联规则。

Apriori算法通过多次扫描数据集,找出所有频繁集,然后用这些频繁集产生强关联规则Apriori算法通过迭代来穷举出数据集中的所有频繁集。

⏹算法过程:❑输入数据集D,最小支持度阈值SUPmin❑首先,产生1-频繁集L1;❑其次,在L1上通过连接和修剪产生2-频繁集L2;❑依次类推,可在L k上通过连接和修剪产生(k+1)-频繁集L k+1;❑最后,直到无法产生新的频繁集为止。

⏹连接:只相差一个项目的两个项集才能进行连接(集合“并”操作)。

例如:由L2生成C3的过程中,L2中的{A,C}和{B,C}只相差一个项目,因此它们可以连接生成{A,B,C}。

但是,L2中的{A,C}和{B,E}无法进行连接。

⏹修剪:去除子集不是频繁集的项集。

Apriori算法的性质:频繁集的所有非空子集也一定是频繁的。

例如:虽然L2中的{A,C}和{B,C}可以连接生成{A,B,C},但是由于{A,B,C}的子集{A,B}不是频繁集(不在L2中),因此,需要从C3中删除{A,B,C} 。

描述算法过程:1.输入:数据集D,最小支持度阈值sup min。

2.K=13.产生CK:K-候选频繁集4.根据最小支持度筛选K-候选频繁集生成LK:K-频繁集5.循环2~3步骤,直到无法生成新的频繁集为止6.输出可以产生关联规则的所有频繁集L。

Apriori的挑战与改进思路⏹挑战❑多遍事务数据库扫描❑候选频繁项集的数目巨大❑候选项集的计数工作量较大⏹改进Apriori:思路❑减少事务数据库扫描次数❑减少候选项集数目❑有效支持候选项集的计数提高Apriori的有效性1.基于散列的技术2.事务压缩3.划分4.抽样5.动态项集技术四、数据分类与预测分类有那些方法,优缺点?判定树归纳分类(缺失数据敏感)-优点:1.决策树易于理解和解释2.能够同时处理数据型和常规型属性3.在相对短的时间内能够对大型数据源做出可行且效果良好的结果。

相关主题