当前位置:文档之家› 数据挖掘原理与实践蒋盛益版期末复习

数据挖掘原理与实践蒋盛益版期末复习

第一章数据挖掘定义技术层面:数据挖掘就是从大量数据中,提取潜在有用的信息和知识的过程。

商业层面:数据挖掘就是一种商业信息处理技术,其主要特点是对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。

数据挖掘任务预测任务根据其它属性的值预测特定属性的值,如分类、回归、离群点检测。

描述任务寻找概括数据中潜在联系的模式,如聚类分析、关联分析、演化分析、序列模式挖掘。

(1) 分类(Classification)分析分类分析,通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用此分类规则对其它数据库中的记录进行分类。

分类分析广泛应用于用户行为分析(受众分析)、风险分析、生物科学等。

(2) 聚类(Clustering)分析“物以类聚,人以群分”。

聚类分析技术试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中。

聚类可以帮助决定哪些组合更有意义,广泛应用于客户细分、定向营销、信息检索等等。

(3) 回归(Regression )分析回归分析是确定两种或两种以上变数间相互依赖的定量关系的一种分析方法。

其可应用于风险分析、作文自动评分等领域。

(4) 关联(Association)分析关联分析,发现特征之间的相互依赖关系,通常是从给定的数据集中发现频繁出现的模式知识(又称为关联规则)。

关联分析广泛用于市场营销、事务分析等领域。

聚类与分类的主要区别聚类与分类是容易混淆的两个概念,聚类是一种无指导的观察式学习,没有预先定义的类。

而分类问题是有指导的示例式学习,预先定义的类。

数据挖掘过程数据挖掘和知识发现紧密相连。

知识发现是从数据中发现有用知识的整个过程⏹知识发现的主要步骤:⏹数据清洗。

其作用是清除数据噪声和与挖掘主题明显无关的数据。

⏹数据集成。

其作用是将来自多数据源中的相关数据组合到一起。

⏹数据转换。

其作用是将数据转换为易于进行数据挖掘的数据存储形式。

⏹数据挖掘。

其作用是利用智能方法挖掘数据模式或规律知识。

⏹模式评估。

其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。

⏹知识表示。

其作用是利用可视化和知识表达技术,向用户展示所挖掘的相关知识从商业的角度看,数据挖掘过程可分为三个阶段数据收集:数据收集容易且不引人注意,但却是数据挖掘的基础。

知识是从海量数据里提取出来的,因此要挖掘知识必须得收集一定量的数据。

收集到的原始数据一般存在缺失值、错误值等问题,不能直接用作知识提取的数据源,需要进行数据预处理。

知识提取:基于经过预处理的数据,使用各种数据挖掘方法(如分类、聚类、关联分析等)进行知识提取,这是数据挖掘的核心部分。

知识辅助决策:数据挖掘技术已被广泛地应用于各领域,其提取出来的知识可以很好地辅助决策者做出良好的决策第二章数据统计特征数据的中心度量1数据集“中心”的最常用、最有效的数值度量是(算术)均值(mean)。

2设x1, x2,…, x N是N个值的集合,则该值集的均值定义为:截断均值:指定0和100间的百分位数p,丢弃高端和低端(p/2)%的数据,然后用常规方法计算均值,所得的结果即是截断均值。

中位数是p=100%时的截断均值,而标准均值是对应于p=0%的截断均值。

例:计算{1,2,3,4,5,90}值集的均值,中位数和p=40%的截断均值.解:均值是17.5,中位数是3.5,p=40%时的截断均值也是3.5数据预处理⏹数据清理⏹数据集成⏹数据变换⏹数据归约⏹数据离散化数据清理——噪声数据的平滑方法⏹目前噪声数据的平滑方法包括:⏹分箱:分箱方法通过考察“邻居”(即周围的值)来平滑有序数据的值。

⏹聚类:聚类将类似的值组织成群或“簇”。

⏹回归:让数据适合一个函数来平滑数据。

数据平滑实例⏹一组排序后的数据(单位:元):4,8,15,21,21,24,25,28,34⏹划分为等深的箱❑箱1:4,8,15❑ 箱2:21,21,24 ❑ 箱3:25,28,34⏹ 用箱平均值进行平滑❑ 箱1:9,9,9(下同)⏹ 用箱的边界进行平滑❑ 箱1:4,4,15 ❑ 箱2:21,21,24 ❑ 箱3:25,25,34数据变换——规范化⏹ 最小-最大规范化:aa av vmin max min '--=,优点:计算简单⏹ Z -score 规范化: aadev d s mean v v ()_tan '-=, a mean 是均值,a dev d s _tan 为标准差⏹ 小数定标规范化: 的最小整数1|)v (| max 是使j 其中,,10''<=jvv离散属性间的相关性计算❑ 离散型数据间相关性计算(互信息)⏹ 特征x 的信息熵⏹ 已知变量y 后x 的条件信息熵⏹ 信息增益数据对象之间的相异度⏹ 距离:❑ 欧几里得距离∑=-=nkk k y x y x d 12)(),(其中,n 的维数(总特征数),X k 和Y k 分别表示X 和Y 的第k 个分量❑ 闵可夫斯基(Minkowski )距离xnk x k k q p dist 11)||(∑=-=❑ x =1,城市块(曼哈顿)距离 ❑ x =2,欧几里得距离❑ x =∞,切比雪夫(Chebyshev)距离二值属性⏹ 二元数据相似性度量 M 01 = x 取0并且y 取1的属性的个数 M 10 = x 取1并且y 取0的属性的个数 M 00 = x 取0并且y 取0的属性的个数 M 11 = x 取1并且y 取1的属性的个数⏹ 简单匹配系数(Simple Matching Coefficient,SMC): SMC = 值匹配的属性个数 /属性个数 = (M 11 + M 00) / (M 01 + M 10 + M 11 + M 00)⏹ Jaccard 系数 J = 匹配的个数 /不涉及0-0匹配的属性个数 = (M 11) / (M 01 + M 10 + M 11)例子X = (1 0 0 0 0 0 0 0 0 0) Y = ( 0 0 0 0 0 0 1 0 0 1)M 01 = 2 (x 取0并且y 取1的属性的个数) M 10 = 1 (x 取1并且y 取0的属性的个数) M 00 = 7 (x 取0并且y 取0的属性的个数) M 11 = 0 (x 取1并且y 取1的属性的个数)SMC = (M 11 + M 00)/(M 01 + M 10 + M 11 + M 00) = (0+7) / (2+1+0+7) = 0.7 J = M 11 / (M 01 + M 10 + M 11) = 0 / (2 + 1 + 0) = 02.18 以下表格包含了属性name ,gender ,trait -1,trait -2,trait -3,及trait -4,这里的name 是 对象的id ,gender 是一个对称的属性,剩余的trait 属性是不对称的,描述了希望找到的笔友的个人特点。

假设有一个服务是试图发现合适的笔友。

对 不对称的属性的值,值P 被设为1,值N 被设为0。

假设对象(潜在的笔友)间的距离是基于不对称变量来计算的。

(a)计算对象间的简单匹配系数;SMC(Keavn,Caroline)=(2+2)/(0+0+2+2)=1SMC(Keavn, Erik) = (0+0)/( 2+2+0+0) = 0SMC(Caroline,Erik) = (0+0)/( 2+2+0+0) = 0(b)计算对象间的Jaccard 系数;Jaccard(Keavn,Caroline)=2/(2+0+0)=1Jaccard(Keavn,Erik)=0/(0+2+2)=0Jaccard(Caroline,Erik)=0/(0+2+2)=0(c)你认为哪两个人将成为最佳笔友?哪两个会是最不能相容的?根据属性的匹配程度,Keavn和Caroline将成为最佳笔友,Caroline和Erik会是最不能相容的(d)假设我们将对称变量gender包含在我们的分析中。

基于Jaccard系数,谁将是最和谐的一对?为什么?若将对称变量gender包含在分析中,设值M被设为1,值F被设为0,Jaccard(Keavn,Caroline)=2/(2+1+0)=2/3Jaccard(Keavn,Erik)=1/(1+2+2)=1/5Jaccard(Caroline,Erik)=0/(0+2+3)=0因为Jaccard(Keavn,Caroline)最大,因此,Keavn和Caroline是最和谐的一对。

第三章分类的定义❑分类是数据挖掘中的一种主要分析手段❑分类的任务是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,如:分类与回归的区别❑分类和回归都有预测的功能,但是:⏹分类预测的输出为离散或标称的属性;⏹回归预测的输出为连续属性值;❑分类与回归的例子:⏹预测未来某银行客户会流失或不流失,这是分类任务;⏹预测某商场未来一年的总营业额,这是回归任务。

分类与聚类的区别❑分类因为使用了类标号属性,属于有监督的学习方法❑聚类,事先没有使用任何类标号信息,属于无监督的学习方法决策树的基本概念⏹决策树(Decision Tree)是一种树型结构,包括:决策节点(内部节点)、分支和叶节点三个部分。

⏹其中:❑决策节点代表某个测试,通常对应于待分类对象的某个属性,在该属性上的不同测试结果对应一个分支。

❑ 叶节点存放某个类标号值,表示一种可能的分类结果。

❑ 分支表示某个决策节点的不同取值。

❑ 决策树可以用来对未知样本进行分类,分类过程如下:从决策树的根节点开始,从上往下沿着某个分支往下搜索,直到叶结点,以叶结点的类标号值作为该未知样本所属类标号。

决策树的属性选择⏹ 虽然可以采用任何一个属性对数据集进行划分,但最后形成的决策树会差异很大。

需要寻找合适的属性选择方法。

⏹ 属性选择是决策树算法中重要的步骤,常见的属性选择标准包括信息增益和Gini 系数。

❑ 信息增益是决策树常用的分枝准则,在树的每个结点上选择具有最高信息增益的属性作为当前结点的划分属性。

❑ Gini 系数是一种不纯度函数,用来度量数据集的数据关于类的纯度。

获得大小合适的树⏹ 决策树学习的目的是希望生成能够揭示数据集结构并且预测能力强的一棵树,在树完全生长的时候有可能预测能力反而降低,为此通常需要获得大小合适的树。

⏹ 一般来说有两种获取方法:❑ 一种为定义树的停止生长条件,常见条件包括最小划分实例数、划分阈值和最大树深度等。

❑ 另一种方法是对完全生长决策树进行剪枝,方法是对决策树的子树进行评估,若去掉该子树后整个决策树表现更好,则该子树将被剪枝。

ID3分类算法⏹ 它使用信息增益(information gain)作为属性的选择标准。

相关主题