数据挖掘概念与技术•数据挖掘概述o数据挖掘概念▪从大量数据中挖掘有趣模式和知识的过程。
数据源包括数据库、数据仓库、Web、其他信息储存库或动态流入系统的数据▪从数据中挖掘知识、数据中的知识发现(KDD)o知识发现过程▪(1)数据清理:消除噪声和删除不一致数据▪(2)数据集成:多种数据源可以组合在一起▪(3)数据选择:从数据中提取与分析与任务相关的数据▪(4)数据变换:通过汇总和聚集操作,把数据变换和统一成适合挖掘的形式▪(5)数据挖掘:基本步骤,使用智能方法提取数据模式▪(6)模式评估:根据某种兴趣度量,识别代表知识的真正有趣的模式▪(7)知识表示:使用可视化和知识表示技术,向用户提供可挖掘的知识o数据收集和数据库创建(20世纪60年代或更早)原始文件处理▪数据库管理系统(20世纪70年代-80年代初期)•高级数据库系统(20世纪80年代中期-现在)•高级数据分析(20世纪80年代后期-现在)o数据挖掘的数据类型▪数据库系统•组成o内部相关的数据(数据库)o管理和存取数据的软件程序▪定义数据库结构和数据储存,说明和管理并发、共享或分布式数据访问,面对系统瘫痪和未授权的访问,确保信息的一致性和安全性•关系数据库是表的汇集,每个表都被赋予一个唯一的名字•关系表中每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述•每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)•通常为关系数据库构建语义数据模型,如实体—联系(ER)数据模型▪数据仓库•数据仓库是一个从多个数据源收集信息的信息储存库,存放在一致的模式下,并且通常驻留在单个站点上。
数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
▪事务数据•一般地,事务数据库的每个记录代表一个事务,如顾客的一次购物,一个航班订票。
一个事务包含一个唯一的事务标识号(TransID),以及一个组成事务的项(如购买的商品)的列表。
事务数据库可能有一些与之相关的附加表,包含事务的其他信息,如商品描述。
▪其他类型的数据•时间相关或序列数据(历史记录、时间序列数据)、数据流(视频监控,它们连续播放)、空间数据(地图)、工程设计数据(建筑数据、集成电路)、超文本和多媒体数据(文本、图像)、图和网状数据(如社会信息网络)、万维网、特殊语义(次序、音视频内容、连接性)以及挖掘具有丰富结构和语义的模式o数据挖掘功能▪(1)特征化与区分•数据特征化:一般地汇总所研究类(目标类)的数据o基于统计度量和图的简单数据汇总o OLAP上卷o面向属性的归纳技术•数据区分:将目标类与一个或者多个比较类(对比类)进行比较o通过区分规则进行比较度量▪(2)频繁模式•频繁项集•频繁子序列(序列模式)•频繁子结构▪(3)关联和相关性挖掘•单维关联规则:包含单个谓词的关联规则•多维关联规则:涉及多个属性或谓词的关联▪(4)分类与回归•分类o概念:找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标点o方法▪分类规则(IF-THEN规则)▪决策树:类似于流程图的树结构、其中每个节点代表一个属性值上的测试,每个分支代表测试的一个结果,而树叶代表类或类分布▪数学公式▪类似于神经元的处理单元,单元之间加权连接▪朴素贝叶斯分类、支持向量机、K最邻近分类•回归:用来预测缺失的或难以获得的数值数据值,也包含基于可用数据的分布趋势识别。
•相关分析在分类和回归之前进行,它试图识别分类和回归过程显著相关的属性▪(5)聚类分析•概念:对象根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组。
对象的簇这样形成,使得相比之下在同一个簇中的对象具有很高的相似性,而与其他簇中的对象很不相似。
所形成的每个簇都可以看作一个对象类,由它可以导出规则。
聚类也便于分类化形成,即将观测组织成类分层结构,把类似的事件组织在一起。
▪(6)离群点分析•概念:找出数据集中与数据的一般行为或模型不一致的数据对象o统计与数据挖掘▪统计学研究数据的收集、分析、解释和表示,数据挖掘与统计学有天然的联系。
▪统计模型是一组数学函数、它们用随机变量及其概率分布刻画目标类对象的行为▪(1)统计模型可以是数据挖掘任务的结果,数据挖掘任务也可以建立在统计模型之上,于是,在大数据集中挖掘模式时,数据挖掘过程可以使用该模型来帮助识别数据中的噪声和缺失值。
▪(2)统计学研究开发一些数据和统计模型进行预测和预报的工具,对于从数据中挖掘各类模式,以及理解产生和影响这些模式的潜在机制,统计学是有用的。
▪(3)统计方法也可以用来验证数据挖掘结果,例如:建立分类或预测模型之后,应该使用统计假设检验来验证模型。
▪在数据挖掘中使用统计方法并不简单,如何把统计学方法用于大型数据集是一个巨大的挑战,许多统计学方法都有很高的计算复杂度。
o机器学习▪概念:计算机如何基于数据学习(或提高他们的性能),主要研究领域是计算机基于数据自动地学习识别复杂的模式,并做出智能的决断。
▪类型•监督学习:类似于分类,学习中的监督来自训练数据集中标记的实例•无监督学习:类似于聚类,输入额实例没有标记•半监督学习:在学习模型时,使用标记的和未标记的实例•主动学习:让用户在学习过程中扮演主动角色▪对于分类和聚类任务,机器学习研究通常关注模型的准确率。
除准确率以外,数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性,以及处理复杂数据类型的办法,开发新的、非传统的方法。
o数据挖掘应用领域:商务智能、Web搜索、生物信息学、卫生保健信息学、金融、数字图书馆和数字政府o数据挖掘主要问题▪挖掘方法•挖掘各种新的知识类型•挖掘多维空间中的知识•数据挖掘——跨学科的努力•提升网络环境下的发现能力•处理不确定性数据、噪声或不完全数据•模式评估和模式约束指导的挖掘▪用户界面•交互挖掘•结合背景知识•特定的数据挖掘和数据挖掘查询语言•数据挖掘结果的表示和可视化▪有效性和可伸缩性•数据挖掘算法的有效性和可伸缩性•并行分布式和增量挖掘算法▪数据库类型的多样性•处理复杂的数据类型•挖掘动态的、网络的、全球的数据库▪数据挖掘与社会•数据挖掘的社会影响•保护隐私的数据挖掘•无形的数据挖掘•数据预处理o概念▪数据对象:又称样本、实例、数据点或对象,一个数据对象代表一个实体▪属性•标称属性:值是一些符号或者事物的名称。
每个值代表某种类别,编码或状态,因此标称属性又被看作是分类的•二元属性:是一种标称属性,只有两种状态类别:0或1,0表示该属性不出现,1表示该属性出现。
o如果一个二元属性的两种状态具有同等价值并且携带相同的权重,则它是对称的,如果其状态的结果不是同等重要的,则它是非对称的。
•序数属性:其可能的值之间具有有意义的序或秩评定,但相继值之间的差是未知的。
•数值属性o区间标度属性:用相等的单位尺度度量。
区间标度的值有序,可以为0,正或负。
因此,除了秩评定以外,这种属性允许我们比较和定量评估值之间的差o比率标度属性:是具有固定零点的数值属性,即如果度量是比率标度的,则我们可以说一个值是另外一个值的倍数(或比率),此外这些值是有序的,因此我们呢可以计算值之间的差,也能计算均值、中位数、众数。
▪簇:数据对象的集合,使得同一个簇中的对象互相相似,而与其他簇中的对象相异。
▪数据矩阵:用于存放数据对象,由两种实体或“事物”组成,即行(代表对象),列(代表属性),因此被称为二模矩阵。
▪相异性矩阵:用于存放数据对象的相异性值,只包含一类实体,因此被称为单模矩阵。
o数据质量:准确性、完整性、一致性、时效性、可信性、可解释性o数据清理▪概念:通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致来“清理数据”。
▪缺失值处理•忽略元组•人工填写缺失值•使用一个全局变量填写缺失值•使用属性的中心度量(如均值或中位数)填充缺失值•使用给定元组属同一类的所有样本的属性均值或中位数•使用最可能的值填充缺失值▪噪声数据处理•分箱o箱均值光滑o箱中位数光滑o箱边界光滑•回归•离群点分析(聚类)o数据集成:将数据由多个数据源合并成一个一致的数据储存,如数据仓库o数据预处理原因:低质量的数据将导致低质量的挖掘结果o数据预处理重要性:可以显著地提高数据挖掘模式的总体质量,减少实际挖掘所需要的时间。
o数据预处理步骤:数据清理——数据集成——数据规约——数据变换o数据变换策略▪光滑:去掉数据中的噪声、包括分箱、回归和聚类▪属性构造(特征构造):由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。
▪聚集:对数据进行汇总或聚集▪规范化:把数据按比例缩放,使之落入一个特定的小区间,如(-1,1)或(0,1)▪离散化•概念:数值属性的原始值用区间标签或者概念标签替换•方法:分箱、直方图分析、聚类分析、决策树分析、相关分析▪概念分层•概念:定义一个映射序列,将低层概念映射到较高层,更一般的概念•方法o由用户在模式级显式地说明属性的部分序o通过显式数据分组说明分层的一部分o说明属性集但不说明它们的偏序,例:根据每个属性的不同值个数产生概念分层o只说明部分属性集,例:使用预先定义的语义关系产生概念分层o数据规约▪概念:用来得到数据集的规约表示,它小的多,但仍接近于保持原始数据的完整性。
▪策略•维规约o概念:减少所考虑的随机变量或属性的个数o类型▪小波变换、主成分分析:把原始数据变换或投影到较小的区间▪属性子集选择:检测和删除不相关、弱相关或冗余的属性或维•数量规约o概念:用替代的、较小的数据表示形式替换原数据o类型▪参数方法:回归、对数——线性模型▪非参数方法:直方图、聚类、抽样、数据立方体聚集•数据压缩o概念:使用变换,以便得到原数据的规约或压缩表示o类型▪无损的:原始数据能够从压缩后的数据重构,而不损失信息▪有损的:只能近似重构原数据•数据挖掘和联机分析处理o数据仓库▪数据仓库是一种数据库,它与单位操作数据库分别维护▪数据仓库允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持▪数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者决策过程。
o OLTP:联机事务处理系统,执行联机事务和查询处理o OLAP:联机分析处理系统,用不同的格式组织和提供数据,以满足不同用户形形色色的需求o数据库三层体系结构▪顶层:前端工具▪中间层:OLAP服务器▪底层:数据仓库服务器o数据仓库模型▪企业仓库•搜集了关于主题的所有信息,跨越整个企业,它提供整个范围内的数据集成,通常来自一个或多个操作数据库系统或外部信息提供者,并且是多功能的,包含细节和汇总数据▪数据集市•概念:包含企业范围内数据的一个子集,对于特定的用户群是有用的,其范围限定于选定的主题,数据通常是汇总的•独立的数据集市:数据通常来自一个或多个操作数据库系统或外部信息提供者,或来自一个特定的部门或局部地区产生的数据•依赖的数据集市:直接来自企业数据库▪虚拟仓库•是操作数据库上视图的集合,为了有效地处理查询,只有一些可能的汇总视图被物化o元数据▪概念:关于数据的数据,在数据仓库中,元数据是定义仓库对象的数据▪内容•数据仓库结构的描述:仓库模式、视图、维、分层结构、导出数据的定义、数据集市的位置和内容•操作元数据:数据血统、数据流通、管理信息•用于汇总的算法:度量和维定义算法,数据所处的粒度,划分,主题领域,聚集,汇总,预定义的查询和报告•由操作环境到数据仓库的映射:源数据库和它们的内容,信关描述,数据提取,清理,转换规则和默认值,数据刷新和净化规则,安全性(用户授权和存取控制)•关于系统性能的数据:除刷新、更新和复制周期的定时调度规则外,还包括改善存取和检索性能的索引和概要•商务元数据:商务术语和定义,数据拥有者和收费策略▪与其他数据区别•(1)元数据用作目录,帮助决策支持系统分析者对数据仓库的内容定位•(2)当数据由操作环境向数据仓库环境转换时,作为数据映射的指南•(3)对于汇总的算法,将当前细节数据汇总成稍加综合的数据,或将稍加综合的数据汇总成高度综合的数据•(4)元数据应当持久存放和管理(即存放在硬盘上)o数据立方体▪概念•由方体的格组成,每个方体对应于给定多维数据的一个不同级别的汇总。