数据预处理的方法
冗余问题
数据集成往往导致数据冗余,如同一属性多次出现,统一属性命名不一致等,对 于属性间冗余可以用先关分析检测到,然后删除的方法,来减少冗余问题的出现
数据 变换
主要是找到数据的特征表示,用维变换或转换 方法减少有效变量的数目或找到数据的不变式
规格化
规约
却换
旋转
投影
将元祖按语义层次结构合并
语义层次结构定义了元组属性值之间的语义关系, 规约化和规约能大量减少元组个数,提高计算效率
数据挖掘
课程名称:数据挖掘 知 识 点:数据预处理方法
大量 的
隐含在其中的
数据
提取
人们事先不知道的
有潜在的有用的
信息和知识
数据挖掘
现实是质不量 完整,改进不数一据挖致掘的的脏效果数据,无法直接进行据分数据挖掘
数据预处理技术
析
➢ 严重提影高数响据到挖数掘过据程挖的掘效率算,法精度的,执性行能 效率,可能导致挖掘和挖结果的偏差
掘
在一个完整的数据挖掘过程中,数据预处理要花费60%左右的 时间,而后的挖掘工作仅仅占工作量的10%左右
数据挖掘
从对不同的源数据进行预处理的功能来分
数据 清理
数据 集成
数据 变换
数据 规约
提高了数据挖掘模式的质量,降低实际挖掘所需要的时间 实际的数据预处理过程中,这4种功能不一定都用得到
他们的使用也没有先后顺序,某种预处理可能先后要多次进行
使用最肯定的值填充空缺值
脏数据能使挖掘过程陷入 混乱,导致不可靠的输出
1、手工实现方式 2、用专门编写的应用程序 3、采用概率统计学远离查找数值异常的记录 4、对重复记录的检测和删除
数据 集成
实体识别 问题
在数据集成时候,来自多个数据源的现实世界的实体有时并不一定是匹配的, 可以根据数据库或者数据仓库的元数据来区分模式集成中的实体识别错误
通过选择替代的、较小的数据表示形式来减少数据量 数值归约技术分类: 有参 回归:线性回归和多元回归
对数线性模型:近似离散属性集中的多维概率分布 无参 直方图,聚类,选样三种技术
数值归约
数据压缩
无损压缩和有损压缩 有损数据压缩方法是小波变换和主要成分分析
数据规约的策略
离散化和概念分层
通过收集并用较高层的概念替换较低层的概 念来定义数值属性的一个离散化
规格化和规约过程提高了知识发现的起点,使得一个 算法能够发现多层次的知识,适应不同应用的需要
将数据库中的海量数据进行规约,规约之 后的数据仍接近于保持原数据的完整性
数据 规约
通过删除不相关的属性(或纬)减少数据量,压 缩了数据集,减少出现在发现模式上的属性数目
采用属性子集选择方法找出最小属性
维规约
数据集对成于现通实过世应界的用同间一的实体数,据来交自不换同从数而据源达的到属集性值成可,能主不同要解决数 据的表示分布性和比异例 构性的问编码题,其数前据类提型是被集单统位成一不应用必字须段不长同公度 开 数据就结要构用,到数即据必值须冲突公检开测表与处结理构方,法,表来间实关现对系属,性编值的码统的一含义等
数值属性的概念分层可以根据数据的分布分 析自动地构造,如用分箱、直方图分析、聚 类分析、基于熵的离散化和自然划分分段
数据预处理的相关过程和方法
数据清理是要去除源数据集中的噪声数据和无关数据,处 理遗漏数据和清洗脏数据,空缺值,识别删除孤立点等
数据 清理
去除噪 声数据
空缺值 处理
清洗脏 数据
噪声是一个测量变量中的随即错误和偏差, 包括错误的值或偏离期望的孤立点值
分箱法、聚类法识别孤立点、回归
如用一个全局常量替换空缺值,使用属性的平 均值填充空缺值或将所有元组按照某些属性分 类,然后用同一类中属性的平均值填充空缺值