数据预处理概述
例如:如果变量“眼睛颜色”有4个值:黑色、 蓝色、绿色、褐色。
*
特征值 编码
黑色
1000
蓝色
0100
绿色
0010
褐色
0001
*
变量的分类:连续型变量和离散型变量。 连续型变量也认为是定量型或是量度型,
是指在一定区间内可以任意取值的变量 。 离散型变量也叫定性型变量,是指全部可 能取到的不相同的值是有限个的变量。
例:
均值填补:
*
(2)随机填补法。
随机填补法是采用某种概率抽样的方式,从 有完整信息的元组中抽取缺失数据的填补值 的方法。
它虽然能够避免均值填补中填补值过于凝集 以及容易扭曲目标属性分布的弱点,使得填 补值的分布与真值分布更为接近。但它却增 大了估计量的方差,并且稳定性不够。
(3)热卡填补法。
数据预处理概述
2020年4月22日星期三
为什么要进行数据挖掘?
现实世界的数据是脏的 不完整: 缺乏属性值,缺乏有意义的属性,或者 只包含了汇总数据 e.g., occupation=“ ” 有噪声: 包含错误的数据或异常值 e.g., Salary=“-10” 不一致: 在代码或者名字中存在矛盾或不一致 e.g., Age=“42” Birthday=“03/07/1997” e.g., Was rating “1,2,3”, now rating “A, B, C” e.g., discrepancy between duplicate records
注:一种特殊类型的离散型变量是周期变 量,例如:星期、月和年中的日期。
*
与时间有关的数据分类: 静态数据——数据不随时间变化而变化 动态数据(时间数据)——随时间变化而变
化的属性。
注:大多数数据挖掘方法更适用于静态数据 ,在对动态数据进行挖掘时要有特殊的考虑 和预处理。
*
二、数据清理——缺失值的填补
*
项热目卡填补性法别(hot年de龄ck impu学ta生ti身on分)是规收定入一个或办多卡
个1排序属男性,按其>观45 察值大小否对全部观察高单位排序会
,2 如果选女择的是两31~个45以上的属否性,排序按高属性的入会
选3 顺序依女次进行。20~30
是
低
会
排4序属性男值完全相<同20 的观察单是位称为匹配低,缺失不值会
9
男
31~45
否
中
会
10
女
<20
是
低
会
*
(4)回归填补法。
回归填补法是指在现有观察值基础上,以含 有缺失值的目标属性为因变量,以与目标属 性相关性高的其它属性为自变量,建立最小 二乘回归模型或判别模型,以估计缺失值。
注意:以上几种方法都存在扭曲样本分布的 问题,如均值填补会降低属性之间的相关关 系,回归填补则会人为地加大变量之间的相 关关系等。
注:具有数值型值的特征有两个重要的属 性:其值有顺序关系和距离关系。
*
一个有两个值的分类型变量:
分类型变量的两个值可以平等或不平等。 原则上可以转化成一个二进制的数值型变量
,这种数值型变量有两个值:0或1;
而有N值的分类型变量原则上可以转化成 一个二进制的数值型变量,这种数值型变 量有N个值。
(1)均值填补法。
均值填补法是根据与含缺失值的目标属性相关性高的 其它属性的信息将样品分为若干组,然后分别计算各 组目标属性的均值,将各组均值作为组内所有缺失项 的填补值。
均值填补的优点是操作简便,并且可以有效地降低其 点估计的偏差。
但它的缺点也比较突出:首先,由于同组中的缺失值 由同一个值填补,填补结果歪曲了目标属性的分布; 其次,也导致在均值和总量估计中对方差的低估。
就5 用与之女匹配的观20~察30单位的属是性值来填补中。如果不有会
多6 例相匹女配,可取20~第30一例或随否机取其一。中如果没有会
相7 匹配的女,可以每31~次45减少一个否排序属性,高再找相匹会
配到8 的相元匹组 配男。 的如 ,果则直需31~到要45最重后新一规个定是排排序序属 属性 性, 。中还没有不找会
数据预处
理的主要 内容:
*
数据预处理的主要内容
一、原始数据的表述 二、数据清理 三、数据变换 四、元组的归约 五、属性的归约
一、原始数据的表述 数据样本是数据挖掘过程的基本组成部分。
每个样本都用几个特征来描述,每个特征有不 同类型的值。
*
常见的数据类型有:数值型和分类型。
数值型包括实型变量和整型变量
为什么数据预处理重要?
No quality data, no quality mining results! Quality decisions must be based on quality data
e.g., duplicate or missing data may cause incorrect or even misleading statistics.
*
异常值的探测方法
第一,一维样本异常点的检测方法
例如:如果所给的数据集用20个不同的值描述年龄特 征: 3, 56, 23, 39, 156, 52, 41, 22, 9,28, 139, 31, 55, 20, -67, 37, 11, 55, 45, 37 均值=39.9; 标准差=45.65 阈值=均值±2×标准差
对数据挖掘的实际应用而言,即使数据量很大, 具有完整数据的案例也非常少,这样就面临数据 的缺失问题。
应用数据挖掘方法之前如何处理这样现象,最简 单的办法是减少数据集,去掉所有有缺失值的样 本。
如果我们不想扔掉这些有缺失值的样本,就必须 找到它们的缺失值,用什么方法来实现呢?
填补缺失值。
*
1、)探测
在大型数据集中,通常存在着不遵循数据模 型的普遍行为的样本,这些样本和其他残余 部分数据有很大不同或不一致,叫做异常点 。
异常点可能是由测量误差造成的,也可能是 数据故有的可变性结果。
例如:在检测银行交易中的信用卡欺诈行为 时,异常点是可能揭示欺诈行为的典型例子 。
Data warehouse needs consistent integration of quality data Data extraction, cleaning, and transformation comprises the majority of the work of building a data warehouse