当前位置：文档之家› 数据预处理概述

数据预处理概述

例如：如果变量“眼睛颜色”有4个值：黑色、蓝色、绿色、褐色。
*
特征值编码
黑色
1000
蓝色
0100
绿色
0010
褐色
0001
*
变量的分类：连续型变量和离散型变量。连续型变量也认为是定量型或是量度型，
是指在一定区间内可以任意取值的变量。离散型变量也叫定性型变量，是指全部可能取到的不相同的值是有限个的变量。
例：
均值填补：
*
（2）随机填补法。
随机填补法是采用某种概率抽样的方式，从有完整信息的元组中抽取缺失数据的填补值的方法。
它虽然能够避免均值填补中填补值过于凝集以及容易扭曲目标属性分布的弱点，使得填补值的分布与真值分布更为接近。但它却增大了估计量的方差，并且稳定性不够。
（3）热卡填补法。
数据预处理概述
2020年4月22日星期三
为什么要进行数据挖掘?
现实世界的数据是脏的不完整: 缺乏属性值，缺乏有意义的属性，或者只包含了汇总数据 e.g., occupation=“ ” 有噪声: 包含错误的数据或异常值 e.g., Salary=“-10” 不一致: 在代码或者名字中存在矛盾或不一致 e.g., Age=“42” Birthday=“03/07/1997” e.g., Was rating “1,2,3”, now rating “A, B, C” e.g., discrepancy between duplicate records
注：一种特殊类型的离散型变量是周期变量，例如：星期、月和年中的日期。
*
与时间有关的数据分类：静态数据——数据不随时间变化而变化动态数据（时间数据）——随时间变化而变
化的属性。
注：大多数数据挖掘方法更适用于静态数据，在对动态数据进行挖掘时要有特殊的考虑和预处理。
*
二、数据清理——缺失值的填补
*
项热目卡填补性法别（hot年de龄ck impu学ta生ti身on分）是规收定入一个或办多卡
个1排序属男性，按其>观45 察值大小否对全部观察高单位排序会
，2 如果选女择的是两31~个45以上的属否性，排序按高属性的入会
选3 顺序依女次进行。20~30
是
低
会
排4序属性男值完全相<同20 的观察单是位称为匹配低，缺失不值会
9
男
31~45
否
中
会
10
女
<20
是
低
会
*
（4）回归填补法。
回归填补法是指在现有观察值基础上，以含有缺失值的目标属性为因变量，以与目标属性相关性高的其它属性为自变量，建立最小二乘回归模型或判别模型，以估计缺失值。
注意：以上几种方法都存在扭曲样本分布的问题，如均值填补会降低属性之间的相关关系，回归填补则会人为地加大变量之间的相关关系等。
注：具有数值型值的特征有两个重要的属性：其值有顺序关系和距离关系。
*
一个有两个值的分类型变量:
分类型变量的两个值可以平等或不平等。原则上可以转化成一个二进制的数值型变量
，这种数值型变量有两个值：0或1；
而有N值的分类型变量原则上可以转化成一个二进制的数值型变量，这种数值型变量有N个值。
（1）均值填补法。
均值填补法是根据与含缺失值的目标属性相关性高的其它属性的信息将样品分为若干组，然后分别计算各组目标属性的均值，将各组均值作为组内所有缺失项的填补值。
均值填补的优点是操作简便，并且可以有效地降低其点估计的偏差。
但它的缺点也比较突出：首先，由于同组中的缺失值由同一个值填补，填补结果歪曲了目标属性的分布；其次，也导致在均值和总量估计中对方差的低估。
就5 用与之女匹配的观20~察30单位的属是性值来填补中。如果不有会
多6 例相匹女配，可取20~第30一例或随否机取其一。中如果没有会
相7 匹配的女，可以每31~次45减少一个否排序属性，高再找相匹会
配到8 的相元匹组配男。的如，果则直需31~到要45最重后新一规个定是排排序序属属性性，。中还没有不找会
数据预处
理的主要内容：
*
数据预处理的主要内容
一、原始数据的表述二、数据清理三、数据变换四、元组的归约五、属性的归约
一、原始数据的表述数据样本是数据挖掘过程的基本组成部分。
每个样本都用几个特征来描述，每个特征有不同类型的值。
*
常见的数据类型有：数值型和分类型。
数值型包括实型变量和整型变量
为什么数据预处理重要?
No quality data, no quality mining results! Quality decisions must be based on quality data
e.g., duplicate or missing data may cause incorrect or even misleading statistics.
*
异常值的探测方法
第一，一维样本异常点的检测方法
例如：如果所给的数据集用20个不同的值描述年龄特征： 3, 56, 23, 39, 156, 52, 41, 22, 9,28, 139, 31, 55, 20, -67, 37, 11, 55, 45, 37 均值=39.9; 标准差=45.65 阈值=均值±2×标准差
对数据挖掘的实际应用而言，即使数据量很大，具有完整数据的案例也非常少，这样就面临数据的缺失问题。
应用数据挖掘方法之前如何处理这样现象，最简单的办法是减少数据集，去掉所有有缺失值的样本。
如果我们不想扔掉这些有缺失值的样本，就必须找到它们的缺失值，用什么方法来实现呢？
填补缺失值。
*
1、）探测
在大型数据集中，通常存在着不遵循数据模型的普遍行为的样本，这些样本和其他残余部分数据有很大不同或不一致，叫做异常点。
异常点可能是由测量误差造成的，也可能是数据故有的可变性结果。
例如：在检测银行交易中的信用卡欺诈行为时，异常点是可能揭示欺诈行为的典型例子。
Data warehouse needs consistent integration of quality data Data extraction, cleaning, and transformation comprises the majority of the work of building a data warehouse

e商务文档

数据预处理概述

相关文档推荐：