当前位置:
文档之家› 数据挖掘2015最新精品课程完整课件(第2讲)---数据预处理
数据挖掘2015最新精品课程完整课件(第2讲)---数据预处理
规范化(2)
Z-值规范化 (μ: 均值, σ: 标准差):
v'
v A
A
Ex. Let μ = 54,000, σ = 16,000. Then
73,600 54,000 1.225 16,000
优点:不需要知道数据集的最大 和最小 ,对离群点规范化效果好; 缺点:计算复杂度高。
数据预处理
数据挖掘的过程
模式解释和评估
Data Mining
数据预处理 数据搜集
问题定义
数据挖掘步骤
问题定义(和领域知识专家一道)
挖掘何种知识?明确要求 确定可用算法 确定需要用到的数据库和数据集 去噪、缺失值处理、数据类型转换、数据简化等
数据搜集
数据预处理
数据挖掘算法(分类、聚类和序列模式发现等)
连续属性
属性的值为实数 如: 温度、高度、重量 常用浮点型变量来表示
数据集的类型
记录
数据矩阵 文档数据 事务数据 World Wide Web 分子结构
空间数据 时间数据 序列数据 基因序列数据
图
顺序的
记录数据
记录的集合,每条记录又包含了固定的属性。
平滑噪声数据(2)
聚类(clustering),把相近的值组织为群或簇 (cluster),那些不在任何簇之内的点将被视为孤立 点(outlier)。
平滑噪声数据(3)
回归(regression),将数据拟合成一个数学函数, 与期望值有一定距离的点就被视为是孤立点。
平滑噪声数据(4)
计算机与人工检查相结合
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes
如: 人眼睛的颜色, 体温等。
对象
5 6 7 8 9 10
10
Divorced 95K Married 60K
通过一组属性描述一个对象
Divorced 220K Single Married Single 85K 75K 90K
有些令人感兴趣的属性无法得到,如女士的年龄。 有些属性在数据录入的时候可能被认为是不重要的,如 身高。 数据输入设备有时会出现故障。 不一致的数据已被删除。
数据中的噪声
主要是在数据搜集的过程中造成的
数据输入设备有时不够精确,如用秒表来测量风速。
数据输入设备有时会出现故障。
数据传输中的错误,如网络故障。
使用编码或者变换得到原数据的一个压缩表示。
无损压缩(lossless compression). 原始数据可以 由变换数据重构,且没有任何信息损失。
有损压缩(lossy compression).原始数据可以由变换 数据重构,有可容差的信息损失,如主成分分析 (Principal Component Analysis, PCA),小波变换 (Wavelet transformation)。 数据压缩主要是以有损压缩为主。
图数据
2 5 2 5 1
顺序数据
事务序列
Items/Events
An element of the sequence
顺序数据
基因序列数据
GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG
数据特点 结果表示:描述性或预测性知识 去除冗余 可视化
结果解释和评估
关于数据
数据
属性
数据(data)对象与其属性的 集合。 属性(attribute)是对象具有 的性质或特征
Tid Refund Marital Status 1 2 3 4 Yes No No Yes No No Yes No No No Single Married Single Married
有噪声
数据不一致
e.g., 在编码或者命名上存在差异 e.g., 过去的等级: “1,2,3”, 现在的等级: “A, B, C” e.g., 重复记录间的不一致性 e.g., Age=“42” Birthday=“03/07/1997”
数据的不完全性
主要是在数据搜集的过程中造成的
数据归约
数据归约 (2)
常用的数据归约策略
数据立方体聚集 维归约,e.g. 移除不重要的属性 数据压缩 数值归约,e.g. 使用模型来表示数据 离散化等
用于数据归约的时间不应当超过或“抵消”在 归约后的数据上挖掘节省的时间
数据压缩(Data compression)
Single Married Single Married
Divorced 95K Married 60K
Divorced 220K Single Married Single 85K 75K 90K
数据矩阵
若数据对象有固定数目的数值型的属性,则这些数据对象 可以看做是多维空间中的点,这其中的每个维代表不同的 属性。 这类数据可以看做是一个由m个对象,n个属性组成的 mn的矩阵。
http://fimi.ua.ac.be/
为什么对数据进行预处理
为什么进行数据预处理?
现实世界的数据是“肮脏的”——数据多了,什 么问题都会出现
不完整
缺少数据值;缺乏某些重要属性;仅包含汇总数据; e.g., occupation="" 包含错误或者孤立点 e.g. Salary = -10
数据预处理常常会占用整个挖掘60%的工作量
数据预处理的主要任务(1)
数据清洗(Data cleaning)
过滤缺失数据,平滑噪声数据,确定或去掉孤立点,解决 不一致问题。
数据预处理的主要任务(2)
数据集成(Data integration)
集成多个数据库,数据立方体,文件等。
数据变换(Data transformation)
如,假设把收入范围 $12,000~$98,000规范化到 [0.0, 1.0],则$73,600将映射到
73,600 12,000 (1.0 0) 0 0.716 98,000 12,000
保留了原有数据的关系,可以消除不同属性之间 的权重差异。
缺点:需要预先知道该属性的最大值与最小值
属性的类型
属性有若干种类型
名词性的
如: 眼睛的颜色, 籍贯 如: 成绩{优,良,中,差}, 身高{高, 中, 矮} 如: 日程表 如: 长度、时间、数量
顺序的
区间值的
数值型的
离散属性与连续属性
离散属性
只有有限可数的属性值 如: 邮政编码,一篇文章中词的数目 经常用整形变量来表示 布尔属性是特殊的离散属性
如何将来自不同数据源的实体结合在一起。 可以使用元数据来避免模式集成中的错误。 语义的异构:对真实世界的同一个实体,不同数据源的 属性往往也不同。 原因可能是表示、尺度及编码的不同,如长度的表示, 可以用“米”,也可以用“千米”。
检测并解决数据值的冲突
数据集成(2)
处理冗余
多数据库经常会产生冗余
顺序数据
时空数据
大陆与海洋的 月平均气温
数据挖掘研究的标准数据库
UCI Knowledge Discovery in Databases Archive
/
Frequent Itemset Mining Implementations Repository
先使用程序来发现某些可能为噪声的数据,然后 再用人工来确定这些是否为噪声。
修正不一致数据
有些知识工程工具可以自动发现一些不一致的 数据。 有些不一致的数据需要手工修正。 修改不一致的数据主要靠用户的参与。
数据集成
数据集成(1)
将来自多个数据源的数据集成为一个一致的数据 集市。 模式集成
timeout season coach game score team
ball
lost
pla y
wi n
Document 1 Document 2 Document 3
3 0 0
Байду номын сангаас
0 7 1
5 0 0
0 2 0
2 1 1
6 0 2
0 0 2
2 3 0
0 0 3
2 0 0
事务数据
记录数据的一种特殊类型,其中:
Tid Refund Marital Status 1 2 3 4 5 6 7 8 9 10
10
Taxable Income Cheat 125K 100K 70K 120K No No No No Yes No No Yes No Yes