当前位置：文档之家› 数据及数据预处理概述.

数据及数据预处理概述.

最有可能的值：基于诸如贝叶斯公式或决策树
推理
噪声数据

噪声：一个测量变量中的随机错误或方差原因收集工具故障数据录入问题数据传输问题技术限制命名约定不一致其他数据问题需要数据清理如重复记录数据不完整不一致的数据
如何处理噪声数据？

回归数据拟合聚类检测和删除离群结合计算机和人工检查检测可疑的数据（例如人工处理可能的异常值）

婚姻状况，职业，身份证号码，邮政编码二进制

只有2个状态（0和1）的属性对称二进制两种结果重要

例如，性别

不对称的二进制结果同样重要。

例如，医疗测试（正面与负面）
公约：将1至最重要的成果（例如，HIV阳性）价值观有一个有意义的顺序（排名），但不知道连续值之间的大小。大小={小，中，大}，等级，军队排名

数据集成中的冗余信息的处理

整合多个数据库经常发生数据冗余
identification：相同的属性或对象可能有不同的名字在不同的数据库中 Derivable data：一个属性可能是“派生”的另一个表中的属性，例如，年收入
Object
通过相关性分析和协方差分析可以检测到冗余的属性仔细集成来自多个数据源，可能有助于减少/避免冗余和不一致的地方，并提高读取速度和质量

序数词

2.2数据质量

被广泛接受的数据质量测量标准
准确性
完整性
一致性合时性
可信度
解释性
2.3数据预处理

数据预处理：概述
数据预处理主要任务
数据清洗数据集成数据缩减数据转换和数据离散化总结

2.3数据预处理主要任务

数据清理填写缺失值，平滑噪声数据，识别或删除离群，并解决不一致问题数据集成整合多个数据库，多维数据集或文件数据缩减降维

视频数据的图像序列

数据对象
数据集由数据对象组成一个数据对象代表一个实体例子

销售数据库：客户，商店物品，销售额医疗数据库：患者，治疗信息大学数据库：学生，教授，课程信息
称为样品，示例，实例，数据点，对象，元组（tuple）。数据对象所描述的属性。

数据库中的行
数据集成

数据集成

将来自多个数据源的数据组合成一个连贯的数据源
整合来自不同来源的元数据
模式集成：例如，A.cust-id B.cust-#

实体识别问题：

识别来自多个数据源的真实世界的实体，例如，Bill Clinton = William Clinton

数据冲突检测和解决
对于同一个真实世界的实体，来自不同源的属性值可能的原因：不同的表述，不同的尺度，例如，公制与英制单位
数据清洗

数据的误差检测使用元数据（例如，领域，范围，依赖，分销）检查是否溢出检查唯一性规则，连续统治和空的规则使用商业工具数据清理：使用领域知识（例如，邮政编码，拼写检查），检测错误并改正数据审计：通过分析数据检测违规者（例如，关联和聚类规则和关系，寻找离群）数据迁移和整合数据迁移工具：允许指定的转换 ETL（提取/转换/加载）工具：通过图形用户界面允许用户指定转换两个过程的集成迭代和交互
- >数据对象；列 - >“属性”。
属性

属性（或尺寸，特征，变量）：一个数据字段，代表一个数据对象的特征或功能。
例如，客户_ID，姓名，地址

类型：
标称
二进制
数字：定量规模区间
缩放比率
属性类型

标称：类别，状态，或“名字的东西”

Hair_color={黑色，棕色，金色，红色，红褐色，灰色，白色}

Numerosity reduction 数据压缩

数据转换和数据离散化正常化生成概念层次结构
数据清洗

在现实世界中的数据是“脏”的：
不完整的：缺少属性值，缺乏某些属性值，或
只包含总数据
例如，职业=“
”（丢失的数据）

含嘈杂的噪音，错误或离群
例如，工资=“-10”（错误）
不一致的代码或不符的名称
年龄=“42”生日=“03/07/1997” 曾经评级“1,2,3”，现在评级“A，B，C” 重复的记录之间的差异
不完整（缺少）数据

数据并不总是可用的
例如，许多元组没有属性，如客户收入、销售
数据的记录值

丢失的数据，可能是由于
设备故障
与其他记录的数据不一致，从而删除

图形和网络

2 1 1
6 0 2
0 0 2
2 3 0
0 0 3
2 0 0
万维网社会或信息网络分子结构有序时间数据：时间序列顺序数据：交易序列基因序列数据空间，图像和多媒体：空间数据：地图
TID
Items
1 2 3 4 5
Bread, Coke, Milk Beer, Bread Beer, Coke, Diaper, Milk Beer, Bread, Diaper, Milk Coke, Diaper, Milk
数据挖掘与商务智能
Data Mining & Business Intelligence 第二章数据及数据预处理
西安电子科技大学软件学院主讲人：黄健斌
内容提纲
2.1数据类型 2.2数据质量 2.3数据预处理 2.4数据相似性和相异性度量 2.5数据统计汇总 2.6数据可视化
2.1数据类型

因误会而未读入在读入的时候，某些数据可能不会被认为是重
要的不是历史或更改的数据注册

丢失的数据可能需要被推断
如何处理丢失数据？
忽略元组：通常是类标签丢失时（这样做分类），每个属性的缺失值有很大的差别手动填写遗漏值自动填写

全局常量属性含义属性意味着所有样本属于同一类
记录数据

关系记录数据矩阵，例如，数值矩阵，交叉文档数据：文本文件：词频向量交易数据
Document 1 Document 2 Document 3
timeout
season
coach
0 7 1
game
score
team
3 0 0
ball
0
wi n

e商务文档

数据及数据预处理概述.

相关文档推荐：