当前位置:文档之家› 大数据管理

大数据管理


3.1.4 数据清洗的实例
DataEye 原始数据源提供一组游戏下载时长数据集 如果直接计算游戏平均 下载时长,得到的结果为23
062.57 秒,约6.4小时,与
实际情况严重不符,说明这 一数据集受到噪声数据的显 著影响。
3.1.4 数据清洗的实例
将数据集等分为240 300 个区 间,找到数据集中区域[0,3 266.376],对取值之间的数 据做箱型图分析,对此区间外 的数据剔除离群值,重新计算 平均下载时长
3.2.2 数据转换
数据转换是将数据从一种表示形式变为另一种表示形式的 过程。由于每一个软件后台数据库的构架与数据的存储形式都 是不相同的,因此就需要对数据进行转换。例如,对两个操作
数进行运算,当操作数的类型不同,而且不属于基本数据类型
时,经常需要将操作数转换为所需要的类型,这个过程即为强 制类型转换。强制类型转换有两种形式:显式强制类型转换和 隐式强制类型转换。
3.1.1 数据质量
1.数据质量的四大要素
在技术发展的不同阶段,对数据质量有不同的定义 和标准。早期对数据质量的评价标准主要以数据准确性 为出发点,随着信息系统功能和定位的不断延伸,用户 关心的重点逐步由数据准确性扩展至合法性、一致性等
方面。归纳起来,数据质量具有四大要素:
①完整性 ②一致性 ③准确性 ④及时性
数据分析要求的数据源,是影响数据分析准确性的关键
因素。
3.1.3 数据清洗的方法和过程
1. 数据清洗的方法 ① 通过人工检查 ② 通过专门编写的应用程序 ③ 针对特定应用领域的数据清理 ④ 针对与特定应用领域无关的数据清理
3.1.3 数据清洗的方法和过程
2. 数ห้องสมุดไป่ตู้清洗的过程 第一阶段:数据分析、定义错误类型 第二阶段:搜索、识别错误记录 第三阶段:修正错误
(3)TINYINT 数据类型;(4)BIGINT 数据类型 2. 浮点数据类型 (1)REAL 数据类型;(2)FLOAT 数据类型 (3)DECIMAL 数据类型;(4)NUMERIC 数据类型
3. 二进制数据类型
(1)BINARY 数据类型 ;(2)VARBINARY 数据类型
3.2.1
数据类型
最后计算目标数据源的平均下载 时长为192.93 秒,约3.22 分, 符合实际情况。
通过数据分布特征及箱型图的方法来识别、剔除噪声 数据较为快捷且效果显著。
3.2 数据类型和数据转换
3.2.1 数据类型
1. 整理数据类型 (1)INT(或INTEGER)数据类型;(2)SMALLINT 数据
类型
(1)触发器方式;(2)时间戳方式;(3)全表比对方式 (4)日志表方式;(5)系统日志分析方式

谢 !
4. 逻辑数据类型 BIT 数据类型 5. 字符数据类型 (1)CHAR 数据类型;(2)NCHAR 数据类型 (3)VARCHAR 数据类型;(4)NVARCHAR 数据类型 6. 文本和图像数据类型
(1)TEXT 数据类型;(2)NTEXT 数据类型;(3)IMAGE
数据类型 7. 日期和时间数据类型 DATETIME 数据类型用于存储日期和时间
3.1 大数据的清洗
大数据时代下,管理的关键依靠着数据,但随着信息 量的不断增长、智慧工具的不断涌现,如何对数据进行有效 清洗实现数据的真实性,有效性,唯一性变得十分具有挑战。
为了使数据的记录更准确、一致,消除重复和异常记录就变
得很重要,所以数据预处理工作是相当必要的。数据清洗作 为数据预处理的一个重要环节,在大数据分析过程中占据重 要位置。
2. 数据质量管理的关键 ①制订规范的数据质量度量标准
②建立有效的数据质量监管体系
③建立完善的数据质量管理制度
3.1.2 数据清洗的作用
数据清洗就是按照一定的规则把“脏数据”“洗
掉”,过滤不符合要求的数据,主要包括不完整的数据、 错误的数据、重复的数据,然后将过滤的结果交给业务 主管部门,确认是否过滤掉还是修正之后再进行提取。 因此如何对数据进行有效的清理和转换,使之成为符合
第3章 大数据管理
本章内容
3.1 大数据的清洗
3.1.1 3.1.2 3.1.3 3.1.4 数据质量 数据清洗的作用 数据清洗的方法和过程 数据清洗实例
3.2 数据类型和数据转换
3.2.1 数据类型 3.2.2 数据转换
3.3 大数据的提取和加载 实验3 数据处理
3.3 大数据的提取和加载
大数据的提取和加载是指将转换好的数据保存到 数据仓库中去。大数据在加载时一般采用两种方式: ①完全刷新加载
从技术角度上说,完全刷新加载比增量提取和加载要简单得多,它适 用于数据量不大并且时间代价和条件代价较小的情况。
②增量提取和加载
如何精准快速地捕获变化的数据是实现数据增量加载的关键。
相关主题