当前位置:文档之家› 第2章数据仓库的数据存储与处理

第2章数据仓库的数据存储与处理


数据
源数据 元数据
第2章数据仓库的数据存储与处理
操作型 (元)数据
数据仓库 数据集市 (元)数据 (元)数据
other
sources
Metadata
Monitor &
Integrator
Operational
DBs
Extract Transform Load Refresh
Data Warehouse
访问数据的原则和数据的来源 商务元数据:商务术语和定义、数据拥有者信息 系统所提供的分析方法和公式、报表等信息
第2章数据仓库的数据存储与处理
Table
表2-3 元数据举例
逻辑名 定义
学生姓名 学校的主要成员,主要进行学习任务
物理存储 建立日期 最后更新日期 更新周期 表逻辑程序名
Student.table(数据库表) 2006年9月13日 2007年9月13日 每月
用箱平均值平滑 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29
用箱边界平滑 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34
第2章数据仓库的数据存储与处理
如何处理噪声数据(续)
2、聚类 将联系松散的数据当作孤立点,监测并且去除
孤立点。聚类集合之外的点即为孤立点。
2.3.4数据转换(Transform)
定义:将数据从源操作型业务系统的格式转换到企业数据 仓 库的数据格式。 两种类型的数据转换
记录级-选择、连接、规范化和聚集 字段级-单字段和多字段
单字段转换的基本方法:算法和查找表
注意:连接的复杂性。 1)不是关系情形 2)不同域情形 3)源数据有错误情形
第2章数据仓库的数据存储与处理
第2章数据仓库的数据存储与处理
数据平滑的分箱方法
price的排序后数据:4,8,15,21,21,24,25,28,34
划分为(等深的)箱 箱1:4,8,15 箱2:21,21,24 箱3:25,28,34
平均值平滑-箱中每个值被平均值替 换 中值平滑-箱中每个值被中值(排序 后出现次数最多的值)替换 边界平滑-最小最大值视为边界,箱 中每个值被靠近的边界值替换
第2章数据仓库的数据存 储与处理
2020/11/25
第2章数据仓库的数据存储与处理
主要内容
2.1 数据仓库的三层数据结构 2.2 数据仓库的数据特征 2.3 数据仓库的数据ETL过程 2.4 多维数据模型
第2章数据仓库的数据存储与处理
2.1 数据仓库的三层数据结构
数据集市 中的数据
数据仓库 中的数据
STUDENT(程序名称)
第2章数据仓库的数据存储与处理
2.3 数据仓库的数据ETL过程
传统的异种数据库集成-查询驱动
在多个异种数据库上建立包装程序(wrappers)和中介程序 (mediators )
查询驱动方法——当从客户端传过来一个查询时,首先使用 元数据字典将查询转换成相应异种数据库上的查询;然后,将 这些查询映射和发送到局部查询处理器;局部查询集成为全局 回答。
缺点:复杂的信息过滤和集成处理,竞争资源
数据仓库-更新驱动
将来自多个异种源的信息预先集成,并存储在数据仓库中, 供直接查询和分析
高性能
11
第2章数据仓库的数据存储与处理
传统的异种数据库集成:
转换/集成 查询



子结果/子查询 .......


数据仓库: 更新驱动
查询
查询
数据归集



.......
如果RA ,B 〉0,则A和B是正相关的;该值越大, 则A涵盖B的可能性越大。
如果A,B相关性大,分析时就可以删除其中 一个。
第2章数据仓库的数据存储与处理
1)数据集成(续)
○ 检测并解决数据值的冲突 不同的数据表示,不同的度量等等。 例如: 对现实世界中的同一实体,来自不同数据源的属性 值可能是不同的(如价格的单位:元、千元)。
第2章数据仓库的数据存储与处理
数据变换——规范化
※ 最小-最大规范化:对原始数据进行线性变换,使得数据 落在new_ maxA,new_minA区间内。
maxA,minA :属性A的最大与最小值 new_ maxA,new_minA:属性A变换后区间的最大与最小
值 例:(一般映射到[0,1]区间)工资在700~12000之间, 则工资7830规范化后为:
第2章数据仓库的数据存储与处理
2)数据变换
平滑:去除数据中的噪声。如分箱、聚类、回归。 聚集:对数据进行聚集和汇总,数据立方体的构建。 数据概化:沿概念分层向上汇总。 规范化:将数据按比例缩放,使之落入一个小的特定区间。
最小-最大规范化 z-score规范化 小数定标规范化 属性构造 通过现有属性构造新的属性,并添加到属性集中。
基于推断的方法确定。
第2章数据仓库的数据存储与处理
2)噪声数据
噪声:一个测量变量中的随机错误或偏差。 引起不正确属性值的原因:
数据收集工具的问题 数据输入错误 数据传输错误 技术限制 命名规则的不一致
第2章数据仓库的数据存储与处理
处理噪声数据方法
1、分箱(binning) 先排序数据,并将他们分到等深(宽)的箱中 然后对每箱使用平均值平滑、中值平滑和边界平 滑等方法


12
第2章数据仓库的数据存储与处理
2.3 数据仓库的数据ETL过程
ETL概念
数据ETL是用来实现异构数据源的数据集成,即 完成数据的如下工作:
抓取/抽取(Capture/Extract) 清洗(Scrub or data cleansing) 转换(Transform) 装载与索引(Load and Index)
现有库存量 更新日期
100
2008-7-25
200
2008-7-25
1天后简化的库存表(当前数据类型)
商品编号 商品名称
现有库存量 更新日期
A001 B002 C003
A品牌方便面 85
B品牌衣服
210
C品牌矿泉水 300
2008-7-26 2008-7-26 2008-7-26
第2章数据仓库的数据存储与处理
商品编号 商品名称
A001 B002 C003 A001
A品牌方便面 B品牌衣服 C品牌矿泉水 A品牌方便面
日销售量 销售日期
15
2008-7-25
50
2008-7-25
30
2008-7-26
25
2008-7-26
第2章数据仓库的数据存储与处理
2.2.3 数据仓库中的元数据
元数据就是定义数据的数据,也就是说明数据仓库对象的数 据.可以分成技术元数据与业务元数据。
等数据集成工作
第2章数据仓库的数据存储与处理
2.3.1 ETL的目标
ETL过程的目标:为决策支持应用提供一个单一的、 权威的数据源。
数据具有的特点:
详细的 历史的 规范化的
可以理解的 即时的 质量可控制的
第2章数据仓库的数据存储与处理
2.3.1 ETL的目标
操作性数据的特点:
即时的,而非历史的 规范程度不一,依赖于数据来源 限制在特定的应用范围 质量较差,例如不一致等
例如:银行取款事件K 帐户A余额S1 银行取款事件K 帐户A余额S2
上述数据(含状态数据和事件数据)均可以存储在数据库中。如:
事件数据: 日期 2010.2.20
帐户 取款标示 取款金额
43472
1
50000
状态数据: 帐户
43472 43472
日期
存/取
………
2010.1.25 存款
2010.2.20 取款
1)空缺值

数据并不总是完整的 例如:数据库表中,很多条记录的对应字段没有相应值。
第2章数据仓库的数据存储与处理
2.3.3数据清洗(Scrub/Cleaning)
1)空缺值(续)
引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据因为得不到重视而没有被输入 对数据的改变没有进行日志记载(不能恢复)
如:工资、基本工资、加班工资 28 第2章数据仓库的数据存储与处理
相关分析:讨论两个属性的相关性。
RA,B =
Σ[(A-A平)(B-B平)] (n-1) σA σB
其中A平、B平分别是A、B的平均值;σA 、σB分别 是A、B的标准差。
A平= ΣA/n σA= SQRT[Σ(A- A平)2/(n-1)]
第2章数据仓库的数据存储与处理
如何处理噪声数据(续)
3、回归 通过让数据适应回归函数来平滑数据(线性回
归或多线性回归)。
y
Y1
Y1’
y=x+1
X1
x
25
第2章数据仓库的数据存储与处理
如何处理噪声数据(续)
4、计算机和人工检查结合 计算机检测可疑数据,然后对它们进行人工判
断。
26
第2章数据仓库的数据存储与处理
OLAP Server
Analysis
Serve
Query Reports
Data mining
数据源
Data Marts
数据仓库服务器
OLAP服务器 前端工具 第2章数据仓库的数据存储与处理
2.2 数据仓库的数据特征
2.2.1、状态数据与事件数据
描述对象的状态即为状态数据,描述对象发生的事件即为事 件数据,两者关系为: 状态数据事件数据状态数据
第2章数据பைடு நூலகம்库的数据存储与处理
2.3.2数据的ETL过程描述
相关主题