当前位置:文档之家› 数据仓库与电信EDA简介

数据仓库与电信EDA简介

因此不需要事务处理、恢复和并发控制机制。数据仓库里的 数据通常只需要两种操作:初始化载入和数据访问,因此其 数据相对稳定,极少或根本不更新。
据,而不仅仅是某一个时刻的数据
3
数据仓库与生产数据库的比较
操作型数据库系统 系统目的 使用人员 支持日常操作 办事员、DBA、数据库专家
分析型数据仓库 支持管理需求、获取信息 经理、管理人员、分析专家
数据内容
数据特点 数据组织 存取类型 数据稳定性 操作需求特点 操作特点 数据库设计 一次操作数据量 存取频率 响应时间
当前数据
细节的 面向应用 增加、更改、查询、删除 动态的 操作需求事先可知道 一个时刻操作一单元 基于ER图 一次操作数据量小 比较高 小于1秒~2、3秒
历史数据、派生数据
综合的,或提炼的 面向主题 查询、聚集 相对稳定 操作需求事先不知道 一个时刻操作一集合 基于星型模式、雪花模式 一次操作数据量大 相对较低 几秒~几分钟
3
数据仓库模型设计—雪花模型
数据仓库模型设计—星型模型
数据仓库模型设计—多维模型
数据仓库模型设计—多维模型
为了分析方便,将同一维度的不同层次的维度(如地市ID,区 县ID)都融合到事实表中。 维度模型也是星型模型。
强调的是先对维度进行预处理,将多个维度集合到一个事实
表,包含了多个维度,这样可以组合各维度,形成灵活的报 表查询。
数据仓库体系架构
工具:
Teradata,Greenplum Oracle,DB2,SqlServer
Hadoop
数据仓库体系架构
展现和应用层
TOPIC

数据仓库简介 EDA简介 Q&A


26
EDA架构
EDA架构
EDA架构
EDA架构
电信ODS和EDW的相同点
31
电信ODS与EDW比较
数据仓库体系架构
仓库—接口层
接口层
也称STAGE,ODS层;特点如下:
1. 采集外围的源系统的数据;如CRM,计费等 2. 此层的数据模型与源系统基本保持一致!
3. 根据不同数据的特点,采集数据频率和实时性
有所不同;
数据仓库体系架构
仓库—整合层
整合层
1. 数据仓库的核心层;
2. 按照主题体系进行组织的细节数据;一个细节
1
集成(Integrated)
数据仓库通常是结合多个异种数据源构成的,异种数据源可能
数据仓库通常围绕一些主题,如“产品”、 “销售商”、“消费者”等来进行 组织。
包括关系数据库、面向对象数据库、文本数据库、Web数据库、
2
数据仓库关注的是决策者的数据建模与分析, 一般文件等 而不针对日常操作和事务的处理。因此,数
数据表可以来自多个不同源系统的接口层的数 据;
3. 采用统一数据模型(多维);数据原则上是统一
编码格式; 4. 数据来源----接口层;数据输出----汇总层
数据仓库体系架构
仓库—汇总层
汇总层
1. 按主题加工需要,形成汇总数据
2. 通过维度(日期、地域、产品等)对运营、分析 数据进行汇总的数据
3. 可有轻度汇总数据;然后进行高层汇总
32
电信ODS与EDW比较
33
电信ODS与EDW比较
34
TOPIC

数据仓库简介 EDA简介 Q&A


35
Q&A36小时,分钟等级别数据仓库体系架构
ETL
ETL(Extract-Transform-Load ) 是构建数据仓库的重要一环,用户 从数据源抽取出所需的数据,经过 数据清洗,最终按照预先定义好的 数据仓库模型,将数据加载到数据 仓库中去。 工具:Informatic, DataStage, Kettle, Datax,Sqoop
4. 数据来源----整合层或本层
数据仓库体系架构
DEMO
汇总 表A
汇总 表B
汇总层
明细 表A
明细 表B
明细 表C
整合层
CRM
计费
账务
流量
接口层
CRM
计费
账务
流量
源数据
数据仓库体系架构
数据集市
1. 简称DM,以某个应用为出发 点而建设的局部DW; 2. DM只关心自己需要的数据, 不会全盘考虑企业整体的数据 架构和应用,每个应用都有自 己的DM。 3. 规模小;面向部门,由业务部门 管理和维护;
数据仓库
1 2 3
数据仓库概述 数据仓库模型设计 数据仓库体架构
12
数据仓库体系架构
数据仓库体系架构
源数据
1. 一般取自生产数据库的镜
像,从库;尽量减少对线 上生产库的影响;
2. 按文件类型:RDBMS、文
本文件、HDFS、消息流 等;
3. 结构化,半结构化和非结
构化 4. 按取数频率:月,周,日,
据仓库提供了特定主题的简明视图,排除了 对于决策无用的数据
4
特征
时变(Time Variant)
非易失(Nonvolatile)的数据集合
数据存储从历史的角度提供信息,数据仓库中 包含时间元素,它所提供的信息总是与时间相 关联的。数掘仓库中存储的是一个时间段的数
数据仓库总是与操作环境下的实时应用数据物理地分离存放,
数据仓库与电信EDA简介
中国电信 上海信息化研发中心 2015年11月
TOPIC

数据仓库简介 EDA简介 Q&A


2
数据仓库
1 2 3
数据仓库概述 数据仓库模型设计 数据仓库体系架构
3
数据仓库
数据仓库(DataWarhouse)是一个面向主题、集成、时变、非易失的数据集合,是支持管理
部门的决策过程。 面向主题(Subject Oriented)
数据仓库
1 2 3
数据仓库概述 数据仓库模型设计 数据仓库体系架构
6
数据仓库模型设计

1
事实表(Fact Table)
事实表包含的是业务数据信息,数据取值通 常是可度量的、连续型的,且具有可加性, 数据量可达到几百万甚至上亿条记录。
2

4
维表( Dimension Table)
维表包含的是相应维度的描述型信息,这些信 息用作查询的约束条件,一般是离散的、描述 性的,不具有可加性。
数据仓库体系架构
ETL-INFOMATICA
数据仓库体系架构
ETL-INFOMATICA
数据仓库体系架构
仓库
ETL(Extract-Transform-Load )
是构建数据仓库的重要一环,用户
从数据源抽取出所需的数据,经过 数据清洗,最终按照预先定义好的
数据仓库模型,将数据加载到数据
仓库中去。 工具:Informatic, DataStage,
相关主题