当前位置:文档之家› 数据仓库-数据集市-BI-数据分析-介绍ppt课件

数据仓库-数据集市-BI-数据分析-介绍ppt课件

数据可信性:两个部门提供的数据是不一样的,让管理者无所适从
报表的生产率问题:由于OLTP的单项系统导致数据的分散性和相同元素定
义不一致所致不可能把数据转换成信息
数据动态集成问题:不同的需求,要求将操作型环境和分析型环境相分离
历史数据问题:单项系统之间保留的历史数据时间范围不一致,无法满足
DSS分析的需要数据的综合问题:非细节数据、多种程度的综合 提升现有的信息:
数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用
数据挖掘从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非
平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、 数据库、可视化技术等
OLAP On-Line Analytical Processing是数据仓库系统的主要应用,支持复杂的分析操作
广州市品高软件开发有限公司
9
数据仓库领域另外一名重要的人物
比尔·恩门的对头 随着拉尔夫·金博尔(Ralph Kimball)博士出版了他的第
一本书“The DataWarehouse Toolkit”(《数据仓库工具 箱》),数据仓库行业就开始喧哗起来,恩门的“Building the Data Warehouse”主张建立数据仓库时采用自上而下 (DWDM)方式,以第3范式进行数据仓库模型设计,而他 生活上的好朋友Ralph Kimball在“The DataWarehouse Toolkit”则是主张自下而上(DMDW)的方式,力推数据集 市建设,以致他们的FANS吵闹得差点打了起来,直至恩门推 出新的BI架构CIF(Corporation information factory),把 Kimball的数据集市包括了进来才算平息。
即席查询
自由组合条件
•可任意选择宽表字段
定义条件关系及值
•条件和值之间可以用= in等连接; •条件和条件之间可用or and之间连接
导出列编辑
•可编辑结果的显示列
输出结果
反向分析
23
数据应用之数据挖掘
数据挖掘:从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于
Association rule learning)的信息的过程
பைடு நூலகம்
元数据管理工具
元数 据工 具功 能
实体差异分析 主机拓扑图分析
元数据使用情况 元数据统计
指标库 血缘分析
实体关联度分析 过程查询
元数 据存 储
业务元数据
业务规则 业务描述 指标口径 ……
元数
据获 数据源
ETL

Webservice接口、JMI接口、XMI接口
管理元数据
流程定义 角色定义 组织架构
技术元数据
3
数据仓库的特点
面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分
离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户 使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。
集成的:面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独
较为交单 维度建模 高
交付 时间 部署成本
指导思想
需要很长的启动时间
较高的启动成本,较低的后续项目开 发成本 长期规划
可以快速部署应用
较低的启动成本,每个后 续项目成本接近
各部门需要有统一的构建 思想
结论:一般结合两种方式的优点混合使用
广州市品高软件开发有限公司
13
数据仓库体系架构
广州市品高软件开发有限公司
自下而上 1. 根据特定的业务过程建立数据集市; 2. 在各部门数据集市之上递增构建整个 企业的数据仓库
两种数据仓库构建方式对比
对比项 体系结构
复杂度 建模工具 易访问性
自上而下
先建立全企业的原子级数据仓库,然 后在此基础上建立部门级应用
自下而上
按照业务过程建立集市, 再通过整合建立数据仓库
非常复杂 传统ER模型 低
对特定平台作出相应调整
广州市品高软件开发有限公司
17
数据建模方法
范式建模法: Bill Inmon主张使用,
使用关系型数据库第三范式进行ER建模, 同业务系统的数据库建模类似
维度建模法: Kimball 最先提出这一
概念,按照事实表,维表来构建数据仓库,数据集市。 并针对各个维作了大量的预处理,这种方法的最被人 广泛知晓的名字就是星型模式(Star-schema),另 外还有雪花模型、星座模型、雪暴模型
据量大
工作单位 用户数 DB大小
简单的事务 上千个 100MB-GB
广州市品高软件开发有限公司
复杂的查询 上百个 100GB-TB
6
数据仓库是怎么产生的
在数据库技术的支持下,一大批成熟的业务信息系统投入运行,为企业发展做出了 巨大贡献。各类信息系统大多属于面向事务处理的OLTP系统,经过多年的运行, 积累了大量的数据,而管理决策层对数据分析基础平台的需求却日益强烈。
星型
雪花
18
两种建模方法比较
对比项 提出人 复杂度
范式建模
维度建模
Bill Innon
Kimball
比较简单,从关系型数据库角度出发, 建模简单,但由于在构建
比较方便构建
星型模式之前需要进行大
量的数据预处理,因此会
导致大量的数据处理工作
灵活性
较为灵活
性能

数据一致性 能够较好保证数据一致性
当业务发生变化,需要重 新进行维度的定义
广州市品高软件开发有限公司
10
议程
1. 数据仓库概念及由来 ✓ 基本概念 ✓ 产生背景
2. 数据仓库搭建 ✓ 数据整合 ✓ 数据建模 ✓ 数据管控
3. Oracle数据仓库产品介绍
两种数据仓库构建方式
自上而下 1. 进行全企业的数据建模和数据整合,并建
立原子级数据仓库; 2. 对于各部门的应用再建立相应的数据集市
数据仓库数据建模步骤
一般按照主题进行建模 一般步骤
✓梳理组织架构关系
✓抽象业务概念
✓具化抽象概念的属性✓针对特定物理平台
✓梳理系统用户、角色
✓分组业务概念,按照业务主线 ✓细化业务流程
作出相应的技术调整
✓梳理业务流程(实际工作流程)聚合类似的分组
✓针对模型的性能考虑
✓提出业务流程改进方法及措施 ✓理解分组概念之间的关联及关系
度小于30元的用现金缴费的女性,80%可能会流失
广州市品高软件开发有限公司
24
数据管控
数据管控主要包括元数据管理、数据质量管理、数据安全管理,全面提升数据管控能力
•数据质量管理
•数据安全管理 数据仓库
广州市品高软件开发有限公司
•元数据管理
25
元数据管理工具
元数据管理工具可加强数据的管控力度,增强系统自身管理能力,提升系统易用性
由于做了大量数据预处理, 查询性能很快。
只是依靠单纯的维度建模, 不能保证数据来源的一致 性和准确性
结论:一般在数据仓库底层使用范式建模,在数据集市层或多维数据库使用维度建模
数据应用-多维分析之切片、切块
数据应用-多维分析之钻取




60




按 时 间 维 向 下 钻 取
数据应用-多维分析之旋转
14
数据整合---ETL
ETL框架 采集
DB2 Oralce
…… 文件
ETL监控
转换
装载
数 据
数据转换
数据清洗
数 据




数据中心

任务管理
作业调度



数据抽取监控 磁盘IO监控 数据库监控
数据清洗监控
数据转换监控
网络IO监控
CPU监控
告警处理
元数据管理模块
数据质量管理模块
15
数据整合--ETL特点
数据应用之即席查询
用户根据自身需求,灵活的选择查询条件,系统根据用户的选择生成相应的统计报表
构建宽表模型
基本信息字段
工班日期 所属路段 所属区域 OD路径字段
收费站 车道
收费方式 车辆信息信息
异常行驶信息 绿色通道字段
收费信息字段 结算费用字段
分账信息字段 计重信息字段
通行卡字段 标识路径字段
广州市品高软件开发有限公司
计算口径错误 ….
文件传输出错 ….
错误的数据维护流程
责任心、责任人
人为调整数据流程 数据稽核流程
反馈渠道
管理措施 培训计划
流程类
管理类
结果
决策是 否正确
系统建 设成败
数据质量管理工具
监控 检查 报告
数据源 抽取
数据源
数 抽取
ETL 转换 轻度汇
高度汇

外部应用



工具
装载
总层 汇总
汇总
总层

抽取 总
线

外部应用
监控 数据
质量规则 元数据
规则匹 配计算
质量报告
质量报告主要包括报告时间、报告标题、报告类型、告警类型、严重级别、 报告内容等
广州市品高软件开发有限公司
ETL工具特点
1. 多种数据源支持:支持DB2、 ORACLE、MySql、SQLSERVER、 文件多种不同数据源的抽取; 2. 作业调度可视化配置:使用 图形化界面配置调度作业; 3. ETL过程监控:对采集、转换、 装载过程进行监控,在发生异常时 自动记录相关信息。
相关主题