数据仓库整体过程
业务探索 项
目 前 期 准 备 逻辑数据 模型 信息探索
交付项目:
《项目组织机构》 《项目人员组成》
步骤02:业务探索(Business Discovery)
主要任务:
– 确定重点用户与数据源 – 用户需求调研与确认 – 数据源确认 – 用户需求和数据源的筛选和分析
业务探索
项
目 前 期 准 备 逻辑数据 模型 信息探索
物理数据 模型 系 统 体 系 结 构 设 计 数据挖掘 服务 数据仓库管理 应用开发 数据转换 元 数 据 管 理
解
决 方 案 集 成
交付项目:
Байду номын сангаас
数据仓库实施方法论 项目具体实施步骤 BI (Business Intelligence)
BI 的任务
业务应用 和数据
Business Intelligence
业务探索 项
目 前 期 准 备 逻辑数据 模型 信息探索
利用工具:
Erwin
交付项目:
数据仓库逻辑数据模型LDM 《逻辑数据模型说明书》
步骤04:逻辑数据模型(LDM)示例
步骤05:系统体系结构设计
主要任务:
1. 对业务、技术环境及企业文化的充分了解,从 技术、组织、教育和支持等方面对系统进行全 面评估 2. 定义业务驱动力 3. 定义数据仓库成功的关键因素 4. 定义数据仓库的实施原则 5. 对系统体系结构各个组件进行详细设计
BI:集中的技能
Business Skills
Prioritise Link to and set corporate Alter strategy processes expectations
Establish Develop decision requirements alternatives Monitor Interpret BI results Summarise results Implement Competency and analyse changes Centre Discover and explore
数据采集与转换 用户存取及工具 备份系统 操作管理
步骤06:物理数据库设计
主要任务:
• • • • • •
元 数 据 管 理 数据挖掘 服务 数据仓库管理 解 决
物理数据 模型 系 统 体 系 结 构 设 计 应用开发 数据转换
转换逻辑数据模型(LDM)为物理数据模型 定义索引、分区等 非正规化处理(denormalizations) 数据库建立 设计优化 数据库功能测试
展示
分析
谢谢!
数据源及其特性定义 数据析取、转换和加载策略设计 构建和测试初始加载的程序和处理流程 构建和测试日常加载的程序和处理流程 40%-60%的工作量在数据转换与加载上
解
决 方 案 集 成
使用工具:
• Data Integrator、C、Perl
交付项目:
《 数据转换加载设计说明书》 《数据映射 (Data Mapping)说明书 》 数据转换加载脚本 ( ETL Scripts) 加载流程控制( ETL Process Control)
结论
体现业务价值
改良的计划和定位 优化性能 增强的客户联系
读取、分析企业信息,得出分析结论。为企业决策提供 科学可靠的数据依据。
BI 的三大支柱
Business Intelligence
Infrastructure or Tools
ETL or Data Quality Database Management Metadata Reporting Ad Hoc Analysis Data Mining
物理数据 模型 系 统 体 系 结 构 设 计 数据挖掘 服务 数据仓库管理 应用开发 数据转换 元 数 据 管 理
解
决 方 案 集 成
交付项目:
《系统体系结构设计说明书》
步骤05:体系结构设计组件
用户类型 拓扑结构 网络存取与互连 组织机构 安全性 数据体系结构
逻辑数据模型 元数据 数据质量 命名规范
步骤07:数据清洗方法
源系统
SQL, C, Sh
1) 在源系统上进行清洗 (数据析取前)
2) 在加载服务器上进行 清洗(数据析取后、 加载前)
ETL服务器
C, Sh
数据仓库
SQL
3) 在数据仓库里进行清 洗(数据加载后)
步骤08:前端应用开发
主要任务:
• • • • •
元 数 应用开发 据 管 理 数据挖掘 服务 数据仓库管理
交付项目:
《业务需求说明书BRL ( Business Requirement List )》 《概念数据模型CDM ( Conceptual Data Model )》 《数据接口规范》
步骤03:信息探索(Information Discovery)
主要任务:
– 分析用户需求 – 数据源分析 – 进行工具评估 – 系统安全性设计 – 系统命名规范设计
方
案 集 成
使用工具:
• ERWwin
交付项目:
物理数据模型(PDM) 《物理数据模型说明书》 《数据库描述语言DDL》
步骤06:物理数据模型(PDM)
步骤07:数据转换与加载(ETL)
主要任务:
• • • • •
元 数 应用开发 据 管 理 数据挖掘 服务 数据仓库管理
物理数据 模型 系 统 体 系 结 构 设 计 数据转换
物理数据模型
业务探索 项 目 前 期 准 备 系 统 体 系 结 构 设 计 元 数 据 管 理 解 决 方 案 集 成
数据转换
信息探索
应用开发
逻辑数据 模型
数据挖掘 服务 数据仓库管理
项目具体实施步骤
步骤01:项目前期准备
主要任务:
– 项目启动会议(Kick-off Meeting) – 确认项目范围和主要目标 – 确认项目阶段性验收及总体验收标准 – 确认项目实施计划 – 成立项目组 – 确定各项目小组的成员及各自的工作职责 – 确定各项目小组的阶段性工作目标 – 确定教育训练计划 – 确定服务流程及方式
步骤11:数据仓库管理
主要任务:
• • • • • • • 设计和开发数据仓库支持体系结构 开发和测试数据仓库日常运作流程 开发和测试性能监视程序 开发和测试数据备份与恢复程序 开发和测试安全系统 设计和开发操作人员/最终用户培训计划 建立用户支持和培训材料
物理数据 模型 系 统 体 系 结 构 设 计 数据挖掘 服务 数据仓库管理 应用开发 数据转换 元 数 据 管 理
DataWarehouse & Business Intelligence
数据仓库实施方法论 项目具体实施步骤 BI (Business Intelligence)
数据仓库实施方法论
规划 设计与实现
支持与增强
现成解决方案规划 修改 逻辑 数据 模型 详 细 数 据 分 析 解决 方案 定义 解 决 方 案 体 系 结 构 设 计 物理数据库 设计 数据转换 元 数 据 管 理 解 决 方 案 集 成 应用增强
容量规划
数据仓库的循环过程
数据仓库实施方法论 项目具体实施步骤 BI (Business Intelligence)
项目具体实施步骤
01. 项目前期准备 02. 业务探索(Business Discovery) 03. 信息探索(Information Discovery) 04. 逻辑数据模型设计 05. 系统体系结构设计 06. 物理数据库设计 07. 数据转换加载ETL 08. 前端应用开发 09. 数据挖掘服务 10.元数据管理 11.数据仓库管理(处理流程与操作) 12.解决方案集成(测试验收与试运行)
业务探索 项
目 前 期 准 备 逻辑数据 模型 信息探索
交付项目:
《功能需求列表FRL ( Function Requirement List )》 《系统安全性设计说明书》 《系统命名规范说明书》 《数据质量分析报告》
步骤04:逻辑数据模型设计
主要任务:
– 进行原始数据分析 – 建立实体模型 – 建立实体间依赖关系 – 完善并填入所有属性 – 建立数据库逻辑模型
交付项目:
《前端应用体系结构设计说明书》 《应用模块设计说明书 》 《用户使用手册 》
步骤09:数据挖掘服务
1. 知识发现 (Knowledge Discovery): 发现将数据转变成信息的潜在模式
数据
知识
信息
决策 与行动
2. 知识应用(Knowledge Deployment): 将发现的知识应用于某种目标,例如进行预测
物理数据 模型 系 统 体 系 结 构 设 计 数据转换
前端应用体系结构设计 OLAP应用设计(Summary/Fact表及Cub的产生) 前端应用开发(随机查询、预定义报表、 OLAP应用) 撰写用户使用手册 用户测试验收
解
决 方 案 集 成
使用工具:
• • • • 查询报表工具 OLAP工具(BusinessObjects, Cognos …) 基于Web的开发工具(WebIntelligence, InterDev …) 其他开发工具
Identify data Store, maintain and integrate data Extract data Analytic Skills IT Skills
一个分析结果的产生过程
OLAP服务器
数据仓库/集市
BI系统数据分析过程
转换
抽取
装载
设计
Metadata
DB
决策