当前位置:文档之家› 数据仓库实施参考手册

数据仓库实施参考手册


数据建模-HDS建模
HDS建模没有特别复杂的工作要做,数据模型基 本与源系统数据结构一致,唯一的工作就是消除数 据来源的异构性,如果数据来源是非关系型数据库 表结构的话(如EXCEL格式数据),那么需要在 HDS中针对来源进行建模。是否建立HDS,根据 与客户方商议的结果而定
数据建模-ODS建模
源数据分析
1. 识别及审核数据范围,来源及所有者,获取业务系 统物理表清单 ; 2. 建立数据仓库与业务系统的数据源通道 ; 3. 源数据整理:
表信息整理:类型、数据增长方式、历史数据修改方 式、有效开始时间、总记录数、月平均增长记录数; 字段信息整理:业务含义、数据类型、长度、精度、 是否主键、是否为空、业务规则;
数据建模-DDS建模
1. 2. 3. 根据《需求分析文档》识别主题域,建立主题分类,并定义 具体的主题单元; 识别每个主题单元的度量和维度,可根据业务性质,适当的 合并一些维度; 对所有度量进行详细定义,内容包括名称、含义、计算公式 、汇总公式、业务规则、单位等等; 对所有维度进行详细定义,定义其名称、含义、业务规则等 信息,并定义维度之间的层次关系; 识别并定义维度的属性 定义主题单元的维度表和事实表的物理模型; 表与字段的标准化处理,其中,基本字段沿用ODS的定义, 衍生字段(即不存在于ODS的字段)则按照命名规范进行定 义; 对DDS的表与字段的名称及含义进行名称唯一性检查; 定义DDS数据字典及表的创建脚本(DDL); 定义ODS与DDS的数据映射关系; 根据DDS的创建脚本在数据库中建表。 对DDS的索引进行规划; 对DDS的数据存储进行优化。
4.
5. 6. 7. 8. 9. 10. 11. 12. 13.
ETL
1. 2. 确定数据采集的方案; 定义ETL调度的策略,调度的策略应综合考虑以下几方面:
1) 2) 3) 4) 执行效率和可维护性之间取得平衡; ODS内部表之间的父子关系; DDS内部表之间的父子关系; ODS与DDS之间表的映射关系;
应用开发组职责和角色
小组 职责描述 相关角色 应用开发组 负责建立前端应用架构; 负责建立安全访问机制,与客户共同确定各类型用户访 问的具体权限要求; 建立统一的用户界面标准和风格; 负责报表设计与开发; 负责自定义查询的设计与开发; 负责OLAP的设计与开发; 负责特定应用的设计与开发; 应用设计开发人员 BI设计开发人员 统计分析人员(可选 )、数据挖掘人员( 可选)
1)


2)
各阶段任务定义和进度安排 项目阶段成果的评审
组长日常工作职责
1. 2.
3.
4. 5. 6.
协助项目经理制定阶段性工作计划; 根据阶段性工作计划,分解并制定本组的工作周 计划,将计划中涉及的任务分配给小组各成员; 根据周计划跟踪小组的工作进展,检查组员的工 作成果,并确保相关文档的齐全; 每周向项目经理提交小组工作报告,汇报小组的 工作情况及遇到的问题; 协助项目经理对组员进行绩效评估; 由各组组长协调小组之间的日常工作,必要时由 项目经理进行协调;
需求定义
1. 分配需求调研任务; 2. 确定访谈的各类信息; 3. 了解目标部门的业务活动、业务系统、日常报表; 4. 制定访谈计划,必要时制定调查问卷 ; 5. 对目标部门进行访谈 (技术部门和业务部门); 6. 整理访谈结果,记录问题,寻求客户方解答; 7. 需求分析(业务、技术、数据三方面); 8. 编写需求分析文档; 9. 内部评审需求分析文档,提交客户方确认; 10. 需求管理
定义实施计划
任务成果评审
成果提交
客户验收
任务成果提交
项目实施总体流程
项目准备
1. 人员培训
数据仓库培训 技术专项培训 项目管理培训
2. 工作环境准备
工作设备 项目制度与规范 文档目录结构定义
பைடு நூலகம்3. 了解客户背景,尽可能熟悉主要的业务情况
项目规划
1. 项目定义


项目的远期目标; 根据远期目标,将项目划分为几个阶段,确定各阶段的目标、范 围、时间、资源、实施策略等等; 重点讨论第一阶段实施的具体范围、内容、方法、进度安排等等
分析《源数据数据字典》中各表各字段的业务含义,并理解 表之间的业务关系; 2. 建立ODS的概念模型,包括主要实体的定义及实体间的关系 ,概念模型可忽略实体属性的定义; 3. 建立ODS的逻辑模型,包括所有实体的定义,实体间的依赖 关系,实体的主外键定义,数据约束(Constraints),实体 属性的详细定义; 4. 建立ODS的物理模型,包括索引,数据分区,数据存储位臵 等等; 5. 对表与字段进行标准化处理; 6. 对ODS的表与字段的名称及含义进行名称唯一性检查; 7. 生成ODS数据字典及表的创建脚本(DDL); 8. 定义源数据与ODS的数据映射关系; 9. 根据ODS创建脚本在数据库中建表; 10. 对ODS的索引进行规划; 11. 对ODS的数据存储进行优化。 1.
数据建模组职责和角色
小组 职责描述 相关角色 数据建模组 建立数据仓库数据标准化体系,确保各方人员对数据的 一致性认识和理解; 掌握客户对数据来源、存储和使用等方面的需求; 对业务源数据进行分析,收集和整理源数据的数据字典 ,评估源数据的数据质量; 根据企业业务逻辑,建立ODS 和DDS 的逻辑模型和物理模 型; 建立数据加载源数据与目标数据的映射关系; 协助数据库管理员(属于系统管理组)对数据资源(含 业务数据源和数据仓库数据)进行管理,并从逻辑层面上规 划数据的存储和备份; 配合元数据管理员维护和管理与数据模型有关的元数据 ; 制定并执行有效的措施,保障数据仓库中数据的一致性 、数据同步和数据的质量。 数据建模人员
系统管理组组职责和角色
小组 职责描述 相关角色 系统管理组 负责管理整个项目组的工作环境的软硬件安装及配置,保 证项目组内网络通畅,负责局域网的管理,管理组内成员使 用的IP,机器名等 负责规划项目中的基础系统架构,包括开发环境、测试环 境和生产环境的系统配置和网络配置; 负责关系型数据库的建库、建表、建索引等工作,维护各 类数据字典; 对数据资源(含业务数据源和数据仓库数据)进行管理, 并规划数据及元数据的存储、备份和恢复,确保数据库的安 全管理; 调整和监控与数据仓库运行与开发相关的性能和可用性 监控数据容量变化 系统管理员 数据库管理员
项目控制
1.
1) 2) 3)
计划
总体计划 阶段计划 周计划
2.
1)
2) 3) 4)
执行
制定一些步骤清晰、可重复性强的开发规范 加强组员的培训工作 建立合理快速的问题及变更处理渠道 实现信息在项目组中的充分共享
3.
4. 5. 6.
监督 评审 问题管理 变更管理
项目组工作流程示意图
客户 项目管理组(及技术负责人) 各工作小组 组员 需求登记 定义详细计划(周计划) 任务分解 任务分配 定义验收标准 组内评审 成果自测 任务实施 提出需求
4. 数据质量评估,提交质量问题,由客户方确定处理 办法 ; 5. 与客户方确定未来数据变更的方式、处理办法及处 理流程 ;
数据建模-数据标准化
1. 统一的命名规范 ; 2. 统一的属性域(domain)、数据类型、计量单位 等等 ; 3. 统一的代码体系 : 4. 统一的业务处理规则; 5. 统一的信息展示,如报表、自定义查询、企业关键 性指标等等; 6. 统一的数据字典,各种信息含义的标准化; 7. 定义标准的源数据到数据仓库数据的变换规则和转 换规则 ;
数据仓库项目实施
内容提要

项目管理



实施流程

项目管理特征 组织结构、角色与职责 项目控制



项目准备 项目规划 需求定义 技术构架 源数据分析 数据建模
ETL开发 应用开发 测试 系统上线 验收
项目管理特征
1.
客户陆续提出需求
1) 2)
数据需求 应用需求 严格控制成果提交的过程 加强评审的行为和记录 事件触发型的维护 周期性常规维护:加载检查、数据核对、元数据录入等
2.
项目成果陆续提交
1)
2)
3.
项目实施过程中的持续维护
1) 2)
组织结构
项目管理委员会
客户方项目组 项目管理组
系统架构组
需求分析组
数据建模组
ETL组
应用开发组
系统管理组
组织结构关系
1. 2. 3.

项目总监负责制 划分为7个小组,项目经理和技术负责人共同负责 项目经理和技术负责人的分工与协作
项目经理侧重:项目管理、资源协调、任务分配、工作监督、 项目进展状态汇报 技术负责人侧重:技术规划、系统构架、实施路线定义、重 要问题解决 共同处理:
客户方的组织机构,各机构的主要职能; 主要用户分类,各类用户使用数据仓库的主要方式; 企业主要业务情况; 现有IT环境; 现有业务系统情况; 现有数据分布情况,数据主要流程; 数据仓库软硬件选择; 本公司项目组与客户方项目组的工作模式;
2.
需讨论的内容

项目规划
3. 4. 5. 6. 7. 确定客户方相关人员的联系方式 定义项目的组织结构,各角色及职责 制定项目总体计划书 制定项目总体实施方案 对项目总体计划书和总体实施方案进行内部评审, 并提交客户方确认
3.
开发ODS和DDS数据的ETL程序
1) 根据《数据模型及数据映射文档》开发每张表的ETL程序,包括 初始加载(即历史数据的完全加载)程序,增量加载程序,修补 加载程序(也称纠错加载); 2) 开发数据加载后的检查程序,检查的内容包括:检查加载的记录 数,检查目标表的参照完整性,检查目标表业务规则的正确性等 等; 3) 定义加载程序的调度顺序及调度参数。
相关主题