当前位置:文档之家› 数据仓库-系统设计说明书

数据仓库-系统设计说明书

系统设计说明书归一大数据平台数据仓库系统设计说明书修改变更记录:目录1引言51.1文档编制目的 (5)1.2背景 (6)1.3词汇表 (6)1.4参考资料 (6)2总体设计72.1软件体系结构 (7)2.2系统物理结构 (7)2.3技术路线 (8)3系统接口设计83.1用户接口 (8)4子系统/模块设计84.1数据仓库 (8)4.1.1O DL(操作数据层)设计 (8)4.1.2B DL(事物层)设计 (10)4.1.3I DL(宽表层)设计 (11)4.1.4P DL(应用层)设计 (12)4.1.5P UB(维度)库设计 (15)4.1.6业务账(数据集市)库 (16)4.1.7数据导出设计 (16)5数据结构与数据库设计176外部存储结构设计177故障处理说明178尚需解决的问题18编写指南:本模板力图给出系统设计阶段可能包括的基本信息,重点在于和需求分析文档相联系。

描述系统整体情况。

如果某个章节在项目或当前阶段中无法描述,则可保留其标题,注明“不适用”;如果需要对本模板的个别章节详细描述,也可将其形成单独的文档,成为本文档附件。

若文档中的某个章节已经在其他项目文档中加以描述,可保留标题,注明“参见(文档编号)(文档名称)(条款)”。

形成正式文档后须删除斜体字内容。

0 报告编制要求这里列出本系统设计报告编制的经验性要求,须由系统设计人员参照其进行裁剪以确定本次报告编制的相关规定。

1引言1.1文档编制目的指导开发人员进行后期的开发工作;指导测试人员进行解决方案级的系统测试;1.2背景叙述系统设计阶段的目标、作用范围以及其他应向读者说明的理解本报告所需的背景,如与公司其它软件之间的联系等。

1.3词汇表列出本系统设计说明书中专门术语的定义、英文缩写词的原词组和意义、项目组内达成一致意见的专用词汇,同时要求继承全部的先前过程中定义过的词汇。

词汇名称词汇含义备注备注中注明该词汇的来源,或有其他更详细的解释的文档位置;以及对该词汇的其他叫法。

1.4参考资料需求规格说明书系统架构设计说明书数据仓库命名规范.docx2总体设计2.1软件体系结构2.2系统物理结构描述使用本软件系统典型用户的物理设备分布图及设备上相应基本软件配置。

软件环境包括:操作系统、数据库、以及其它支撑软件;硬件环境包括:主机类型、网络类型、存储器容量、其它特殊设备。

要求:1)尽量为系统的每个物理节点定义一个和功能相关的名称,名称的含义在词汇表中说明;2)结合运行体系图中提到的“程序”,将相关的“运行程序”分布到各个物理节点中;3)采用网络拓扑图表示。

2.3技术路线描述本软件系统在实现过程中所采用的技术路线、方法。

对较新的技术给予详细的阐述及必要的说明,在可能的情况下给出相应的技术参考资料。

3系统接口设计3.1用户接口无接口。

4子系统/模块设计4.1数据仓库4.1.1ODL(操作数据层)设计4.1.1.1功能描述实现从外部系统导入数据到大数据平台,ODL层数据与数据源保持一致.同步方式包括:增量同步全量同步数据源类型包括:数据库流程图:数据同步流程图数据库同步调度系统数据源系统数据库读取同步脚本远程调用ODL本地表结束分布式数据仓库开始是否成功异常处理是否流程说明:1. 调度系统定时启动数据同步作业.2. 作业读取数据同步脚本,远程调用数据库接口.3. 数据库接口返回远程调用结果.4. 接收数据库接口返回的数据集,装载到ODL本地表.异常处理:调度系统捕获异常并处理日志说明:由调度系统负责记录作业(正常和异常)日志.数据源说明:1. 通过视图封装需要同步的物理表, 与业务进行隔离. 当物理表发生变动,尽量通过修改视图兼容.2. 数据同步程序访问数据源视图.数据粒度说明:与数据源保持完全一致。

详见<<数据同步列表.xlsx>>4.1.2BDL(事物层)设计4.1.2.1功能描述BDL层对ODL数据进行清洗、转换,实现统一维度的数据整合。

4.1.2.2业务流程流程图:BDL 数据流程图E T L 阶段调度系统读取作业脚本BDL本地表结束分布式数据仓库开始ODL表数据清洗维度转换、捕获维表流程说明:1. 调度系统定时启动数据同步作业.2. 作业读取ODL表,进行数据清洗,对不符合规则的数据进行丢弃或转换.3. 将转换后的结果数据装载到BDL本地表.异常处理:调度系统捕获异常并处理.日志说明:由调度系统负责记录作业(正常和异常)日志.数据粒度说明:与ODL保持一致.4.1.2.3作业设计详见<<数据仓库转换文档.xlsx>>4.1.3IDL(宽表层)设计4.1.3.1功能描述在IDL层对BDL事实表按主题进行合并, 形成一次写多次读的宽表, 降低系统整体开销. 并实际根据需要进行用户级粒度的聚合, 进一步提高查询效率.4.1.3.2业务流程流程图:IDL数据流程图E T L 阶段调度系统读取作业脚本IDL本地表结束分布式数据仓库开始BDL表1按主题关联事物级粒度BDL表N用户级粒度聚合流程说明:1. 调度系统定时启动数据同步作业.2. 按主题读取相关BDL表, 进行关联, 尽量补齐维度字段, 生成事物级宽表.3. 按用户级粒度聚合, 生成用户级宽表.异常处理:调度系统捕获异常并处理日志说明:由调度系统负责记录作业(正常和异常)日志.数据粒度说明:1. 事物级粒度.2. 用户级粒度.4.1.3.3作业设计详见<<数据仓库转换文档.xlsx>>4.1.4PDL(应用层)设计4.1.4.1功能描述PDL层按业务需求, IDL宽表汇总查询生成各种结果表.4.1.4.2业务流程流程图:PDL 数据流程图E T L 阶段调度系统读取作业脚本PDL本地表结束分布式数据仓库开始IDL表各种粒度聚合维度条件筛选生成指标数据流程说明:1. 调度系统定时启动数据同步作业.2. 读取IDL宽表,按业务需求进行聚合,筛选,生成指标数据.3. 结果写入PDL层结果表.异常处理:调度系统捕获异常并处理日志说明:由调度系统负责记录作业(正常和异常)日志.数据粒度说明:1. 按业务需求的各种粒度.4.1.4.3业务账数据统计设计业务账数据统计如下特点:业务账指标由多个交易类型代码组合, 一个交易类型代码对应多个业务指标, 例如:业务账指标A 交易类型代码{M00010, M00001,M00002,M00003,…}业务账指标B 交易类型代码{M00010, M00011,M00012,M00013,…}业务账指标C 交易类型代码{M00000, M00011,M00002,M00023,…}随需求也业务变化, 业务账指标及其交易类型代码也会变化.每个业务账指标统计算法相同, 只是其交易类型代码组合不同.每个业务账指标可能会被多个报表调用,例如“积分总金额”针对以上特性, 通过抽象的方法,设计对指标(交易类型代码)配置化管理、运算统一化技术的功能,减少系统维护成本。

业务账指标定义交易类型代码字典业务账指标业务账流水配置业务账指标数据报表调用4.1.4.4作业设计详见<<数据仓库转换文档.xlsx>>4.1.5PUB(维度)库设计4.1.5.1功能描述采用异步LOOUP方法,主动捕获非法维度数据,经过人工识别生成维度数据.4.1.5.2业务流程流程图:PUB数据流程图E T L 阶段调度系统读取作业脚本结束分布式数据仓库开始ODL表、维表异步LOOKUP维度映射表人工识别处理维度表捕获异常维度是流程说明:1. 调度系统定时启动数据同步作业.2. 异步读取ODL表和维表,对比维度映射表查找是否有不存在的维度数据.3. 如果发现非法维度数据,经过人工识别,写入维度映射表和维度表.异常处理:调度系统捕获异常并处理日志说明:由调度系统负责记录作业(正常和异常)日志.4.1.5.3作业设计详见<<数据仓库转换文档.xlsx>>4.1.6业务账(数据集市)库4.1.7数据导出设计4.1.7.1功能描述将PDL表和维度导出,同步给mysql库,供统计报表查询使用.4.1.7.2业务流程数据导出流程图E T L 阶段调度系统门户系统PDL表、维表读取同步脚本抽取结束分布式数据仓库开始统计表、维表装载流程说明:1. 调度系统定时启动数据同步作业.2. 读取PDL表和维表,将数据装载到MYSQL库对应的表中.异常处理:调度系统捕获异常并处理日志说明:由调度系统负责记录作业(正常和异常)日志.4.1.7.3作业设计5数据结构与数据库设计详见<<数据库设计说明书.docx>>6外部存储结构设计说明本系统存贮于磁盘等持久性存贮介质,而且不是由数据库管理系统进行管理的数据的组织结构,包括数据名称、用途、每个数据项的标识名、类型和含义,组织结构、访问方法和存储要求。

7故障处理说明说明本系统所采用的基本错误处理方法和原则,例如:统一采用C++ try-catch错误方法,所有错误最终必须以界面形式向用户说明。

用一览表方式说明各类可能的错误或故障出现时系统的处理方法和补救措施。

8尚需解决的问题以列表的形式列出在系统设计阶段必须解决但尚未解决的问题。

可对问题进行编号以便进行跟踪。

相关主题