当前位置:
文档之家› 大数据模型构建平台介绍v1.0
大数据模型构建平台介绍v1.0
数据层次划分说明
数据分类设计
数据分布调研
数据CRUD调研
基础概念模型
概念模型
逻辑模型
物理模型
DWA:主要存储应用类数据以及应用产品类相关数据,例如: 各类统一视图信息(使用维度建模技术),客户推荐等等的相关业务模型以及Glasory(维度建模技术)
DWI:数据中心根据客户以及业务需求,拆分、整合信息数据,主要以主题内及相关业务指标、统计指标等业务规则 进行处理,包括拆分的账单数据、拆分的集团客户数据、产品数据等等,用户归属、同时包括处理后的信息数据等
数据模型建设方法论
概念模型(一)
• 概念模型的核心模型Level0层级以及其关系的设定 • Level0级的核心是主题的划分以及主题之间的关系的确定 • 亚信面向数据管理核心主题的划分综合业界的八大主题划分,主要包括参与人、服务、资源、收入、财务等等 • 子主题的划分按照对业务系统(例如:Bss、Oss、MSS)的理解划分,例如:客户、集团、用户、账务等等 • 主题的划分以及概念和逻辑模型基本适用于DWD、主要从数据管理方便、数据可更好归类等角度考虑
• 根据不同平台的特点,形成不同特点平台的物理模型,例如 针对存储在云平台下的详单的物理模型,存储在云平台下 (NOSQL)平台下分光以及流量数据的物理模型,形成在MPP 下,适合MPP特点的物理数据表的物理模型
• 确认模型的层次为ODS、DWD、DWI、DWA,并对模型层 次进一步的细分,不断补析充和完善各层次模型,清晰化各 层次模型存储数据的数据特点
B域数据 O域数据 M域数据 其他数据
物理模型设计原则以及设计重点
数据分类设计
数据分布调研
数据CRUD调研
基础概念模型
概念模型
已有企业规 范
编码 规范
•遵守CMCC-LDM
•省公司有遵守的要 求
•在CMCC-LDM基础 上进行扩充分层存储、 分表等
•模式名规范 •表命名“见名知意” 原则 •表命名指示内容包 括
• 所属层次 • 业务内容 • 分表特性 • 数据粒度 • 更新特性 •编码规范
减少重复无 效计算
•业务口径固化 •统计口径固化 •规划70%以上的应 用都经过DWA层实 现,减少重复计算
减少I/O和数 据量级
•核心数据分段存储
•历史表的拆分
•增加冗余列(预连 接)避免查询时进行 表连接操作
目录|CONTENTS
1
背景
2
定位
3
亮点
4
系统架构
5
方法论
6
功能架构
7
开发现状
定位
平台定位 对内
➢ 提升模型建设效率; ➢ 沉淀模型设计经验
对外
➢ 强化模型设计能力; ➢ 提升模型管控效率
与DACP的关系
➢ BDMP侧重于模型架构及设计阶段,DACP侧重于开发及维护; ➢ 模型开发及维护依然借助于DACP,与DACP形成模型全流程管理
原 得到需要的数据。 ▪对不同域的数据数据模型进行整合,形成跨企业统一的数据视图;例如:B\O\M域模型进行整合
则 ▪以尽可能小的业务单元进行底层数据的组织和存储,以满足数据仓库的灵活性。任何一个信息系统都具有整体性、
结构性、层次性、相对性、可变性,数据仓库的目标逻辑结构的设计同样要体现这些特征。
▪数据结构的设计保持松散 , 因为数据仓库在实现过程会有很多变数,需要不断的改动和调整结构等. 所以希望将 改动次数降到最低。
Party Managment: 参与方管理
Revenu: 收入
包括现在和未来希望可以维护其 覆盖所有的收入源(预付费/后付
资料的参与方,包括个人客户
费,设备租赁,或者销售),销
(潜在)、集团客户、家庭客户、 售流程,预存,缴费和返还/调账
SP等供应商、员工等等
流程。以及由收入产生的账户、 账务、收入、欠费等等的信息。
层
基
基础配置信息
础
数据层次配置 分表原则配置
层
主题域配置
物理模型
数据可视化
基础配置信息
数据层次配置 分表原则配置
主题域配置
知识库 模板库
系统 管理
目录|CONTENTS
1
背景
2
定位
3
亮点
4
系统架构
5
方法论
6
功能架构
7
开发现状
方法论-建设步骤
数据分类设 计
数据分布调 研
数据CRUD 调研
基础概念 模型
大数据模型构建平台 BDMP 方案介绍
BDX-SRD-Solution Support Dept. 2015-02
目录|CONTENTS
1
背景
2
定位
3
亮点
4
系统架构
5
方法论
6
功能架构
7
开发现状
背景
内部需求
➢ 模型设计及开发经验丰富,但 缺乏有效载体,经验沉淀不足; ➢ 模型复制难度大,项目实施费 时费力; ➢ 项目实施往往加班加点,人力 资源复用率较低,工作效率不高
DWD:按照八大主题规范,经过转换后,最完整的明细数据存储,同时数据把持唯一性和完整性,是数据中心最完 整、最明细的数据,基本遵循三范式规范,数据可以根据类型存储在不同的存储介质上。
ODS:操作型数据以及实时数据存储,主要存储来自M、B、O 以及互联网等等,经过简单数据处理的数据,数据存储时间短,主要 解决业务部门短时数据需求
数据分类设计
数据分布调研
数据CRUD调研
基础概念模型
逻辑模型
逻辑模型来自拥有行业经验的概念模型,里面凝聚了许多 成功的经验,而且从规划上符合行业系统的长远发展,因 此逻辑模型应当从概念模型上相对平滑的过度过来。 逻辑建模是数据仓库实施中的重要一环,它能直接反映出 业务部门的需求,同时对系统的物理实施有着重要的指导 作用。从狭义的概念说,逻辑模型是否正确表达了业务规 则,也就是准确,但是随着人们对数据仓库认识的加深, 质量的含义不断延伸,现在对模型质量要求不仅仅单纯指单 纯的业务规则,还包括模型满足用户分析需求的程度,它 是一个包含丰富内涵、具有多维因素的综合性概念。
概念模型
设 计 步 骤
逻辑模型
物理模型
确定设计原则 确定模型的定位 细化各概念实体 进行模型验证、优化
逻辑模型设计原则
数据分类设计
数据分布调研
数据CRUD调研
基础概念模型
概念模型
逻辑模型
物理模型
▪数据仓库在设计之初要尽力保持它的领先地位
✓第一,体系结构的领先性。它使得项目在各个阶段转换时,数据仓库和它所支持的系统的物理以及逻辑架 构都具有持续性,不会发生改变。
Resouce : 资源
电信网络、终端、物品、地域 等等的资源信息
Provision and Activation:供应链
覆盖完整供应链的订单管理和安 装流程。包含了携号转网,故障 管理(与Customer Management共享)和SLA管理。 。
Event: 事件/活动(使用者)
参与方参与电信所有活动所产生的并 且希望保留记录信息,例如: tCDRs, 客户息,以及由此产生的日志、流服 务信水信息等等。
设
✓第二,技术的领先性。它可以跟踪系统任何阶段的软件工具的部署和正确使用。 ✓第三,行业模型的先进性、完整性、一致性、灵活性以及松散型
计 ▪数据仓库模型设计是一种从旧有数据中,模型化得到的新的数据。那么如何才能从旧有数据中挖出这些新数据呢? 如何将各类数据融合在一起。其中所遇到的最主要的挑战将是如何用新的方法观察数据并且让业务人员比较容易
概念模 型
逻辑 模型
物理模 型
• 数据CRUD模型定义了数据的所有权,规定了各系统对每一类数据 的操作权限(创建、读取、更新和删除)
• 数据分布设计的目的是需要对当前企业内部的系统分布及数据在各 个系统中的分布情况进行调研,掌握目前企业已经具有的数据
• 在数据分布调研过程中,不仅要关注当前系统的情况,还需要关注 系统演化的路线,及对数据分布造成的影响
User: 用户
包括实例用户、中高端用户、存 量用户、等等以用户为粒度的相 关资料及衍生信息。
Group: 集团客户
包括以集团的粒度,整合相关业 务维度、标签、指标等信息
Account: 账务
整合所有的收入源,销售,预存, 缴费和返还/调账。以及由收入产 生的账户、账务、收入、欠费等 信息整合 。
.
BDMP 模型设计
DACP 开发维护
数据调研
开发管理
数据初始化 概念模型设计 逻辑模型设计 物理模型设计
数据管理 运行监控 维护管理
……
目录|CONTENTS
1
背景
2
定位
3
亮点
4
系统架构
5
方法论
6
功能架构
7
开发现状
亮点
建模工具IT化
➢ 建模经验得到有效沉淀,有效提升工作效率
模型要素标准化
➢ 构建行业指标库、维度库、规则库等,建立一套标准体 系
Instance: 用户订购
主要包含用户与产品、策划及服务 的订购关系,满足满足实例级各种 业务分析。
Business Discovery : 业务探索
主要包含业务特征,业务探索分析等 处理结果。
概念模型设计示例
数据分类设计
数据分布调研
数据CRUD调研
基础概念模型
概念模型
逻辑模型
物理模型
逻辑模型建设思路
行业需求
➢ 通信行业BI系统进入瓶颈期, 指标杂乱,管理无序,效率低下, 亟需对数据仓库进行重构; ➢ 目前多省已表达出重构需求, 工程量随时可能放大