当前位置:文档之家› 大数据云平台数据治理规划方案

大数据云平台数据治理规划方案


关注的内容
数据平台整体架构; 数据平台各层建设的标准; 较成熟的XXX业数据模型; 数据质量治理; 元数据管理; 数据标准建设 数据整合; 数据应用建设; 数据平台的软硬环境 ……
基础数据平台和BI应用建设是未来一段时间的重点!
Page 3
大数据云平台数据治理建设目标
通过数据平台和BI应用建设,XXX大数据将搭建统一的大数据共享和分析平台,对各类业务进行前瞻 性预测及分析,为集团各层次用户提供统一的决策分析支持,提升数据共享与流转能力
❖ 增量数据识别、获取由云数据推送平台负责,云数据推送平台采用分析、对比源系统日志方式实现 ❖ 对于无法通过上述方式获取增量的源系统数据,则采用某一个时间范围内的全部数据作为增量 ❖ 初始数据加载均采用全量模式
Page 8
大数据云平台数据治理总体架构——数据交换层
传输组件是根据数据源存储的不同分类而设计的,本质是通过分析数据存储结构和数据存储 库的特点来针对性的设计工具,以追求卓越的性能
了丰富的数据源。
供应链XXX系统
POP系统
统一定义BI 应用
统一规划分析方法 统一划分分析主题 统一设计数据模式 统一部署技术基础
外部非结构化数据 采购管理系统 其他业务系统
集团决策层 集团职能管控层 各级业务操作层
Page 4
大数据云平台数据治理建设预期收益
1.实现数据共享
通过数据平台实现数据集中,确保XXX大数据各级部门均可在保证数据隐私和安全的 前提下使用数据,充分发挥数据作为企业重要资产的业务价值
……
存在的问题
集团数据仓库累积数据没有充分利用 缺乏面向整个XXX大数据的统一、完
整的数据视图; 缺乏支撑XXX大数据日常业务运转的
风险评估体系; 缺乏XXX大数据客户360度视图,客户
行为分析和预测无法实现; 缺乏面向XXX业务运营管理的关键绩
效指标体系; ……
数据平台、数据应用、数据管控……
统一制定目标和分 析模型
600% 500% 400% 300% 200% 100%0%ຫໍສະໝຸດ 2004年2005年
2006年
2007年
2008年
铁矿石 焦煤
自定义报表工具 行+列的简单定义方式
多种格式报表
BI 分析工具
云数据推送平台已实现了 主要零售及XXX业务系统 数据清洗、整合,为未来 XXX大数据数据平台提供

大数据区




待 社交媒体 处
据 区
数 据
处 理
用户评价
理 后

大 移动互联 大


据 访问日志 据
客户汇总 客户主题 零售数据
外部用户
用户访 问层
业务沙盘演练
数据增 值产品
数据应 用层
……
沙盘演练数据区
增值产 品数据区

账户汇总 机构汇总 协议主题 产品主题
…… ……
题 数 据
数据计 算层

供应链数据
2.加强业务协作
实现分散在供应链XXX、人人贷、保理等各个业务系统中的数据在数据平台中的集中 和整合,建立单一的产品、客户等数据的企业级视图,有效促进业务的集成和协作 ,并为企业级分析、交叉销售提供基础
3.促进业务创新
XXX大数据业务人员可以基于明细、可信的数据,进行多维分析和数据挖掘,为XXX 业务创新(客户服务创新、产品创新等)创造了有利条件
数据交换层设计目标
数据服务层
保证数据在平台内高速流转 保证数据交换过程中不失真 保证数据交换过程中不丢失 保证数据交换过程安全可靠
数据区数据交 数据库数据交 大数据交换组
换组件
换组件

Hadoop 元数据
NAS 存储
数据平台导入 数据平台导出
临时区
临时区
ETL程 序区
云数据推送平台
集团系统
XXX大数据系统
4.提升建设效率
通过数据平台对数据进行集中,为管理分析、挖掘预测类等系统提供一致的数据基 础,改变现有系统数据来源多、数据处理复杂的现状,实现应用系统建设模式的转 变,提升相关IT系统的建设和运行效率
5.改善数据质量
从中长期看,数据仓库对XXX大数据分散在各个业务系统中的数据整合、清洗,有助 于企业整体数据质量的改善,提高的数据的实用性
大数据云平台数据治理规划方案
目录
2 3 4 5 6
智慧XXX管理分析类应用建设现状基本分析
基本的现状
集团已建立面向整个XXX业务的数据 仓库,整合了前台业务运营数据和后 台管理数据,建立了面向XXX的管理 分析应用;
XXX大数据已开展供应链XXX、人人贷 和保理等多种业务,积累了一定量的 业务数据,同时业务人员也从客户管 理、风险评级和经营规模预测等方面 ,提出了大量分析预测需求;
企业内部非结构化数据
❖ 日常业务处理过程中产生的非结构化数据,存储形式多样,主要包括用户访问日志、用户投诉、用户点评……
企业外部数据
❖ 企业外部数据以非结构化为主,主要包括国家政策法规、论坛等互联网信息、地理位置等移动信息、微博等社交媒体信息……
源数据增量
在本次项目实施中将采用以增量为主、全量为辅结合的方式获取源数据 集团和XXX大数据业务系统的数据
……
贴源数据区
……
大数据交换组件 数 据 安 全
企业内外部半结构化、非结构化数据
数据库数据交换组件
数据区数据交换组件
数据交换平台
数据交 换层
集团零售
供应链XXX 人人贷系统 基金系统
……系统
数据 产Pa生ge 层7
大数据云平台数据治理总体架构——数据产生层
源数据内容
内部业务系统产生的结构化数据
❖ 集团日常零售业务处理过程中产生的结构化数据,存储在关系型数据库中,如:供应商信息、采购信息、商品信息、销售流水…… ❖ XXX大数据日常业务处理过程中产生的结构化数据,存储在关系型数据库中,如:客户信息、账户信息、XXX产品信息、交易流水……
Page 5
目录 1
3 4 5 6
Page 6
大数据云平台数据治理总体架构
数据 管控
IT人员
平台
流程

调度
据 标
平台




数 据 管 控 层
数 据 质 量 元
流 程 调 度 层
度 监 控 告 警


内部用户
实时数 历史数 据查询 据查询
内部管理分析
应用集市数据区
客户管理 财务管理 风险管理


外部 大数

Page 9
大数据云平台数据治理总体架构——数据交换层NAS存储
Hadoop集群元数 据区
数据平台临时数 据区
存储数据平台各个Hadoop集群的元数据信息,如:HDFS文件系统 元数据
集团数据交换平台每日获取运输局推送平台提供的业务系统变 化数据,暂存在NAS临时数据区 XXX数据平台加工计算结果返回给业务系统,暂存在NAS临时数 据区
相关主题