当前位置:
文档之家› 大数据集市建设、数据质量及数据管理方法
大数据集市建设、数据质量及数据管理方法
– 外部数据宽表(外部调研数据)
• 在成功获取了外部数据后,可构建合适的数据集市 ,纳入系统的外部数据可包括:竞争对手信息、客 户偏好信息、客户满意度信息等
• 外部数据涵盖的范围非常广泛,将所有的外部数据 都加载到针对性营销的数据集市中存在较大难度。
营销事务数据
• 营销事务数据用以支撑营销活动的制定与开展
各类元数据管理办法:
– 接口文件格式元数据
• 接口数据文件格式,包括接口数据文件的命名、传 输周期、格式等说明信息。
• 接口文件格式元数据:与ETL规则元数据进行统一 管理。
各类元数据管理办法:
– 商业元数据
• 系统中对各项指标的业务含义的描述性信息,在综 合统计分析平台中,包括维、度量的业务含义描述 ,主题的分析目标描述,报表指标的解释信息等。
– 套餐资料库 – 营销资料库 – 营销资源库
– 套餐资料库
• 套餐资料库存储已有的套餐资料,为套餐梳理和套 餐方案设计环节提供数据支撑。
– 套餐的结构包括基本套餐和可选套餐两部分。基本套餐是 套餐的主体部分,它包含了套餐的核心产品及主要优惠规 则,可以独立存在;可选套餐是由客户自行选择的叠加套 餐,一般不单独提供,需以购买基本套餐为前提。
ODS系统 维护人员
源系统数 据人员
ETL处理 过程
问题工单 生成派单
派单 判断
ODS系统 问题工单
源系统 问题工单
问题验证
数据质量 分析评估
数据质量 考核
问题 N 解决
工单处理
ODS系统 评估报告
源系统 评估报告
数据质量管理平台
管理功能
数据质量任务派发 数据质量组织管理 数据质量角色管理 数据质量权限管理 数据质量工单管理 数据处理情况考核
– 版本控制
数据整合总体流程
总体处理流程
目录
◇ 数据集市 ◇数据管理
数据整合 数据质量 元数据管理
数据质量解决方法
信息问题域
流程问题域
数据质量问题
技术问题域
管理问题域
信息问题域
信息问题
完整性 唯一性 一致性
数据采集点
合法性 准确性 统一数据管理
企业模型
业务元数据
元数据管控
统一企业数据模型
营销分析数据
– 数据挖掘宽表
– 自助取数汇总表
– 外部数据宽表
– 数据挖掘宽表
• 旨在为数据挖掘模型的建立和分析提供基础支撑, 并为之提供有效的数据集合,提升系统效率。
• 包含客户属性类数据、客户拥有类数据、客户行为 类数据、客户价值类数据和客户交互类数据。
– 自助取数汇总表
• 自助取数汇总表主要包含按照客户、用户等维度进 行数据的初级汇总和整合,实现自助取数系统对客 户、产品等相关信息数据提取
• 人力资源 • 财务预算 • 广告资源 • 渠道资源 • 合作伙伴 • 促销品资源(包括赠送品、搭售品等) • 其他支撑系统功能(如计费系统)
目录
◇ 数据集市 ◇数据管理
数据整合 数据质量 元数据管理
数据整合
整合准备:
– 源/目标模型 – 数据预处理
整合过程:
– 数据抽取 – 数据转换 – 数据加载
• 数据源元数据包括业务系统元数据和数据仓库元数 据等;目标系统元数据可能是数据仓库元数据、数 据集市元数据等。
• ETL规则元数据的管理:由数据库开发人员根据各 个模块的ETL过程以及过程运行的顺序,形成相关 元数据管理文档进行统一管理。
各类元数据管理办法:
– 数据仓库元数据
• 数据仓库采用RDBMS进行数据的存储和管理,设计 模式遵循数据仓库的设计准则,实现主题、维、度 量等多维概念模型,这些元素在RDBMS中物理上是 具体的数据表,这些表与具体多维模型的映射关系 需要通过元数据进行描述和定义。
ETL/EAI
企业数据平台
数据质量管理总体流程 总体处理流程:
目录
◇ 数据集市 ◇数据管理
数据整合 数据质量 元数据管理
元数据管理
元数据定义
– 元数据最本质,最抽象的定义为:data about data (关于数据的数据)
– 在数据仓库领域中,元数据被定义为:描述数 据及其环境的数据
大数据集市建设及数据管理方法
目录
◇ 数据集市
数据集市
数据集市:
–数据仓库的子集 –经过ETL流程的一定粒度汇总数据 –面向部门级业务 –针对特定主题的数据集 –星型模式(不遵循3NF结构) –缓解仓库访问瓶颈
实现方式:
– 独立型(Ralph Kimball)
• 仓库是集市的联合 • 数据来源于业务系统 • 首先满足数据展示的需求 • 必需统一的数据仓库建设思想协调
• 其他元数据的管理:将元数据信息记录到日志,形 成元数据文件进行统一管理
智能营销数据管理
智能营销元数据管理
?????
谢谢!
元数据管理-支持五类系统管理功能
– 描述哪些数据在数据仓库中;
– 定义要进入数据仓库中的数据和从数据仓库中 产生的数据;
– 记录根据业务事件发生而随之进行的数据抽取 工作时间安排;
– 记录并检测系统数据一致性的要求和执行情况; – 衡量数据质量。
数据仓库元数据管理
数据仓库涉及的元数据管理包括:
– 数据源元数据 – ETL规则元数据 – 数据仓库元数据 – 报表元数据 – 接口文件格式元数据 – 商业元数据 – 其他元数据
各类元数据管理办法:
– 数据源元数据
• 数据源元数据主要是数据库模型设计文档、为综 合统计分析平台提供数据的各种业务系统的数据 字典及数据接口文件等。
• 数据源元数据的管理:由相关人员对各类文档进 行统一版本的管理。
各类元数据管理办法:
– ETL规则元数据
• ETL规则元数据中涉及到数据源元数据、目标系统 元数据、ETL流程、源与目标的映射关系等元数据 信息。
整合规则:
– 数据编码统一 – 保证数据质量 – 支持异常控制 – 流程可维护 – 异常处理 – 流程管理
输出:
– 规则分析
• 包括:候选数据源确定、源与目标的映射关系、估 计行数等
– 执行分析
• 包括:执行时间、执行方式、执行顺序、执行频度 等
– 异常报告
• 包括:异常位置、异常原因、处理方式等
数据质量 检查稽核
数据质量 评估监控
数据质量 基础管理
数据属性检查 数据表关系检查
异常处理
数据质量评估 数据质量告警 数据质量监控
规则配置 统一指标定义 异常流程跟踪
数据属性关系检查 数据对比稽核 数据对比展现
数据质量分析 数据质量异常跟踪 数据质量修正跟踪
算法配置 流程配置 接口定义
源系统1 源系统2
• 商业元数据的管理可以分解成数据仓库元数据的管 理和报表元数据的管理。
各类元数据管理办法:
– 其他元数据
• 数据访问日志、数据装载日志等信息。数据访问日 志记录数据库的访问信息,包括对数据库表的操作 、锁、内存使用、I/O使用等信息;数据装载信息记 录每个ETL过程的抽取时间、操作人员、起始和截 止时间、抽取涉及到的表、操作行数等相关信息
元数据存储
– 技术元数据:为企业技术用户和IT人员提供支 持的元数据
– 业务元数据:为企业业务用户提供支持的元数 据
元数据管理
元数据管理技术——公共仓库元模型CWM
CWM
– 公共仓库元模型(Common Warehouse Metamodel)是OMG国际标准化组织 提出的,主要目的是在异构环境下,使不同数据仓库工具、平台和元数据 知识库进行元数据交换。
• 数据仓库元数据的管理:制定数据仓库模型设计文 档记录事实表、维度、属性、层次等信息,物理表 与多维模型的映射关系等信息 ,对文档进行统一版 本的管理。
各类元数据管理办法:
– 报表元数据
• 包括对报表和报表中具体指标(度量)的描述信息 等
• 报表元数据的管理:对数据集上可以计算的度量进 行相关元数据的管理,包括详细设计文档中对各个 表中度量的定义、描述等;对所有表和度量之间的 关系进行严格的文档记录,包括度量的计算、度量 之间的相互依赖关系、以及历史信息进行元数据管 理
– 从属型(Bill Inmon)
• 集市是仓库的子集 • 数据来源于仓库 • 提供更强的数据一致性和灵活性 • 长期规划
实现目的
– 合并不同系统数据源 – 非实时更新数据的访问 – 信息发布面向特定用户群体 – 合理的查询响应时间 – 快速一致的视图访问
– 独立型
– 从属型
实现步骤:
– 定义商业目标 – 理解数据源 – 确定汇总粒度 – 定义数据模型
技术元数据
数据质量问题
技术问题域
数据质量问题
数据获取
数据检查 数据校验 数据迟延
数据传递
及时性 文件传输方式 漏传 传输技术 网络传输过程不可靠
数据使用
展示方式 展示工具 展示周期
数据清洗算法 数据转换算法
数据加载
数据维护
数据加载算法
人为调整数据 维护验证机制 数据存储能力
数据备份、恢复
技术问题
流程问题域
目标 工作优先级
激励
反馈渠道 反馈机制
管理组织架构 培训内容
培训时间 培训资金
培训
奖惩制度 奖惩制度的执行
管理问题
培训计划 培训制度
数据质量管理流程
数据质量问题发现
数据质量问题分析
问题解决和验证 数据质量评估分析
数据质量 管理人员
分析问题 问题展现
数据质量 检查人员
数据质量 检查
数据质量 稽核
问题汇总
流程问题