数据仓库架构规划培训
13
第一个案例:
商业银行在建设数据仓库的时候,可能会存在架构上的问题,我们可以参考一下某商 业银行的数据仓库架构,分析一下有哪些可以改进的地方,如下图所示: 数据集市
数据源
整体的数据架构需要优化,包括数据如何迁移,缺少统一的数据管控 体系,缺乏大数据处理机制,数据模型没有统一规划等很多问题。
核心银行系统1
16
商业银行数据仓库建设启示
Step 1
Step 2
Step 3
Step 4
•分阶段开展建设,注重团 队培养
•数据仓库建设与数据管控工作相 辅相成
•业务部门主导及深入参与
•启动数据仓库建设 17
11
系统性能: 对于商业银行来说,如果数据仓库系统的数据链路过长,例如数据从核心业务系统加载
下来,然后再通过交换系统、缓冲区,经过ETL加工,最后到应用系统。这种方式必须考虑 数据的混合负载,也就是数据的加载、数据的加工和前端的访问同时进行,可以进行批量 加载和实时加载。这种工作负载是混合的,需要重点考虑资源的分配问题。
加进来,模型就需要变化,ETL程序也需要修改,这样维护的工作量非常大。同时还需要 考虑数据自助服务,开放数据接口,也就是业务人员通过接口自助服务,自助的取数。但 是一般来说,这种灵活查询不能全部开放,因为数据仓库的数据量非常巨大,有可能一个 查询会影响整个仓库系统,对于开放的查询只开放一些汇总层。而明细基础层,交易层的 数据是不能开放的。
2
数据仓库的典型架构
数据仓库的实现方式可以分成两类:包括数据驱动的方式和业务驱动的方式。
1.数据驱动的实现方式 当业务需求不明确的时候,按照这种方式,先进行对全企业的数据建模,并且按照E/R模
型建立数据仓库,然后再根据业务部门的需求建立相应的数据集市,数据仓库作为数据集市 的唯一来源。从整体的角度进行总体规划,例如6-8个月之内搭建基础数据平台,并出初步 成果,采用循环式开发,每三个月向业务部门提供切实的成果。可以边开发、边投产、边推 广、边收益。 2.业务驱动的实现方式
6
原因分析和解决思路 (1)我们在构造数据仓库的时候,如果数据质量得不到保证, 在后续的构建过程中,数据质量所 引发的问题会逐渐被放大。 (2)数据质量问题会贯穿于项目的整个生命周期,所以必须面对并且给出解决办法, 尽量把影 响减小到最少。 (3)通过一些技术检测数据仓库的质量有多种方法。例如第一种方法,对于记录级的,可以 先去分出主表,再通过验证目标表和源表中的主表的记录数是否一致。第二种方法,对于字 段级别的 (4)在大多数情况下,解决数据仓库质量最根本的方法就是从源头解决质量的问题,但是这 种方式需要投入很多的人力成本和时间。 (5)可以通过手工方式对数据仓库问题进行处理。
当业务需求非常明确的时候,按照业务需求迭代式的建设数据仓库,即建设数据仓库的过 程中,有什么样的业务需求就抓取什么数据。解决各业务部门或分行的迫切需求,例如比如 客户信息管理、全行统一管理报表、绩效考核、经营快报等。
4
数据仓库的架构和定位
5
数据仓库质量存在问题的根本原因: 我们可以把数据质量存在问题的原因归为以下几类: (1)数据格式问题, 例如数据的缺失、超出了数据范围、无效数据格式等。 (2)数据一致性问题, 出于性能考虑,可能会去掉一些外键或者检查约束,这样可能会导 致出现数据一致性的问题。 (3)业务逻辑问题, 通常是由于数据库设计出现问题所致。
•挖掘出巨大价值
价值产生
速度快
•速度快
9
在大数据环境下的数据仓库架构
结构化数据
ODS
数据仓库
“金子”
流数据 非结构化数据
非结构化元数据
分析应用
Hadoop平台
分析应用
10
商业银行数据仓库建设规划 商业银行数据仓库面临的瓶颈 业务价值: 对于大部分的商业银行来说,数据仓库基本上停留在业务报表和供数层面上,业务价 值体现的不够充分,商业银行有大量的数据,有的银行也做了很多的数据分析,但是 没有把业务分析结果转换为业务行动,在国外很多银行都会把分析结果转变成业务规 则或者是业务事件,然后和银行的业务系统揉合到一起,最终形成一个闭环结构。国 内商业银行的高端分析应用不多,也就是没有把对业务的分析结果转换为业务行动。
对于数据仓库的数据质量来说,它可以进行入库时的格式校验和逻辑校验,当入库后, 再通过两端对比等手段确保数据质量,所谓两端对比是指将源系统抽取出一部分数据再和 数据仓库中的一部分数据进行核对。
8
在大数据环境下的数据仓库的建设
什么是大数据? 大数据是指无法在一定时间内,用传统型的数据库软件对其内容进行抓取、管理和处理的数据的
数据质量: 对于大部分商业银行来说,基本上都是现有数据仓库,然后才进行数据标准的建设,数据标
准很难在数据仓库中落地,大部分商业银行实行了数据质量检查程序,对数据仓库的上游、中 游和下游进行全周期的管理,而且对于前台业务系统,也可能有数据质量问题,所以需要统一 起来。
12
后续运维: 当数据仓库建好之后,每天都在加载数据,模型也在不断的扩充,如果有新的数据源
核心银行系统2
数据仓库
核心银行系统3
14
第二个案例 我们看一下某商业银行的数据仓库逻辑架构,给我们哪些提示,如下图所示:
数据准备区
数据仓库区
对公系统
个人系统
开放平台 1
开放平台 2
文件传 输平台
ETL服务 器
数据集成 平台
临时区
企业级数 据仓库
应用1 应用2 应用3 应用4
15
数据仓库目标架构的建议
数据仓库架构规划培训
数据仓库规划的方法论 “数据标准先行、数据管控落地、数据应用驱动”
数据标准先行:制定数据标准时参考金融数据模型,同步设计了标准参考模型, 直接构成了数据仓库逻辑数据模型的骨架和核心内容。 数据管控落地:以元数据管理为基础,以管控流程为手段,使数据仓库成为可信、 可控的数据源。 数据应用驱动:提升经营管理、决策分析和监管报送水平。
集合。大数据用于在成本可承受的条件下,通过非常快速的采集、发现和分析,从大量的,多类 别的数据中提取价值。大数据是一系列技术的集合,汇集了例如hadoop/Mapreduce,一体机, NoSQL,数据分析与挖掘,商业智能,数据仓库等等。
•多个数据集一起分析
数据量庞 大
数据多样 化
•结构化数据 •非结构化数据
7
数据仓库质量解决办法参考案例
采用抽样、统计分析等技术手段提高数据的质量 对于数据仓库来说,它主要存储的是大量的历史数据,所以无形当中加大了数据质量检查 的难度,如何保证进入到数据仓库中的数据质量是高的呢?我们可以采用抽样和统计分析 等技术手段提高数据的质量,并且可以提高数据仓库的高效性。 采用两端对比等手段确保数据质量