数据生命周期管理
数据量(累积) 访问频率
数据量(累积)
访问频率
0 6个月 1年 5年 10年
18
二、数据生命周期管理理论与方法
数据生命周期管理的总体原则
在数据的整个生命周期中,不同阶段的数据其性能、可用性、 保存等要求也不一样。
通常情况下,在其生命周期初期,数据的使用频率较高,需 要使用高速存储,确保数据的高可用性。
24
三、工行数据生命周期管理实践
规范主要内容
借鉴国际先进数据模型,对工行的各应用系统数据进行提炼和分 类,在数据生命周期的各个阶段制定了有效的管理策略 。
将工行的应用系统按产品线(共20类)进行划分,并在此基础 上对各产品线的数据类别进行了确认;规定了各产品线各类数 据的数据有效期,建立了完整的数据有效期管理工作规范体系 ,确立指导工行各类数据的基本管理原则和具体应遵循执行的 各种办法
一、工行数据管理的总体情况
数据质量管理流程
1、从源头治理 从数据录入、内 部处理入手,把 好数据质量“入 口关”。
3、做好规范管理
完善制度、规范流程、 系统硬控制,把好数 据质量“流转关”。
2、督促问题治理
部署检查规则,实现问题数据发现、 分发、治理、监督、考核闭环管理, 把Байду номын сангаас数据质量“治理关”。
13
一、工行数据管理的总体情况
数据安全管理
为了加强数据安全管理,工行制定了《数据管理办法》和《数 据管理办法实施细则》,明确了各环节的数据安全管理要求, 并采取了一些技术手段进行硬控制。 数据安全的主要管理要求: 使用生产数据必须经过申请和审批,开发测试环境使用生产 数据必须进行数据变形。 涉及敏感信息的生产数据的传输必须采用加密处理或使用专 用邮箱、专用FTP服务器传输等 。 对生产用户进行严格授权管理,防范非授权访问生产数据 。 对生产数据建立和实施严格的备份机制。对数据保存介质进 行分类登记,及时进行清理和转存。
21
物理删除磁盘和磁带上的数据,销毁光盘介质。
目录
一、工行数据管理的总体情况
二、数据生命周期管理理论与方法
三、工行数据生命周期管理实践
22
三、工行数据生命周期管理实践
建立了数据生命周期管理体系
工行数据生命周期管理从组织建设、制度规范、系统工具、日 常管理各方面开展相关工作。
制定了全行统一的《数据生命周期管理技术规范》,并配套发 布了一系列数据清理工具,根据规范制定的策略定期进行清理 ,并将清理的数据归档到历史数据管理应用中。
数据生命周期管理 理论与实践
2012.9
目录
一、工行数据管理的总体情况
二、数据生命周期管理理论与方法
三、工行数据生命周期管理实践
1
一、工行数据管理的总体情况
工行数据管理的指导思想
指导思想
构建合理的数据管理组织架构和数据架构体系,做好数据 治理,促进各应用系统信息高度共享,充分发挥数据价值, 为经营决策提供科学依据 做好信息标准化管理,提高数据有效性、一致性和规范性 做好数据质量管理,确保数据的准确性 做好数据生命周期管理,实现数据从产生到销毁的全过程 规范化管理 做好信息安全管理,确保信息不被泄露
9
一、工行数据管理的总体情况
信息标准化建设总体目标
总体目标:通过统一信息标准制定、发布使用、制度约束、 系统控制等手段,实现工行信息的完整性、有效性、一致性、规 范性、开放性和共享性管理,提高工行信息化水平。
1.完整性:涵盖客户、机构、 产品、帐户等银行全部重 要信息 2.有效性:信息准确度高、理 解上不存在歧义。 3.一致性:做到“五统一”。 4.规范性:制度规范、流程 控制、系统管理等。
管理信息主要从内部管理系统收集,包括资讯平台、制度园地、 人力资源管理、分支机构管理、办公管理等系统。
外部信息主要包括监管机构提供的信息(如征信信息、风险提示 信息等)、行业信息、外部报价信息等。
4
一、工行数据管理的总体情况
数据基础层(建立数据仓库和数据集市)
为了对客户行为和业务管理进行科学分析和预测,需要建立集 合各类业务数据为一体的数据仓库,进行面向各类主题的数据 统计和挖掘分析,为市场营销和管理决策提供科学依据。 工商银行在2002年完成数据大集中之后,就已经意识到数据对 于银行经营管理的重要作用,在姜建清董事长等行领导的关心 指导下,开始着手数据仓库建设工作。10来年,工商银行数据 仓库建设稳扎稳打,已成为各类业务数据集中存储的重要载体 和关键基础平台。
7
一、工行数据管理的总体情况
管理操作层
主要面向客户服务和内部经营管理,包括客户营销、资本管理 、资产与负债管理、信用风险管理、操作风险管理、市场风险 管理、绩效考核管理、内部审计与合规管理等。管理操作层的 基础数据主要来自各个业务系统,有些统计指标类数据是经数 据仓库加工提供。 为满足日常经营管理,提供了以固定报表为主的综合报表统计 平台。 为便于突发性和临时查询需要,提供了基于数据仓库的灵活查 询功能。
20
二、数据生命周期管理理论与方法
数据生命周期管理流程
数据各生命阶段的管理策略
数据生命阶段 管理策略 永久保存:数据从产生开始一直在生产系统中保存, 在线阶段 此类数据不需要进行清理。 (数据产生与使用阶段) 保存一段时间后清理:数据被标记为失效或过期后在 系统中保存一段时间后进行清理。 在线归档:查询频度仍相对较高的数据,通过数据库 形式保存数据,用户仍可以通过系统在线查询;部分 归档阶段 数据通过在线归档一段时间后进入离线归档阶段。 (数据备份与保存阶段) 离线归档:查询频度相对较低的数据,通过光盘或磁 带等介质保存数据,用户无法在线访问,需通过恢复 光盘或磁带介质。 销毁阶段 (数据被销毁至消失)
2
一、工行数据管理的总体情况
构建了分层的数据架构体系
数据采集层 交易信息 客户信息 管理信息 外部信息 数据集成层
风险集市
指标模型层
管理操作层
绩效等经营 管理系统
数据指标
营销等业务 管理系统 资本管理、 操作风险管 理等风险管 理系统
数据仓库
绩效考核
模型
客户关系管理
灵活查询
用 户 统 一 操 作 界 面
17
二、数据生命周期管理理论与方法
数据生命周期的基本原理
数据访问频度与数据量的变化会随着时间的迁移而呈反比例变 化
利用随时间积累,数据访问频 次变化和数据量累积变化成反 比这一客观规律,对数据根据 访问频次进行数据价值评估, 对大量低价值信息采取低成本 的数据保存手段,使数据的价 值和存储的技术和管理相匹配 ,进而大幅降低整体数据存储 成本;
14
目录
一、工行数据管理的总体情况
二、数据生命周期管理理论与方法
三、工行数据生命周期管理实践
15
二、数据生命周期管理理论与方法
背景情况
早期银行的金融产品相对较少,主要是以存贷汇为主,且数据 是以省(市)为单位分布存放,数据量相对较少;此外由于还 还没有数据集中分析挖掘的需求,日常处理对象主要是短期之 内的数据,时间跨度小,处理的数据规模相对可控。 随着各家银行实施了数据大集中,集中存放和处理的数据量急 剧增加,例如工行目前核心银行数据已达150T,数据仓库存放 的数据已达185T;同时随着各类业务的快速发展,银行每天都 在产生大量的数据,并需要对这些数据进行分析挖掘,系统资 源开销和运行效率都面临着越来越大的压力。 为控制在线数据规模、保证应用系统健康高效运行,对数据从 创建到最终销毁的生命周期进行全程管理显得越来越迫切 。
在线阶段
归档
归档阶段
清理
销毁阶段
在线归档 系统 快照 用户 快照 历史数 据管理 结构化 电子影像及文 档服务平台 非结构化
转移
离线归档
老化 表
磁带 光盘 低端磁盘
说明: 在线归档阶段(也被称为近线阶段):将访问频度较低且应用需求不高的数 据从应用中分离出来,保存在另外的磁盘并提供相应的查询; 离线归档阶段:将访问频度较低且应用需求不高的数据从应用中分离出来, 保存在磁带、光盘及低端磁盘上。离线归档后不提供信息联机访问接口,如有 相应的查询要求,需特定的查询工具或将归档数据导入相应系统
科目定制类
6
一、工行数据管理的总体情况
指标模型层(模型部分)
模型是实现各类共用指标成熟的计算方法,主要用来规范和统 一各类指标的计算,达到方法共享和提高数据一致性的目的。
目前已经实现的模型包括如下内容:
客户评价模型 产品定价模型
绩效评估模型
风险计量模型 财务预算模型 。。。
随着时间的推移,数据重要性会逐渐降低,使用频率会随之 下降,应将数据进行不同级别的存储,为其提供适当的可用 性、存储空间,以降低管理成本和资源开销。 最终大部分数据将不再会被使用,可以将数据清理后归档保 存,以备临时需要时使用。
19
二、数据生命周期管理理论与方法
数据生命周期管理流程
清理
23
三、工行数据生命周期管理实践
《数据生命周期管理技术规范》总体情况
《规范》建立了统一的对所有数据的有效期管理的具体标准、 方案、指引和制度,是数据管理的指导方针,提高了数据管理 工作的统一性、系统性、全面性和科学性 《规范》改变了以往根据磁盘容量和依赖于技术人员经验的状 况,使全行有了科学统一的数据管理标准,减少了因数据保留 时间不当而出现应用风险,使中国工行的各类业务系统可以更 好、更稳定地为广大客户提供优质地服务。
客户经理
各级管理人员
信息获取
信息整合 信息反馈及应用
信息加工
信息展现
高级分析用户 (灵活查询) (数据挖掘)
3
一、工行数据管理的总体情况