招商银行数据仓库解决方案一、概况随着国家金融体制改革的不断深入和完善,金融业务处理能力不断扩展,大量新的服务手段不断应用,使得金融部门需处理的业务种类和业务量都远远超过了以前任何时候。
招商银行是国内重要的商业银行,开办了各种币种的存取、自动转存、通存通兑、自动提款、代发代扣、购物消费、贷款融资、手机交费等多种业务,并提供“一卡通”、24小时自助银行、网上支付、电话银行、证券转款等高水平的金融服务。
招商银行的业务具有数据海量化的特点。
招行自成立以来,由于业务种类多,客户量大,长期以来,不仅积累了大量重要的业务数据,而且随着业务的扩展和客户量的猛增,这些数据每天都在以惊人的速度增长,将业务数据加工整理成有价值的信息并对这些信息进行快速综合处理分析的需求不断增长。
同时招行需要做到各个地域、各个时期的业务信息能够有机、有序联系,以保证信息的高可用性。
基于这方面考虑,招行决定采用数据仓库系统来满足业务需求。
在综合对比多家数据库厂商的产品之后,招行选择了业界著名厂商Sybase的数据仓库系统。
Sybase是关系数据库的全球性供应商,在开发工具方面居于世界领先地位。
Sybase产品在数据仓库应用方面具有产品线齐全、技术领先的优势,为企业提供了一整套基于全新技术和高可用性的解决方案。
Sybase的数据仓库系统在招行的应用主要集中在以下方面:数据的收集和存储;有关业务和市场分析;利润分析、资金分析;专门侧重某一方面的专题应用等。
二、需求招商银行的业务系统一直具有较高的信息化水平,但随着业务的发展和对金融电子化要求的不断提高,各种查询、统计、报表及分析的需求日益增长,招行的计算机应用也面临着新的挑战。
根据业务需求状况,招行决定采用数据仓库应用平台来提高自身的业务运作水平和效率。
招行对数据仓库应用系统的需求主要集中在以下几方面:(1)该系统须能满足招行目前对数据存储、查询、统计、分析等一系列需求,能保证存储可靠、查询统计灵活;(2)考虑到招行业务的不断增长,要求该方案具有可扩展性,不但可以保护现在投资,还可以保证日后系统的平滑升级;(3)因为数据仓库系统的建设需要长期分阶段进行,而银行业务又具有不可中断的要求,因此在建设系统过程中,既要保证各阶段的相承性,避免重复建设,又要不影响招行的正常业务;(4)鉴于数据仓库在银行业的应用还处于起步尝试阶段,为了保证方案的可用性,招行除了需要寻求有实力的系统集成商外,还需选择该领域高性能的软件、硬件产品。
三、方案设计经过反复对比、测试与论证,招行采用了Sun与Sybase的产品构筑开放的数据仓库应用平台。
招商银行数据仓库系统包括对公系统、人事系统、储蓄系统等:对公系统具有多维分析、预测功能;人事系统主要提供统计功能;储蓄系统是投入最多、功能完善的系统,涵盖了储蓄部门所有交易场所(柜台、电话银行、网上银行、ATM、POS)的全部业务(存单、存折、一卡通、信用卡)。
此次数据仓库的建设,招行采用了Sun公司具有极高性能的Starfire(E10000)服务器作为总行数据仓库的主机平台。
Sybase公司凭借其在主机互连方面的优势,特别是Sybase IQ在数据压缩存储、灵活查询统计方面的出色表现,成为招商银行数据仓库的系统软件核心。
招行数据仓库系统是国内业界第一个成功可用的数据仓库业务系统,它的建成标志着数据仓库技术在我国金融电子化建设方面的应用拉开了序幕。
整个业务系统的结构见图1。
主机采用SUN顶级服务器Starfire,它拥有18个250MHz的CPU,10GB 内存,204GB硬盘(其中156GB用于数据仓库,其余用于办公自动化系统);局域网采用快速以太网,广域网通过F/R连接,移动办公则利用公共电话网。
在比较了多家数据仓库厂商的产品后,选择了Sybase产品构建数据仓库。
Sybase是在数据库领域处于领先地位的全球性供应商,数据仓库是该公司的三大法宝之一。
Sybase依借产品线齐全、技术领先的数据仓库产品,能够提供一整套贴近用户应用的高可用性解决方案。
Sybase和招行信息系统人员经过周密考虑,本着从实际出发的精神,将其数据仓库系统的建设分成三个主要阶段:(1)第一阶段的主要任务是建立和其业务相关的决策支持系统,如财务系统、储蓄系统的数据仓库等,也就是针对地域或部门首先建立一些单独的数据集市,满足边开发边见效的初衷;(2)第二阶段是在第一阶段的系统基础之上,建立针对不同专题的系统,如客户关系管理系统、风险控制系统等;(3)第三阶段是完成构造整个企业级数据仓库系统,完善全局专题应用并实现数据挖掘。
大型数据仓库的建设往往从数据集市的建设开始,这些数据集市在企业级数据仓库完全建成之前就会发挥重要作用;另一方面,考虑到企业级数据仓库的建设是最终目标,因此在进行任何数据集市建设的同时都必须考虑到它们是未来数据仓库的一部分,要完全避免数据集市的重构现象,这样如何开始数据集市的建设同时又可以使用方便的集成的方案和产品就至关重要了。
在市场上,Sybase方案唯一地能够将多个数据集市和中心仓库管理集成在一起,为企业提供“唯一的可行方案”,对进入数据集市的数据移动、安全和元数据管理进行调度。
数据仓库系统整体架构如图2。
根据这样的架构所配置的产品包括:Sybase异构互联的中介件产品Direct Connect;工具产品PowerBuilder;Sybase Adaptive Server Enterprise;Sybase Adaptive Server IQ;数据结构分析和设计工具PowerDesigner Warehouse Architect; Brio、Cognos、PowerDimension、SAS等联机分析(OLAP)软件;Control Center、PowerDesigner MetaWorks等元数据管理工具。
数据迁移平台依靠Direct Connect FOR AS/400、Sybase ASE11.5和UNIX Shell程序构建,并由PowerBuilder建立的应用进行监控和管理。
Direct Connect是专门用于异构(如AS/400)互联的中介件,AS/400的业务数据通过它传输到Sybase ASE ON Solaris上。
PowerBuilder用于开发主控和其它外部数据源访问。
通过Direct Connect,数据仓库可以直接访问25种不同的基于主机或客户机/服务器的数据库系统,使得系统能够适应招行业务数据基于多种来源的需求,保证数据的顺利迁移。
公共操作型数据存储(ODS)功能使用了Sybase 的Adaptive Server Enterprise(ASE)。
ASE是Sybase企业级数据库产品家族的重要成员,它能够快速而方便地集成不同应用和数据源的数据,并进行有效分析。
数据集成是数据仓库项目开发中需要编程量最多的工作之一,因为银行系统的大部分业务都在AS/400机器上,因此数据集成的过程同时也是解决数据透明访问的过程。
在实际实施的方案中,直接在Sybase ASE上通过存储过程的方式进行数据的重新组织和整理,使得方案比较容易管理维护。
数据仓库(DW)和数据集市(DM) 的核心产品是Sybase Adaptive Server IQ。
Sybase Adaptive Server IQ是Sybase商业智能解决方案中性能卓越的数据存储和管理软件,在招行数据仓库系统中被用于存放轻度综合数据和高度综合数据。
Sybase IQ能够适应数据仓库应用中大量交互式的和无定型的查询处理的需要,为用户提供非常灵活的查询统计方式。
银行数据仓库不同于其它系统的一个明显表现是数据量大,在建立数据仓库时,系统设计人员需要重点关注的问题是:在合理的时间范围内完成所有的数据加载和处理工作;系统能够保存多大范围多长时间的数据;系统访问的效率。
这些问题的解决归根结底需要一个成熟的设计和高效率的产品。
ASIQ是世界上用于决策支持(DSS)的最快速数据库。
由于具有先进的Bit-wise索引技术、按列存储的特殊组织方式,它能够以10至100倍于其竞争对手的速度查询。
这更有利于最终用户的特殊的、重复的、即席的分析。
面向应用的数据汇总与处理功能由数据结构分析和设计工具(PowerDesigner Warehouse Architect)和联机分析(OLAP)软件(Brio、Cognos、PowerDimension、SAS等)来实现。
利用WarehouseArchitect的自动生成脚本功能首先形成一个脚本文件,通过手工调整后的脚本在ASIQ中生成结构,这样利于进行各种设置的调整。
通过和数据抽取转换过程的接口调整,将历史数据通过批量方式集中时间加载到DataWarehouse和DataMart中,在初始系统的建设完成后,新的数据将会通过增量的方式每日夜间加载到数据仓库和数据集市之中,为后面的应用处理提供坚实高效的数据服务。
Sybase 在本次银行系统数据仓库项目开发中选择了Cognos、Brio和SAS,该类型的产品一般既支持传统的Client/Server结构,也可以支持Web/Intranet环境,两者具有完全相同的功能。
通过这些工具能够快速方便地实现各种固定报表、灵活报表、多维分析和数学分析的功能。
此外,为了实现对元数据的管理,采用了元数据管理工具:Control Center、PwerDesigner MetaWorks等。
Sybase Central是一个图形化的管理工具,用于对数据库、远程用户和数据复制提供方便的统一管理及监控。
四、应用效果作为国内业界第一个成功的数据仓库系统,招商银行数据仓库系统目前应用情况良好,对公系统、人事系统、储蓄系统等运行顺利,特别是储蓄系统业务实践取得了成功。
在应用中,招商银行数据仓库系统实现了以下功能。
1、异构数据的集成数据集成是银行数据仓库应用的基础。
通过Sybase的系统,招行成功地将各种源数据收集到中心的处理机上,而且能够顺利地进行数据的清洗、转换、汇总处理。
并在数据集成过程中表现出高度的灵活性和高效率。
Sybase的数据集成工具具有较好的图形化操作界面,对元数据的处理过程描述较为清晰。
在招行数据仓库应用中,数据集成所花费的工作量中,40%用于数据的抽取、验证和传输,30%用于数据的准备和向数据仓库、数据集市的加载,另外30%用于整理和汇总不同粒度的高层数据。
实践表明,这一分配适应了招行业务的实际情况,取得了明显效果。
(下转第69页)2、高效率的加载、存储和查询系统加载、数据存储和查询速度,影响到数据的预处理、汇总程度和利用效率。
以ASIQ为代表的Sybase数据库产品有效解决了这方面的问题。