当前位置:文档之家› 大数据与银行业新一代数据体系建设

大数据与银行业新一代数据体系建设

大数据与银行业新一代数据体系建设“大数据”来了,如火如荼,大有排山倒海之势!仔细分析各种成功案例后,发现大都是在互联网行业,而它在银行业的应用,却鲜有报道。

本文则重点介绍大数据在银行新一代数据体系建设中的需求、战略与具体应用。

一、大数据在银行业的需求分析高负荷环境下高可用的海量数据管理是目前IT建设中最重要的内容,也是影响客户业务发展最重要的瓶颈。

近年来的事实表明,各行各业,其数据量以及用户对服务水平等几个方面的要求是在同时快速增长的,以基于SQL的关系数据库技术为主要代表的传统数据管理技术已经明显难以应付新的需求,这其中当然也包括银行业。

仔细分析,银行IT体系中数据量的增长压力主要来源于以下几个方面的原因:1.银行业务的快速增长导致原有企业业务数据的快速增长。

也就是说,企业数据库中需要管理的数据量及其增长速度已经难以承受;2.客户服务水平的提高及各种监管制度的要求,导致银行IT部门不得不规划管理比以前量大得多的数据。

例如对长期历史数据的使用要求,使得银行不得不考虑原来存放在磁带上的数据的高可用问题;3.新的IT规划带来了新的数据类型。

将社会化交互渠道引入银行业,已经成为各大银行规划其新一代IT体系的重要目标。

由此,银行IT部门就不得不关心其以前并不关注的新的数据类型。

从目前的状态来,对以上需求1与2,银行主要是通过原有系统垂直扩容的手段来应对。

但近年来,垂直扩容已经不仅仅是难以承受的成本压力了,清醒的IT工作者已经意识到这不是根本的长远之计;而对需求3,则是互联网行业的强项,银行业没有过多的技术经验与积累。

要很好的解决以上问题,必须引入新的技术理念、方法与工具,而无论从技术特征本身,还是从应用实践来看,当今最流行的大数据技术(这里主要指Hadoop MapReduce与NoSQL),都会在应对这些挑战的过程中起到重要的作用。

二、银行业大数据应用的困惑目前为止,虽然国内的商业银行对大数据的实际应用还比较少,但这项新的技术已经得到了绝大多数银行的关注,有相当一部分银行正在进行对大数据技术的调研、论证与测试工作。

正如上面分析的那样,银行业对在其IT体系中引入大数据的必要性是认同的。

但同时,银行IT部门又普遍对大数据在本企业的应用存在一定程度的困惑,这主要表现在以下几个方面:1.大数据在银行数据体系规划中的地位究竟如何?这对其技术战略规划有何影响?2.大数据技术与传统的关系数据库技术关系与未来发展方向到底如何?是会最终替代掉关系数据库吗?3.银行业应该如何构建大数据平台?4.大数据技术目前具体可以在银行IT体系的哪些方面得到有效的运用?本文旨在对以上问题进行探讨。

三、大数据与银行新一代数据体系相当一部分商业银行目前正在进行新一代IT体系的规划与建设工作,其中,打造适应新的业务与应用目标的数据体系是重中之重,这包括数据分布、数据模型、数据流程、数据治理、数据集成及数据生命周期等多方面的内容,我们可称之为新一代数据体系。

那么,在这个体系中,大数据都涉及哪些范围?它在银行数据体系规划建设工作会处于什么样的地位呢?大数据技术与传统关系数据库技术的关系如何呢?1.银行业大数据的范围多年以来,银行业主要关注的数据是其业务数据,包括交易、帐户与参数数据等,它们被以基于二维表的关系模型存储在各种大中小型的商业数据库中。

那么,我们所谈到的大数据到底从哪里来?从目前最流行的大数据概念来讲,大数据是指非结构化数据,主要包括社会化媒体日志、传感器计量及图片、图像等数据格式。

完全从这个概念入手,我们只能推导出银行业的大数据可以包括以下几个方面:●银行业务增加社会化的创新渠道后,所产生的具有互联网行业特征的数据,如操作日志与相关网页内容。

互联网行业的实践证明,这部分数据的量是很大的,并且增长很快,同时属于非结构化的数据,最适合采用大数据技术来处理;●缩微影像。

即各种交易票据的扫描件,这些数据是以图片的方式存储,目前银行对它最主要管理方式是文件索引加光盘库的方式。

也有人提出过对这些数据采用大数据方法抽取有价值数据的思路。

但是,这两个方面都不是银行业面临的最紧迫的问题:社会化渠道属于各银行正在规划与完善的工作,目前还没有紧迫的需求;而从图片图像中分析出价值数据来,似乎也并不实际。

如果这样看,似乎大数据技术目前在银行业就没有什么实际的应用场景了?这自然是不正确的结论。

看来,在银行业,我们必须对固有的大数据的定义范围进行扩大(目前,并没有什么权威的定义限制我们,我们完全可以拓展思路):●大数据不一定非要是非结构化数据,它也可以是结构化数据,即大数据应该是多类型的,而不只是指非结构化;●如果某种数据采用大数据技术处理更加合适,都可以定义为大数据。

那么,我们不妨这样来定义大数据:那些海量的、快速增长的、不适合或者不值得采用商业关系数据库技术来管理并且具有高可用要求的企业数据。

这样一来,我们便可以发现,在银行,除了以上两点以外,还有如下范围的数据可以采用大数据技术来处理。

●长期规划的历史数据。

这些数据其实是企业关键业务数据,但可以定义为大数据;●BI固定报表。

由各种BI系统产生的报表文件(PDF,Excel,Word等格式);●应用系统运维数据。

如应用日志,运维日志等;●中间状态的数据。

银行在数据流转过程中,有大量的中间状态文件,它们是海量的。

对这些海量文件处理,也可以采用大数据技术。

2.大数据技术与关系数据库技术简析目前,在很多成功实践中,大数据表现出来比关系数据库更优异的性能:效率高、成本低、扩展性强等。

于是有很多观点认为:关系数据库时代即将终结,大数据技术必将替代关系数据库技术。

银行业IT部门在一定程度上受到这种观点的影响:或是支持,或是反对,或是两可。

总之,是有困惑。

那么,在后面的内容开展之前,有必要对大数据与关系数据库从技术上进行简单的剖析。

大数据技术的实质是什么呢?其实,大数据技术的设计理念是:通过牺牲关系数据库的某些特性,并采用分布式并行技术来获得对海量多类型数据的高可用。

到底牺牲了哪些特性呢?这对不同的大数据产品与技术来讲,是不一样的。

但总的来讲,因为在有些应用场景,体系化的、复杂的SQL体系确实是不必要的,它在很大程度上影响了数据库的扩展性与效率、成本等因素。

而大数据技术抛弃了那些不必要的内容,就获得了关系数据库在这些领域所不能达到的效果。

例如,NoSQL数据库,就抛弃了复杂的SQL体系,以精简的索引与数据分布机制获得了海量管理能力、极限性能、低成本、高端可扩展等特征;而MapReduce则是对海量数据分布式计算领域的一个重要创新,但也只是在适合于并行处理的大规模批量处理问题上更占优势,而对些例如复杂Join的操作,则不一定有优势。

因此,很明显,大数据技术是为了应付关系数据库技术的不足而设计的,它并不是为了替代关系数据库而出现的,当然也不会去替代。

3.大数据时代银行数据体系建设理念在分析清楚大数据所包含的范围以后,可以制定大数据时代银行数据体系建设的理念如下:图1 大数据时代银行业新一代数据体系建设理念●大数据时代,银行不能再只是将对其关键业务数据的管理作为唯一的重点,而是需要多类型的大数据与关键业务数据并重;●大数据时代,银行必须将传统的关系数据库技术,与目前流行的大数据技术都作为主要的数据管理手段;这两种技术是共存的,相辅相成的,而不是互相替代;●从大的战略来讲,如上图1一样,大数据应该处于企业数据处理流向的最底层,大数据技术所起的作用就如新的ETL工具一样,从海量的数据中抽取分析出有价值的结果,当作企业业务数据除去交易系统的另一个来源。

当然,就是管理历史数据一样,在这个理念约束下,大数据还可以有很多其它的适用场景。

上图1描绘了大数据时代银行业新一代数据体系的建设理念,金字塔自底而上,数据量不断变小,价值越来越高。

这里认为,银行业可以根据上图1所示的理念制定本企业数据体系建设的大战略。

四、银行业应该如何构建企业大数据平台和数据仓库、网上商店或任何 IT 平台一样,大数据基础架构也有独特的要求。

在考虑大数据平台的各个构成组件时,必须关注最终目标是要实现大数据与企业数据的轻松集成,以便能够深入分析合并后的数据集。

也就是说,不要把大数据构建成一个新的孤立平台,大数据能够产生价值在于深入分析。

一般来说,大数据的基础架构要求涉及数据获取、数据组织和数据分析。

1.获取大数据大数据的获取是基础架构有别于大数据出现之前的一个主要变化。

因为大数据是指速度更快、种类更多的数据流,所以支持大数据获取的基础架构必须以可预测的低延迟来捕获数据和执行简短查询;能够处理极高的事务量,通常是在分布式环境中;并支持灵活的动态数据结构。

获取和存储大数据经常使用 NoSQL 数据库。

此类数据库非常适用于动态数据结构,并且伸缩性强。

NoSQL 数据库中存储的数据通常多种多样,因为系统的用途就是捕获所有数据,而不作分类和分析。

例如,NoSQL 数据库经常用于收集和存储社交媒体数据。

虽然面向客户的应用不断变化,但底层存储结构却很简单。

通常,这些简单的结构并不是要设计一个模式来包含实体间的关系,而只是包含一个主键来标识数据点以及包含一个内容容器来容纳相关数据。

这种简单的动态结构既支持各种变化,又无需成本高昂的存储层重组。

2. 组织大数据在传统的数据仓库中,组织数据称作数据集成。

大数据的数据量之大造成了很多情况下都是在其原始存储位置组织数据,而不迁移大量的数据,这样做既省时又省钱。

组织大数据所需的基础架构必须能够在原始存储位置处理和操作数据;支持极高的吞吐量(通常以批量的形式)以支持大数据处理过程;处理从非结构化到结构化的各种数据格式。

Apache Hadoop 是一种新技术,支持在原始数据存储集群中组织和处理大量数据。

例如,Hadoop 分布式文件系统 (HDFS) 就是 Web 日志的长期存储系统。

在Hadoop集群上运行MapReduce 程序并生成聚合结果,这些 Web 日志就会转变成浏览行为(会话)。

然后,这些聚合结果会加载到关系 DBMS 系统中。

3.分析大数据由于数据移动并不总发生在组织阶段,因此分析也可在分布式环境中进行,这种情况下某些数据将存放在其原始存储位置,并需要做到从数据仓库透明访问。

分析大数据所需的基础架构必须能够支持对不同系统中存储的更多数据类型进行更深入的分析(如统计分析和数据挖掘),必须能够扩展到极致数据量,必须能够提供因为变化而驱动的更快响应,必须能够根据分析模型自动做出决策。

而最重要的是,基础架构必须能够集成大数据与传统企业数据的组合分析。

新见解不仅来自对新数据的分析,还来自结合旧数据对新数据做出的分析,其目的在于对旧问题做出新的诠释。

4.大数据平台解决方案体系为满足上述大数据基础架构要求,许多新技术应运而生。

相关主题