当前位置:文档之家› 数据仓库在现代企业中的应用

数据仓库在现代企业中的应用

数据仓库在现代企业中的应用【摘要】当今世界,随着科学技术的发展,数据的迅速增长,信息量的急剧增加,给人类提出了一个亟待解决的课题,即如何有效地使用这些数据。

目前还处于数据丰富而知识贫乏阶段,利用当前的数据库技术并不能充分发挥这些数据的作用。

本文介绍了数据仓库技术,分析了数据仓库技术对于现代企业的作用,给出了在企业中建立数据仓库的方法和实施步骤,同时介绍了市场上一些成熟的数据仓库解决方案。

【关键词】数据库数据仓库联机分析企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础的。

数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。

而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。

因此,从产业界的角度看,数据仓库建设是一个巨大的工程。

一、对数据仓库的简介1、什么是数据仓库。

数据仓库的概念由美国著名工程学家W·H·lnmon博士于90年代在《建立数据仓库》一书中提出:“数据仓库(Data Warehouse)是一个面向主题的、集成的、稳定的、包含历史数据的数据集合,它用于支持经营管理中的决策制定过程。

”主题是指用户使用数据仓库进行决策时所关心的重点方面;面向主题是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息;集成是指数据仓库中的信息不是从各个业务处理系统中简单抽取出来的,而是经过系统加工、汇总和整理,保证数据仓库内的信息是关于整个企业的全局信息;稳定是指一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少;包含历史数据是指数据仓库内的信息并不只是关于企业当时或某一时点的信息,而是系统记录了企业从过去某一时点到目前各个阶段的信息,通过这些信息可以对企业的发展历程和未来趋势做定量分析和预测。

作为一个系统,数据仓库至少包含三个基本功能部分。

第一,数据获取。

它负责从外部数据源获取数据,包括从各现行系统获取当前细节数据和从其他存储介质获取早期细节数据,数据被区分出来后,进行拷贝或格式转换等处理,准备载入仓库;第二,数据存储与管理。

这部分负责仓库内部的维护和管理,提供的服务包括数据存储的组织、数据的维护、数据的分发、仓库的例行维护等;第三,信息访问。

信息访问部分属于数据仓库的前端,面向不同种类的最终用户,主要由桌面系统的各种工具组成。

数据仓库的最终用户在这里提取信息、分析数据集、实施决策等。

进行信息访问的软件工具主要是查询生成工具、多维分析工具和数据采掘工具等。

2、数据仓库的体系结构。

整个数据仓库系统是一个包含四个层次的体系结构,具体如图1所示。

(1)数据源。

是数据仓库系统的基础,是整个系统的数据源泉。

通常包括企业内部信息和外部信息。

内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。

外部信息包括各类法律法规、市场信息和竞争对手的信息等等。

(2)数据的存储与管理。

是整个数据仓库系统的核心。

数据仓库的真正关键是数据的存储和管理。

数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。

要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。

针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。

数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。

(3)OLAP(联机分析处理)服务器。

对需要分析的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。

其具体实现可以分为:ROLAP(关系型在线分析处理)、MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理)。

ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP 基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。

(4)前端工具。

主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具、以数据挖掘及各种基于数据仓库或数据集市为基础的应用开发工具。

其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。

二、数据仓库在企业中的应用1、数据仓库在企业中的作用。

数据仓库在企业中主要有三方面的作用:首先,数据仓库提供了标准的报表和图表功能,其中的数据来源于不同的多个事务处理系统,因此,数据仓库的报表和图表是关于整个企业集成信息的报表和图表;其次,数据仓库支持多维分析,多维分析是通过把一个实体的多项重要的属性定义为多个维度,使用户能方便地汇总数据集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角度。

应用多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过程中非常有用;第三,数据仓库是数据挖掘技术的关键基础,数据挖掘技术要在已有数据中识别数据的模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未来的状况作出预测。

在数据仓库的基础上进行数据挖掘,就可以针对整个企业的状况和未来发展做出较完整、合理、准确的分析和预测。

对数据仓库中信息的使用,不同层次的用户有不同的使用风格。

比如:主管信息系统(EIS):提供界面丰富,定制容易的决策分析,主要适合企业的高层决策者使用。

联机分析处理(OLAP):灵活丰富的多维分析与查询,可以从不同的角度去分析企业的运作情况,并对未来进行预测。

主要适合于企业的中层领导和业务分析人员。

信息查询(Ad Hoc Query):提供从多个角度的灵活查询,适合于业务分析人员。

灵活报表(Reporting):提供灵活报表的设计,适合于制作报表的人员。

2、现代企业建立数据仓库的需求。

信息作为现代企业的宝贵资源,占据着越来越重要的地位,已经成为现代企业科学管理的基础、正确决策的前提和有效调控的手段。

能否拥有及时、准确、全面的信息已经成为衡量一个企业是否具有发展潜力的重要指标。

经过多年的努力,目前大多数企业根据自己的业务特点和办公需要,建立了一大批各自的业务处理系统和企业办公自动化系统,积累了大量的业务数据。

这些业务信息系统为提高企业的工作效率,减少重复性的工作起到了积极的作用,为企业的发展做出了巨大贡献。

目前,企业信息化建设呈现出“数据集中化、业务综合化、管理扁平化、决策科学化”的发展趋势。

面对激烈的市场竞争,许多大型企业纷纷实施“以客户为中心、以服务求发展”的经营策略。

如何优化客户关系,增强企业的竞争优势已经成为现代企业关注的焦点。

现有的应用系统往往以“产品”为中心,以“单据(票证)”处理为基础,是面向联机事务处理(Online Transaction Processing,简称OLTP)的系统,而以客户为中心的经营管理模式要求对现有业务系统的数据进行有效的集成并加以重组,建立面向联机分析处理(Online Analysis Processing,简称OLAP)的系统。

通过分析客户的行为,掌握不同类型客户的特征,进而为客户提供更加优质的服务,尤其是个性化的服务,同时全面掌握并理解、分析企业业务的发生情况,充分发挥企业现已积累的数据,为各级管理人员提供科学化管理和决策的有力依据,以提高企业的经营业绩,保证利润的持续增长。

3、现代企业建立数据仓库的步骤。

数据仓库系统是一种解决问题的过程,而不是一个可以买到的现成产品。

不同企业会有不同的数据仓库。

企业人员往往不懂如何建立和利用数据仓库,发挥其决策支持的作用,而数据仓库公司人员又不懂业务,不知道建立哪些决策主题,从数据源中抽取哪些数据。

这需要双方互相沟通,共同协商开发数据仓库,因此是一个不断往复前进的过程。

其过程包括以下几步。

(1)启动工程。

建立开发数据仓库工程的目标及制定工程计划。

(2)建立技术环境。

选择实现数据仓库的软硬件资源。

(3)确定主题进行数据建模。

根据决策需求确定主题,选择数据源,对数据仓库的数据组织进行逻辑结构设计。

(4)设计数据仓库中的数据库。

(5)数据转换程序。

实现从源系统中抽取数据、清理数据、一致性格式化数据、综合数据、装载数据等过程的设计和编码。

(6)管理元数据;定义元数据。

(7)开发用户决策的数据分析工具。

(8)管理数据仓库环境。

三、几种数据仓库的解决方案数据仓库的市场巨大,数据仓库产品很多,其中比较有代表性的产品有:Business Objects和Sybase、Platinum Technology等解决方案。

1、Business Objects。

这是集查询、报表和OLAP技术为一身的智能决策支持系统,它使用独特的“语义层”技术和“动态微立方”技术来表示数据库中的多维数据,具有较好的查询和报表功能,提供钻取(Drill)等多维分析技术,支持多种平台和多种数据库,同时它还支持Internet/Intranet,可以通过www进行查询、报表和分析决策。

2、Sybase的数据仓库解决方案Quickstart DataMart,包括Sybase Caleton PASSPOR、Brio Query、Conos Powerplay等一系列软件。

支持DB2、MS、VSAM、Sybase、Oracle、Informix等关系型数据库,还有文本格式的数据。

它能够同时处理几十个即席查询,其Bit Wise技术和垂直数据存储技术使系统只访问特定的少量数据,使得查询速度比传统的关系型数据库管理系统快100倍。

3、Platinum technology,公司的数据仓库解决方案。

它能够为企业提供完整、一致的数据,以保持商业决策的及时、正确性。

Platinum technology的数据仓库解决方案包括数据抽取和提炼、数据分布、源数据管理、数据存取和分析(OLAP、EIS、报表)、保险、销售和营销决策支持等几个方面。

它提供的数据仓库工具包括异构数据库之间数据双向复制的应用系统开发工具Inforump和功能强大灵活的关系型OLAP工具InfoBeacon等;提供的数据仓库前端业务智能解决方案工具包括使用户能够快速建立和使用的图形化企业信息系统应用的基于Windows的查询和报表工具Forest&Tress,可以利用多个大型数据库在桌面机或服务器上生成报表的企业级报表工具InfoReports,使用户在服务器上生成在用户端制作的企业报表工具InfoReports Server。

这些工具使用户不需编程即可查询关系数据库、数据仓库或数据文件的数据,具有很强的实用性。

【参考文献】[1] 刘军、叶钒:基于数据仓库和数据挖掘的应用研究[J].福建电脑,2007(3).[2] 林璇、冯健文:数据仓库分析工具及发展研究[J].平顶山工学院学报,2005(4).[3] 陈燕:数据仓库的设计与实现[D].中国优秀博硕士学位论文全文数据库(博士),2000.(责任编辑:李文斐)。

相关主题