浅谈数据仓库在电信企业中的应用(新疆电信有限公司吴磊)摘要:本文着重阐述了数据仓库的基本概念、相关技术和体系结构,并介绍了数据仓库在电信企业中的一些应用。
关键词:数据仓库数据挖掘OLAP一、引言随着中国加入WTO和国内电信行业的改革重组,电信市场正逐步放开。
为了保持竞争的优势,各运营商管理层和业务人员必须能实时了解企业的运行状况,获取各个专题的市场信息,并根据市场反馈的情况随时调整业务策略,以求在竞争激烈的电信市场中赢得先机抢占市场,获得更好的利润并提升企业品牌形象。
如今各电信运营商的业务支持系统构成复杂,数据种类繁多,数据量极为庞大,信息的提供在速度、质量和范围上不能满足市场竞争所要求的标准,为此各运营商纷纷针对企业内部的实际情况,着手引入数据仓库技术,以整合内部的各业务系统分散、孤立的业务数据,提供方便快捷的数据访问手段,支持企业内部不同部门、不同需求、不同层次的用户随时获得自己所需的信息,促进企业“以客户为中心”的运营模式的开展,以提高企业的核心竞争力。
二、数据仓库的概念随着C/S技术的成熟和并行数据库的发展,信息处理技术的发展趋势已变为:从大量的事务型数据库中抽取数据,并将其清理、转换为新的存储格式,也就是为决策目标把数据聚合在一种特殊的格式中。
随着此过程的发展和完善,这种支持决策的、特殊的数据存储即被称为数据仓库(Data Warehouse, DW)。
数据仓库是一种管理技术,它能够将分布在企业网络中不同站点的商业数据集成到一起,为决策者提供各种类型的、有效的数据分析,起到决策支持的作用。
数据仓库概念的创始人W.H.Inmon在《建立数据仓库》一书中指出:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程。
”所谓主题,它是数据归类的标准,每个主题对应一个客观分析领域,如销售状况、人事状况、整个企业的利润状况等。
它可以辅助决策集成多个部门不同系统的大量数据。
所谓面向主题,是指数据仓库内的信息是按主题进行组织的,为按主题进行决策的过程提供信息。
所谓集成,是指数据仓库中的信息不是从各个业务处理系统中简单抽取出来的,而是经过系统加工、汇总和整理,以确保数据仓库内的信息是关于整个企业的一致的全局信息。
所谓稳定,是指一旦某个数据进入数据仓库,一般情况下将被长期保留,也就是数据仓库中一般有大量的插入和查询操作,但修改和删除操作很少。
所谓包含历史数据,是指数据仓库内的信息并不只是关于企业当时或某一时点的信息,而是系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库作为一种面向分析型数据处理的技术,它不同于企业现有的操作型数据库;数据仓库是对多个异构的数据源的有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
传统的数据库技术是以单一的数据资源,即数据库为中心,进行从事务处理、批处理到决策分析等各种类型的数据处理工作。
然而,不同类型的数据有着不同的处理特点,以单一的数据组织方式进行组织的数据库并不能反映这种差异,特别是满足不了现代商业企业数据处理多样化的要求。
当前的商业企业数据处理可以大致地划分为两大类:操作型处理和分析型处理。
操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间、数据的安全性和完整性。
分析型处理则用于商业企业管理人员的决策分析。
三、数据仓库的体系架构如图所示为数据仓库典型的体系结构。
图1 数据仓库的体系架构图从图1中可以看出,数据仓库系统包括四大部分:数据装载、数据管理、信息访问和系统管理与维护。
它描述了数据仓库系统的数据源(即业务系统或者其它OLTP系统)、相应的数据转换ETL((Extraction、Transformation、Loading)过程(指把数据从数据源转换并加载到中央数据仓库的过程)、中央数据仓库、对数据仓库信息的访问(通过一般的OLAP工具进行访问或者进行数据挖掘等)、以及对整个数据仓库系统的管理与维护(元数据服务、数据库建模与管理、系统管理、操作管理、专业技术服务等)。
从这个框架结构图可以清楚地看出,数据仓库系统是一个由许多产品、模块、及服务构成的复杂解决方案,而决非某一个单纯的产品。
以下对这四部分内容做一简要描述:1、数据装载数据装载是按照一定的规则和方法将所需数据从各种数据源提取/转换/加载(ETL)到中央数据仓库中,这是整个数据仓库系统应用的基础。
对于电信企业来说,这样的数据源包括计费帐务系统、营业97系统、客服系统、网间结算系统等。
需要把这些业务系统中的数据通过一定的ETL方法和过程将它们进行抽取、过滤、清洗、转换,然后加载到中央数据仓库中。
2、数据存储和管理这是电信企业数据仓库系统的核心,主要实现数据的存储、管理。
该引擎必须满足如下基本要求:强大的并行处理能力;高效的查询响应能力;支持复杂的,大数据量的、突发查询的能力;具有对复杂查询进行优化处理的能力;高可靠性、高可用性;高可扩展能力;支持大容量,TB级的数据存储能力;易于维护、支持在线升级和扩展,最大限度减轻DBA管理的工作量,降低管理成本。
3、信息访问最终用户通过该层次实现对信息的访问和应用。
典型的数据仓库应用主要包括如下技术方式:(1)查询/报表/OLAP存储在数据仓库系统中的数据,通过有效地组织和分析,就可以得到有用的信息,回答用户特定的业务问题。
通常这类信息访问工具可以分为以下几组:▪报表和图形化查询工具(Brio、BO、Cognos等)▪多维分析工具 (BO、Cognos、Analysis Services等)▪通用开发工具(VB、VC、PB等)(2)知识发现/数据挖掘数据仓库系统的价值最终体现于用户获取有用的信息的能力,以及利用信息进行决策的能力。
在数据挖掘层,数据仓库系统中的原始数据被探测出来,使用自动化或半自动化的工具分析。
数据挖掘可以采用自顶向下的方法或自底向上的方法。
自顶向下的方法测试假设,也就是使用数据仓库系统中的数据验证或反驳某个设想。
自底向上的方法叫做知识发现,能够解释或分类特定的数据,发现数据之间的类似处或模式。
4、系统管理与维护图1右边表示的是数据仓库系统管理,包括元数据(Meta Data)管理、操作管理与维护(OA&M)、数据库与网络管理、数据字典、逻辑数据模型、物理数据模型、网络管理、系统管理、数据管理、以及专业技术服务与咨询。
通过这些管理工作,可以把前面三个部分的模块有机地结合起来,形成一个完整的解决方案。
(1)逻辑数据模型和物理数据模型在数据装载过程开始之前,需要首先根据电信企业的经营业务面建立相应的数据库逻辑模型,然后在此基础上构造相应的物理数据模型,利用ETL过程将操作数据加载到物理表中。
逻辑建模应该从电信的业务层面来考虑,而不仅仅是基于目前的系统能提供什么的数据进行。
换言之,数据仓库系统建设的出发点是解决电信目前的业务问题和今后的业务问题。
(2)元数据(Meta Data)管理元数据管理包括对元数据的收集、存储和管理。
元数据是关于数据的数据,将业务术语与物理数据库建立一个对应。
利用元数据,分别以业务视图和技术视图描述存储在数据仓库中的数据。
(3)操作管理与维护 (OA&M)为了减轻系统操作员的工作负担、避免手工操作错误、增加数据和信息处理流程的自动化,需要制订和开发完善的数据仓库系统的操作、管理、维护(OA&M)策略、方法、和程序。
(4)备份和恢复数据仓库系统的备份和恢复也是应当重点考虑的问题,也需要制订和开发完善的系统备份和恢复的操作、管理、维护(OA&M)策略、方法、和程序。
(5)安全需要为数据仓库系统建立一套完善的安全性机制,使不同类型的用户具有不同的安全级别和访问权限。
用户通过注册/口令(login/password)访问系统。
另外,数据仓库系统还将利用Teradata数据库的安全机制。
四、应用的实现方式数据仓库应用的实现方式包括固定报表、多维分析、即席查询和数据挖掘等四种。
固定报表主要是以固定表格的形式满足相应业务用户对于信息的使用需求。
固定报表所反映的往往是企业或部门相关人员关心的常用指标,它是一种例行报表,如年报、月报、日报等。
即席查询是信息利用的另一种主要方式。
由于市场的变化、业务需求的变化、领导决策需求的变化等等,随时可能需要知道相关的业务指标,这些类型的应用需求往往需要通过即席查询来实现。
即席查询的用户可以分为三类:(1)决策用户,可使用的信息面应该是全企业的所有信息;(2)各部门业务用户,可使用的信息面应当是部门相关的基本信息;(3)数据管理部门,实际是决策用户信息应用的实现者,即决策用户对于信息的应用需求往往通过该部门实现。
同时,他们还负责信息的主动发掘、总结和发布。
即席查询可分为战术性和战略性两种。
战术性即席查询包括:查询客户的单一视图,如一个大客户使用了多少产品(固话、数据业务、宽带、小灵通等),每个产品在最近6个月带来了多少营收,在一个客户经理所管辖的片区内,按账务月、客户、产品等统计营收或进行排序等。
由于战术性即席查询涉及的数据量很少,数据库不需要进行全表扫描操作,因此响应速度很快,通常都在秒级响应。
战略性即席查询包括:按时间、产品和客户群分析新增客户数、使用量和营收,找出最近半年营收一直在下降(下降幅度超过50%)的所有客户名单。
这些查询可能需要进行全表扫描操作,因此响应速度为分钟级。
一般而言,战术性即席查询多为各部门业务用户使用,战略性即席查询多为数据管理部门或决策用户使用。
多维分析即通常所说的OLAP分析,就是通过以多维的方式存储数据,能够为用户提供不同维度的、高性能的访问需求。
多维分析是面向那些分析型需求的用户,他们能够从不同的角度灵活组合分析某一指标,同时能够通过维度的使用完整各种指标的横比、总比和环比等分析功能。
数据挖掘是所有信息访问需求中最高层次的需求,数据挖掘解决的往往是某一专题的业务问题,比如预测客户的流失情况、综合分析客户的信用度以及价值等。
数据挖掘往往需要专门的知识用户,这些用户不仅对数据的组织和访问形式有深入的了解,同时也对通过各种模型进行高层次业务分析有充分的经验,数据挖掘的用户面相对比较窄,但是这类用户对于数据的访问权限级别比较高。
五、数据仓库在电信企业中的应用电信行业数据仓库解决方案系统一般包括应用系统部分、中央数据仓库系统部分,数据源系统部分三大部分。
电信行业数据仓库解决方案数据源主要来自电信各业务系统,包括计费系统、营业系统、客服系统、财务系统、结算系统、网管系统、112系统、114系统、电信网络资源管理系统以及其它系统,此外数据源还有来自电信系统外的数据,如人口统计、社会各企业的财务数据、银行数据等。