数据仓库技术与应用 LEKIBM standardization office【IBM5AB- LEKIBMK08- LEKIBM2C】文章编号 :5(2004 03收稿日期 :27基金项目 :教育部高等学校骨干教师资助计划项目 (GG 28作者简介 :项军 (19792 , 男 , 四川绵阳人 , 空军工程大学导弹学院计算机工程系硕士研究生 , 研究方向 :智能信息处理与人工智能 ; 雷英杰 (19562 , 男 , 陕西渭南人 , 教授 , 博士生导师 , 研究方向 :智能信息处理 , 模式识别 , 人工智能。
数据仓库技术与应用项军 , 雷英杰(空军工程大学导弹学院 , 陕西三原 713800摘要 :对数据仓库、联机分析处理和数据挖掘等几个概念做了详细的介绍 , 在此基础上提出适用于电信系统应用的设计思想 , 详细介绍了该系统的系统结构、关键技术的实现和各子系统功能。
关键词 :数据仓库 ; 联机分析处理 ; 数据挖掘中图分类号 :文献标识码 :AThe T echnique and Application of Data W arehouseXI ANGJun ,LEI Y ing 2jie(Missile Institute of Air F orce Engineering University ,Sanyuan 713800,ChinaAbstract :This paper introduces the concepts of data warehouse ,on 2line analytical processing and data mining ,puts forward the design thought of telecommunication system and briefly introduces the system structure ,the key techniques of the system and the functions of each sub 2system.K ey w ords :data warehouse ;on 2line analytical processing ;data mining0引言近年来 , 随着企业计算机应用的不断深入 , 大部分企业已经投入了大量的时间和资源建立了庞大而复杂的信息系统 , 积累了大量的宝贵数据资源。
面对日益激烈的市场竞争和潜在的金融风险 , 这些企业迫切希望能有一个强而有力的分析工具来帮助他们从这些海量的数据中充分挖掘有意义的信息 , 以辅助高层领导者进行计划和指导决策活动。
数据仓库的目的是为了建立一种体系化的数据存储环境 , 将分析决策所需要的大量数据从传统的操作环境中分离出来 , 使分散、不一致的操作数据转成集成、统一的信息 , 进而支持决策。
完整的数据仓库包括三个方面的技术内容 :数据仓库技术、联机分析处理技术和数据挖掘技术。
该文对数据仓库技术及其决策支持工具进行了详尽的讨论 , 并提出适用电信行业的方案设计思想。
1数据仓库及其决策支持工具的概述1. 1数据仓库 (Data W arehouse根据 W. H. Inm on 的定义:“ 数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合 , 用以支持决策制定过程。
” 数据仓库是一个专门的数据仓储对象 [1]。
它通过清理、转移、分析、映射和综合 , 形成统一的存储格式 , 最终为用户特别是决策支持者提供对公用数据的更好的访问支持。
数据仓库有四个显着特点 [2]:(1 数据仓库的面向主题性。
主题是一个抽象的概念 , 是在较高的层次上对企业信息系统中的数据综合、归类后进行分析利用的抽象。
在逻辑意义上 , 它是对应企业中某一宏观分析领域的分析对象 , 是针对某个决策问题而设置的。
(2 数据仓库的数据是集成的。
数据仓库中存储的数据从原来的分散、异构的数据库数据经过抽取、统一、综合转换成全局统一的定义消除不一致和错误之处。
(3 数据仓库的数据是不可更新的。
数据仓库中的数据通常是一起载入与访问的 , 在计算机与现代化2004年第 11期J IS UAN J I Y U XI ANDAIH UA总第 111期数据仓库环境中不进行一般意义上的数据更新。
所以数据在一定的时间间隔是稳定的 , 并且能反映企业当前和历史的数据。
(4 数据仓库的数据是随时间变化的。
数据仓库的数据随时间变化不断增加新的数据内容和删去旧的数据内容。
数据仓库中含有大量与时间有关的综合数据。
粒度是数据元素中包含的信息的确切性程度 , 分为细粒度和粗粒度 [3]。
它深深地影响存放在数据仓库中的数据量的大小 , 影响存储介质大小和查询效率 ; 同时影响数据仓库所能回答的查询类型 , 即所能满足的信息分析的功能需求。
1. 2联机分析处理 (OLAP 技术O LAP 是 On 2Line Analytical Processing (联机分析处理的首字母缩写 , 是与数据仓库密切相关的一种决策支持工具 , 是使管理人员和分析人员或执行人员能从多角度对原始数据转化出来的 , 能够真正为用户所理解的并真实反映企业特性的信息进行快速、一致、交互的存取 , 从而获得对数据的更深入了解的一类软件技术。
其目标是决策支持和多维环境特定的查询和报表需求 , 其技术核心是“维” 这个概念 , 维是人们观察事物的角度 , 所以 O LAP 也可以说是多维数据分析工具的集合。
操作数据存储的两种方式分别为多维数据存储和关系数据存储 , 由此形成了 O LAP 的两种实现结构 :基于多维数据库的 O LAP (M O LAP 实现和基于关系数据库的 O LAP (RO LAP 实现 [4]。
M O LAP 是以多维数据库 (M DD 为基础 ,M DD 将数据存放在一个 n 维数组中 , 存在着大量的稀疏数据 , 在事件发生的部位 , 数据聚合在一起 , 密度很大 , 成为稠密数据 [5]。
M DD 对稀疏数据进行压缩存储 , 以减少存储空间占有量 , 而且数据综合速度快。
但多维数据库管理系统缺乏标准且功能不强。
RO LAP 是以成熟的关系数据管理系统上 , 在灵活性和处理数据能力方面有优势。
其不足是存放了大量细节数据和较少的综合数据 , 有时需要牺牲效率为代价动态地综合数据。
1. 3数据挖掘 (DM 技术数据挖掘是一种决策支持过程 , 利用某些特定的知识从企业原有的数据中挖掘出潜在的模式 , 预测客户的行为 , 帮助企业的决策者做出正确的决策。
作为分析型工具 ,O LAP 和 DM 在系统中占有相当重要的地位 , 但它们的应用范围和侧重点不同 ,O LAP 是一种验证型的分析工具 , 而 DM 是一种挖掘型的分析工具 , 它能自动地发现隐藏在数据中的模式。
从对数据分析的深度的角度来看 ,O LAP 位于较浅的层次 ,DM 所处的位置较深。
尽管 DM 与 O LAP 存在差异 , 但作为数据仓库的工具层的组成部分 , 两者相辅相成 , 相互结合 , 多维数据挖掘 (O LAM 是 O LAP 和 DM 相结合的产物。
2电信系统数据仓库技术应用方案随着电信市场的逐渐开放 , 传统的电信厂商面临着国内外厂商的挑战 , 电信厂商间的竞争将日趋激烈。
因此必须依靠技术手段 , 建立一套良好的电信业务管理系统 , 使之能在不断变化的市场需要中把握商机 , 满足需要。
建立基于数据仓库的决策支持系统 , 是实现这一目标的保障。
以往的电信行业中各个部门已经建立自己的信息系统 , 经过多年的运行 , 已经保存大量的实时系统运行信息、原始营业数据及其它详细资料。
但由于这些系统间的分散、独立不仅无法为管理决策提供科学依据 , 也无法满足信息一体化的要求。
为了提供全面的客户跟踪和决策分析 , 提出了建立数据仓库的构想。
2. 1系统的体系结构系统可分为四个部分 :数据源 (包括来自源于电信部门的内部业务数据和其它结构的外部数据、数据仓库系统、决策支持层 (O LAP 工具和 DM 工具和用户界面。
它们之间相互作用共同构成层次分明的决策支持系统。
如图 1。
系统的工作流程 :底层数据源的数据经抽取、转换后进入数据仓库。
数据仓库中的多维数据经 O LAP 系统直接提供给一般的管理人员和高层的管理人员。
同时数据挖掘工具从数据仓库挖掘出有用的信息可供高层人员做出预测信息性分析。
通过用户界面供用户使用。
2. 2数据仓库的设计数据仓库的建立是至关重要的 , 它是管理人员管理决策和预测分析的基础 , 是实现系统功能的关键之一 , 必须保证正确的数据以正确的模式被抽取到数据仓库中。
(1 确定主题。
如表 1不难看出 , 五个主题构成了数据仓库的结构框架。
数据仓库中的基层数据随着时间日积月累 , 来源非常复杂 , 不仅有内部数据 , 也有外部数据 , 其数 782004年第 11期项军等 :数据仓库技术与应用据结构也不尽相同 , 必须经过抽取、转换、传输和上载的数据采集过程 , 集成到数据仓库中 , 数据仓库包含原子数据层和具体历史数据。
而多维数据库则是对数据进行更高意义的概括。
同时 , 按照决策的需要组织成面向主题的二维表 , 每个表描述主题的不同部分的信息 , 而表与表之间通过主码键和公共码键联系。
表 1数据仓库的主题域主题属性组公共码键客户客户分类、个体客户、集体客户、客户基本档案信息客户 I D 号业务业务类别、业务项目业务号费用客户费用、业务费用计价费用号话费记录话费分类、长途电话、市话、移动通话话费项目号缴费记录缴费项目分类、客户缴费项目缴费项目号 (2 粒度的划分。
考虑到电信部门的数据仓库中拥有大量数据 , 采用双重粒度级来设计。
将部门每天的细节操作型数据 (细粒度的数据存放在数据仓库的真实档案层 , 并每隔一个时间周期 (一个月将这些数据从数据仓库中转移到一个价格低廉的存储介质保存。
这样可以提高查询内容的范围。
将每月的或是每年的综合分析型数据 (粗粒度的数据存放在数据仓库中 , 供分析人员使用 , 这些数据是经常被用到的 , 可以提高查询效率 , 同时节省存储费用。
2. 3 OLAP 系统的建立O LAP 系统的设计重点在于如何组织数据仓库中的综合性数据 , 如何满足前端用户的多维数据分析需要。
基于上面两点考虑 , 选用基于多维数据组织的 O LAP (M O LAP 实现。
(1 综合数据组织。
进行数据汇总查询之前 ,M O LAP 需要预先按概要文件中定义的数据汇总关系进行计算 , 这个计算通常以批处理方式运行。
计算结果存在数据文件中 , 当用户查询时 , 直接调用计算结果 , 速度非常快。