当前位置:文档之家› 第一章 从数据库到数据仓库

第一章 从数据库到数据仓库

分析型数据处理的典型例子是决策支持系统(Decision Support System,DSS)。决策支持系统需要具备的基本功 能是建立各种数学模型,对数据进行统计分析,得出有用的 信息作为决策的依据和基础。 企业和机构的中高层管理人员经常要对数据进行分析, 摸清企业的运行状态和运行规律。例如,销售分析。 分析型数据处理是不同于操作型数据处理的,它需要访 问大量的当前和历史数据,进行复杂的计算,既需要本部门 的数据也会需要其它部门的数据,甚至是竞争对手的数据。
(2)在数据仓库中,由于主要是进行数据分析处理,那 么商品采购时的分析活动主要是要了解各供应商的情况,显 然,‚供应商‛是采购时分析的对象。所以我们并不需要组 织像‚订单‛、或是‚订单细则‛这样的数据库模式,因为 它们包含的是纯操作型的数据;但是仅仅只用OLTP数据库中 ‚供应商‛中的数据又是不够的,因而要重新组织‚供应商‛ 这么一个主题。
5、历史数据问题
联机事务处理一般只需要当前数据,在数据库中一般也 只存储短期内的数据,且不同数据的保存期限也不同。即使 被保留的历史数据,也没有得到充分利用。 对于决策分析而言,历史数据是相当重要的,许多分析 方法必须以大量的历史数据为依据,没有对历史数据的详细 分析,是难以把握企业的发展趋势的。
(1)同一字段在不同的应用中具有不同的数据类型。
(2)同一字段在不同的应用中具有不同的名字。 (3)同名字段,不同含义。
为了将这些不一致的数据集成起来,首先必须对它门进 行转换,消除不一致之后才能供分析使用。因此,这是一项 很繁重的工作。
4、数据动态集成问题
由于每次分析都进行数据集成的开销很大,一些应用仅 在开始对所需数据进行了集成,以后就一直以这部分集成的 数据作为分析的基础,不再与数据发生联系,我们称这种方 式的集成为静态集成。静态集成的最大缺点在于,如果在数 据集成后数据源中数据发生改变,这些变化不能反映给决策 者,导致决策者使用的是过时的数据。 集成数据必须以一定的周期进行刷新,我们称其为动态 集成。显然联机事务处理系统不具备动态集成的能力。
1.1.1 操作型数据处理
联机事务处理系统就是操作型数据处理的典型例子。是 数据库系统的主要应用。其基本架构如图1.1所示。 联机事务处理系统的主要功能 是对事物进行处理,快速地响应客 户的服务要求使企业的业务处理自 动化。是数据库的主要应用之一。 联机事务处理系统的主要性能 指标是事务处理效率和事物吞吐率, 每个事物处理的时间越快越好,单 位时间能完成的事物数量越多越好。
2、‚蜘蛛网‛问题 解决数据分散的一种方法是对数据进行集成。在联机事务 处理系统出现不久,就出现一种称作‚抽取‛处理的程序‛。 用户利用抽取程序从各个分散的数据库中查找有用的数据。然 后这些数据被提取出来放入新的文件或数据库中,供用户使用。 由于抽取程序能将数据从联机事务处理系统转移出来,对这些 数据进行分析时不会影响联机事务处理系统的效率,因此,受 到程序员的喜爱,被大量应用。
传统的面向应用的数据组织方式的特点:
第一,面向应用进行数据组织,是指对企业中相关的组 织部门等进行详细的调查,收集数据库的基础数据及其处理 的过程。调查的重点是‘数据’和‘处理’,在进行数据组 织时要充分了解企业的部门组织结构,考虑企业各部门的业 务活动特点。 第二,面向应用进行数据组织,反映一个企业内数据的 动态特征,即它要便于表达企业各部门内的数据流动情况以 及部门间的数据输入输出关系。主要的目的是为了进行联机 事务处理,以提高日常业务处理的速度和准确性等。
1.1.4 数据库系统的局限性
数据库系统作为数据管理手段,主要用于事务处理,取得 了巨大的成功,那么能否将它应用于分析型数据处理呢?答案 是否定的,主要原因包括以下几点。 1、数据的分散 联机事务处理的目的在于使业务处理自动化,一般只需要 与本部门业务有关的当前数据,而对整个企业范围内的集成应 用考虑很少。企业内部事务处理的应用之间实际上几乎都是独 立的,造成了当前绝大部份企业内数据的真正状况是分散而非 集成的。 出现这种现象有多重原因。有设计方面的、有经济方面的、 还有体制方面,以及历史、地理方面等。
表1.1列出的操作型数据与分析型数据的区别从根 本上体现了事务处理和分析处理的差别。‚数据仓库之 父‛W.H.Inmon在其《Building the Data Warehouse》 一书中,指出数据仓库中的数据应具备以下4个基本特 征:
(1)数据仓库的数据是面向主题的; (2)数据仓库的数据是集成的; (3)数据仓库的数据是不可更新的; (4)数据仓库的数据是随时间不断变化的。 并且给出了数据仓库的定义:数据仓库是一个面向主题 的、集成的、不可更新的、随时间不断变化的数据集合,用 以更好地支持企业或组织的决策分析处理。
数据仓库与数据挖掘
第一章 从数据库到数据仓库
1.1 数据仓库产生的原因
1.2 数据仓库的基本概念
1.3 数据仓库的体系结构
1.1 数据仓库产生的原因
数据是企业或机构的重要资源。企业或机构的 运营过程可以说是数据的收集、整理、加工、存储 和检索过程。
当前的数据处理可以大致分为两大类: 操作型 处理和分析型处理。
库存管理子系统: 领料单(领Байду номын сангаас单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存号,日期) 库房(库房号,仓库管理员,地点,库存商品描述)
人事管理子系统: 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称,部门主管,电话)
为了更好地理解主题与面向主题的概念,用例子说 明面向主题的数据组织与传统的面向应用的数据组织方 式的不同。
1、传统的面向应用的数据组织方式
一家采用‛会员制‛经营方式的商场,按业务已建立起 销售、采购,库存管理以及人事管理子系统。按照其业务处 理要求,建立了各自的数据库模式: 采购子系统: 订单(订单号,供应商,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话) 销售子系统: 顾客(顾客号,姓名,性别,年龄,文化程度,地址,电 话) 销售(员工号,顾客号,商品号,数量,单价,日期)
所以说,实际中的数据库建设由于偏重对联机事务处理 的支持,而将数据应用逻辑与数据在一定程度上又重新绑在 一起而变得不统一了,造成如下后果。
(1)使得本来是描述同一个客观实体的数据由于与不同 的逻辑捆绑在一起而变得不统一。 (2)使得本来就是一个完整的客观实体的数据分散在不 同的数据库模式中。 2、面向主题的数据组织方式 面向主题的数据组织应该分为两个步骤:
第三,这种数据组织方式生成的各项数据库模式与企业 中实际的业务处理流程中所涉及的单据有很好的对应关系, 这种对应关系使得数据库模式具有很强的操作性,因而可以 较好地在这些数据库模式上建立起各项实际的应用处理.如 库存管理中的领料单,进料单和库存等是实际管理中就存在 的单据或报表。
第四,面向应用进行数据组织的方式并没有体现数据库 这一概念提出的原本意图:数据与数据处理的分离;即要将 数据从数据处理或应用中抽象出来,解放出来,组织成一个 与具体的应用独立的数据世界。
1.1.3 两种数据处理模式的差别
通过上面讨论,可以发现,操作型数据处理与分析型数 据处理是两种不同的操作,表1.1中列出操作型数据与分析 型数据之间的主要差别。
表1.1操作型数据和分析型数据的区别 操作型数据 细节的 当前数据 可更新 操作需求事先可知道 生命周期符合SDLC 对性能要求高 一个时刻操作一个单元 事务驱动 面向业务处理 一次操作数据量小,计算 简单 支持日常操作 分析型数据 综合,或提练的 历史数据 不更新 操作需求事先不知道 完全不同的生命周期 对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析挖掘 一次操作数据量大,计算 复杂 支持管理需求
操作型处理也叫事务处理,是指对数据库联机 的日常操作,通常是对一个或一组纪录的查询和修 改,主要是为企业的特定应用服务的,人们关心的是 响应时间,数据的安全性和完整性。
分析型处理则用于管理人员的决策分析。例如 DSS,EIS(Executive Information System ) 和多 维分析等,经常要访问大量的历史数据。
面向主题的数据组织方式,就是在较高层次上对分 析对象的数据的一个完整一致的描述,能完整,统一地 刻画出各个分析对象所涉及的企业的各项数据,以及数 据之间的联系。所谓较高层次是相对面向应用的数据组 织方式而言的,是指按照主题进行数据组织的方式具有 更高的数据抽象级别。
需要指出的一点,目前数据仓库仍是采用关系数据 库来实现的,也就是说数据仓库的数据最终也表现为关 系。因此,要把握主题和面向主题的概念,需要将它们 提高到一个更高的抽象层次上来理解,也就是要特别强 调概念的逻辑意义。
用户 用户 用户
应用系统 数据库管理系统 (DBMS)
数据库 (DB) 图1.1联机事务处理系统架构
为有效地对事务进行处理,数据库管理系统在技术和管理 上采取多项措施。
首先,数据库系统中严格定义了事务的概念。所谓事务是 用户定义的一个数据库操作序列,这些操作要么全做,要么全 不做,是一个不可分割的工作单位。 例如,在关系数据库中,一个事物可以是一条SQL语句、 一组SQL语句或整个程序。 需要注意的是,事务和程序是两个概念。一般讲,一个程 序中包含多个事务。
1.2
数据仓库的基本概念
什么是数据仓库? * 数据仓库是作为决策支持系统服务基础的分析型数据库, 用来存放大容量的只读数据,为制定决策提供所需的信息。 * 数据仓库是与操作型系统相分离的、基于标准企业模型 集成的、带有时间属性的、面向主题(subject-oriented) 及不可更新的数据集合。
这些经抽取得到的新文件或数据库又被某些用户再进行抽 取,这种不加以控制的连续抽取最终导致系统内数据间形成了 错综复杂的网状结构,人们形象地称为‛蜘蛛网‛。企业的规 模越大,‛蜘蛛网‛问题就越严重。
相关主题