当前位置:
文档之家› 第二章数据仓库的基本概念报告
第二章数据仓库的基本概念报告
两个主要作用:
—— 存储经过加工处理的决策需要的 数据
※ 存储数据的一种形式 ※ 加工和集成后的再存储
—— 查询和决策分析的依据
※ 为数据驱动型的决策支持提供数据基
础
数据仓库的关键特征
关键特征:
面向主题; 集成的; 随时间而变化的(时变的); 不容易丢失的(非易失)。
1)面向主题
数据仓库回答的问题
数据仓库将为高层管理人员的科学决 策提供可靠依据。
去年各个地区各个产品的销售量和销售额? 10年以来各厂商每季度的销售额占有比例的变化情 况? 如果某种产品的销售价格打9折,利润将发生怎样的 变化? 今年销售量下降的主要因素(时间、地区、部门、商 品)是什么?
数据仓库的作用
商品 供应商 顾客
26
2)集成性
一个数据仓库是通过集成多个异种数据源来构造的;
关系数据库,一般文件,联机事务处理记录
数据仓库中的综合数据不能从原有的数据库系统直接得 到,需使用数据清理和数据集成技术对数据进行处理:
数据仓库(Data Warehouse)
数据仓库的定义很多,但却很难有一种严格的定义:
它是一个提供决策支持功能的数据库,它与公司的操作数 据库分开维护。
为统一的历史数据分析提供坚实的平台,对信息处理提供 支持。
数据仓库是一个面向主题的、集成的、随时间而 变化的、不容易丢失的数据集合,支持管理部门的 决策过程.---W.H.Inmon
23
商品: 商品固有信息:商品号,商品名,类别,颜色等
商品采购信息:商品号,供应商号,供应价,供 应日期,供应量等
商品销售信息:商品号,顾客号,售价,销售日 期,销售量等 商品库存信息:商品号,库房号,库存量,日期 等
24
供应商: 供应商固有信息:供应商号,供应商名,地址, 电话等 。 供应商品信息:供应商号,供应价,供应日期,供应量 等。
部门(部门号,部门名称,部门主管,电话)
库存管理子系统:
领料单(领料单号,领料人,商品号,数量,日期)
进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日期) 库房(库房号,仓库管理员,地点,库存商品描述)
21
传统的面向应用进行数据组织方式的特征为:
重点在“数据”和“处理”;
顾客: 顾客固有信息:顾客号,顾客名,性别,年龄,文化程 度,住址,电话等。 顾客购物信息:顾客号,商品号,售价,购买日期,购 买量等。
25
1)面向主题
从面向应用 面向主题 丢弃了原来不必要,不适合分析的信息。
将分散在各子系统中的有关主题的信息集成,形成关 于商品的一致信息。
不同主题之间也有重叠的内容,但只是逻辑上的重叠 ,细节级上的重叠, 另外主题间并不是两两重叠。
数据仓库(Data Warehouse)
数据仓库是为构建分析型数据处理环境而出现的一种 数据存储和组织技术。用来保存从多个数据库或其它信息 源选取的数据,并为上层应用提供统一用户接口,完成数 据查询和分析。 在数据仓库的发展过程中,许多人作出重要贡献:
Devlin & Murphy(1988):发表关于数据仓库论述的最早文章; William H.Inmon(1993):《Building the Data Warehouse》, 首次系统阐述数据仓库的思想、理论,被尊为“数据仓库之父”。
《数据仓库与数据挖掘》
主讲:王名扬 信息学院
引言
近年来,由于计算机和网络的应用,计算开始向两个 不同的方向拓展: 广度计算:将计算机的应用范围扩大,实现广泛的数据交
流,如互联网的出现;
深度计算:希望计算机参与更多的数据分析与决策制定
事务型(操作型)数据处理:数据库
分析型数据处理:数据仓库
1)面向主题
关注决策者的数据建模与分析,而不是集中于组织机构 的日常操作和事务处理。
17
1)面向主题
但数据的产生都是基于应用而产生,因此数据在进入数
据仓库之前,必然要经过加工和集成,将原始数据结构做
一个从面向应用到面向主题的大转变。
18
【例】一家采用“会员制”经营方式的商场,按业务
建立起若干子系统,并按业务处理要求建立各自数据 库模式:
通常要反映一个企业内数据的动态特征; 所生成的各项数据库模式与企业实际的业务处理流程中所 涉及的单据及文档,有很好的对应关系。
22
面向应用到面向主题的转变: 面向主题的数据组织方式应分为两个步骤: 抽取主题 确定每个主题所包含的数据内容
仍以商场为例,它所应有的主题包括:商品、供 应商、顾客。每个主题有各自独立的逻辑内涵, 对应一个分析对象。
数据处理的环境由原来的以单一数据库为中心的数据环境发 展为以数据仓库为基础的体系化环境。
第2章
数据仓库的基本概念
第2章 数据仓库的基本概念
2.1 什么是数据仓库
2.2 数据立方体
2.3 数据仓库的三级模型
2.4 数据仓库的设计 2.5 提高数据仓库设计性能的几种方法
2.次将数据归类的标准,每一个主题基本对应 一个宏观的领域。 如,一个生产企业的数据仓库所组织的主题可能是产品订货分析 和货物发运分析,而按应用组织的话可能为财务子系统、供应子系 统、销售子系统、人力资源子系统和生产调度子系统等。 典型的主题领域:客户、产品、交易、账目等。
16
采购子系统:
订单(订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话)
销售子系统:
顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)
销售(员工号,顾客号,商品号,数量,单价,日期)
20
人事管理子系统:
员工(员工号,姓名,性别,年龄,文化程度,部门号)
在较高层次上对分析对象的数据进行一个 完整、一致的描述,能完整、统一管理各 个分析对象所涉及的企业各项数据以及数 据之间的联系。
— 高层次:很高的数据抽象级别,如整个 企业、组织
1)面向主题
面向主题,是数据仓库显著区别于关系数据库系统的一 个特征; 给出数据仓库中数据组织的基本原则,数据仓库中所有 数据都是围绕某一主题组织、展开的;