数据仓库系统
研究的背景及意义
然而,一个独立的数据仓库是没有实际意义的,必须将 联机分析处理(On-Line Analysis Processing,OLAP)、 数据挖掘(Data Mining, DM)、决策支持等技术结合起 来,才具有强大的生命力,而数据仓库系统正好就是这 些相关技术的组合。
本课题针对企业集团研究数据仓库系统的若干关键技术, 其意义在于:给出一个完整的企业集团数据仓库系统体 系结构,并且针对每一组成部分提出高效、可用的实现 技术和开发方法,从而使得数据仓库的理论得到发展, 并且为企业集团在数据海洋中迅速发现、集成有用的信 息(知识)提供支持。
数据仓库系统体系结构
面向领域工程的统一视图模型的确立 步骤2 对企业集团数据仓库领域所涉及的数据对象进行抽 象,结合相关领域的信息、编码、术语的标准规范,参 照统一属性库中关于统一属性的语义说明,及统一维库 中的维度说明,定义基于统一属性的统一视图。统一视 图中的属性需要从各个维表或标准属性库中选取。可以 把一致性维度定义为统一视图模型中的“总线”,通过 为特定数据环境定义的一种总线标准接口,就可以将新 的统一视图加入统一视图模型中。生成的统一视图既有 行业领域的通用信息又结合了本企业集团的具体特有信 息。
(6)如何完成企业集团决策支持服务?
2 数据仓库系统基本概念
数据仓库系统定义 统一视图模型基本概念
数据仓库系统体系结构
数据仓库系统相关技术概述
数据仓库系统定义
数据仓库系统定义(用下面的一个组合公式表示): DWS = ETL + DW + OLAP + DM + DS 其中: DWS - Data Warehouse System(数据仓库系统); DW - Data Warehouse(数据仓库);
ETL – Extraction/Tranformation/Loading(抽取/转换/加载);
OLAP – On-Line Analytical Processing(联机分析处理);
DM – Data Mining(数据挖掘); DS- Disicion Support(决策支持)
数据仓库系统体系结构
现美国伊利偌伊大学的JiaweiHan教授提出的三层数据仓 库体系结构 南京航空航天大学皮德常博士提出的面向仓库内数据组织 的数据仓库体系结构 上述一些数据仓库体系结构能够包含数据仓库、联机分析 处理、数据挖掘等相关概念,但并不是真正意义上的数 据仓库系统体系结构,更不是面向集团型的企业,它们 对数据仓库中数据的一致性体现的不够充分,没有站在 领域的角度设计面向整个集团的数据仓库事实表和维表。
国内对数据仓库及其相关技术的研究稍晚,但进展较快。国 内的中科院、清华大学、北京大学 、中国人民大学、北方 交通大学 、国防科技大学、东南大学 、浙江大学 、复旦 大学 、吉林大学 、东北大学 、哈尔滨工业大学 、四川大 学、华中科技大学、上海交通大学 、大连理工大学 、南京 航空航天大学、重庆大学、南京理工大学、山东大学 。
统一视图模型基本概念
定义1. 统一视图(UView)
统一视图是在一个全局数据环境应用中,具有统一属性、统一 度量、统一分类的查询模式,可用三元组描述,即UView ::= <DKS, MAS, VDS>。 DKS是构成该视图的所有统一维关键属性的集合,即DKS= {DKA1, DKA2, ......, DKAm},其中DKAi是抽取的的第i个统一维 中的关键属性; MAS是构成该视图的所有统一度量属性的集合,即MAS= {MA1, MA2, ......, MAk},其中MAi是抽取的第i个统一度量属性; VDS是构成该视图的用来描述该视图的统一属性集合,即VDS = {VDA1, VDA2, ......, VDAn},其中VDAi是抽取的第i个描述统 一属性,用来表示统一视图的相关信息,例如:统一视图的名 称、在统一视图模型中的分类等等。
复杂性、可用性和可维护性是这些ቤተ መጻሕፍቲ ባይዱTL工具面临的主要问 题,无法适应企业集团数据抽取、转换和加载需求,这 主要体现在以下几个方面: ① 对源数据模式的理解 ② 对企业集团多数据仓库ETL过程维护
基于统一视图模型的ETL体系结构
面向集团型企业,为降低ETL过程的复杂性,我们一方面 将一个复杂的ETL过程分解为一系列的ETL操作;另一 方面,我们提出了基于统一视图模型的 ETL 体系结构, 将这些ETL操作按照不同的功能分解到基于统一视图模 型的ETL体系结构中。 面向企业集团的数据仓库ETL体系结构包括资源数据层、 统一视图层、数据仓库层3个层次,通过引入统一视图 中间层及两级抽取映射方法,实现了源数据的透明抽取 及访问。这种体系结构不仅降低了数据仓库ETL过程的 复杂性,还可以确保ETL过程的可用性和可维护性。
课题的国内外研究现状
数据仓库界最知名的R.Kimbal博士提出了数据仓库业务维度生命 周期开发方法和数据仓库的总线结构。
加拿大Simon Fraser 大学智能数据库系统研究实验室开发的多任 务知识发现系统-DBMiner 。 IBM 公司Almaden 研究中心开发的多任务KDD 系统QUEST 。 SAS公司推出的Enterprise Miner、微软公司推出的SQL Sever、 SPSS 公 司 的 Clementine 、 Sybase 公 司 的 Warehouse Workbench、ORACLE公司的Oracle Warehouse Builder等。
LOGO
企业集团数据仓库系统关键技术
宋旭东 软件学院
主要内容
1. 绪论
2. 数据仓库系统基本概念 3. 企业集团ETL技术 4. 企业集团数据仓库技术 5. 企业集团联机分析处理技术
6. 企业集团数据挖掘技术
7. 企业集团决策支持技术
8. 总结
1 绪论
课题的研究背景和意义 课题的国内外现状
目前存在的问题
本文研究的主要工作
研究的背景及意义
在知识经济时代,企业更多关注如何提高自身的竞争力? 从现代管理技术的角度,集团化运营已成为企业提升 自身竞争力的必然趋势,许多同行业企业进行了资产 重组,组建了企业集团。 从信息技术的角度,人们开始把企业信息化作为改善 企业管理业务活动,建立现代企业制度的重要手段。
新应用与新环境下的数据仓库构建
课题的国内外研究现状
会议:“ ACM数据仓库和联机分析国际会议” 、 “数据仓库与 知识发现国际会议” 、 “ ACM-SIGMOD 数据管理国际会议” ( SIGMOD ),“ 超大型数据库国际会议 ”( VLDB ),“ ACM SIGACT-SIGMOD-SIGART 数据库原理研讨会”( PODS ),“数据 工 程 国 际 会 议 ” ( ICDE ) , “ 扩 展 数 据 库 技 术 国 际 会 议 ” (EDBT),“数据库理论国际会议”(ICDT),“信息与知识 管理国际会议”(CIKM),“数据库与专家系统应用国际会议” (DEXA),和“数据库系统高级应用国际研讨会”(DASFAA)。
数据仓库系统体系结构
面向领域工程的统一视图模型的确立
步骤4 依据问题描述的实际需求,企业集团标准中心或信 息中心,可及时向标准属性库中补充新的标准属性,或 向统一维库中添加新的统一维。
3 企业集团ETL技术
基于统一视图模型的ETL体系结构 基于统一视图模型的ETL过程建模
基于统一视图模型的ETL过程实现
课题的国内外研究现状
国内对数据仓库及其相关技术的研究稍晚,但进展较快。 中国科学院史忠植教授等人提出MSMiner平台 。 复旦大学的朱扬勇教授建立了国内著名的“数据挖掘讨论 组”网站() 。 四川大学的唐常杰教授,华中科技大学的冯玉才教授中国 人民大学的王珊教授、孟小峰教授和杜小勇教授,复旦大 学的施伯乐教授,国防科技大学的陈文伟教授,哈尔滨工 业大学李建中教授和刘大昕教授,东北大学的于戈教授在 数据挖掘和数据仓库方面都做了许多有益的尝试。
数据仓库系统ETL任务调度模型
基于统一视图模型的ETL体系结构
目前常见的数据仓库ETL体系结构如图 3.1所示,数据从 操作型数据源和外部数据源流出,经过ETL,即数据抽 取-转换-装载到数据仓库中。
SM 数据源1 TM WM
外部文件 ETL
数据仓库
数据源n
数据源
ETL 过程
数据仓库
基于统一视图模型的ETL体系结构
数据仓库系统体系结构
面向领域工程的统一视图模型的确立
步骤3 用分类树的方法,按照数据对象所归属业务系统的实际情况进 行分类,并通过适度的细化过程,形成一棵面向问题域的统一视图 分类树,它构成了统一视图模型的主体结构。由于不存在绝对的统 一视图抽象方法,因此对于统一视图分类树的生成,要求建模人员 尽可能真实地反映企业用户决策分析问题域的情况。 例如:针对某钢铁企业集团,建立统一视图分类树。对应业务系统, 树中有销售、库存、生产、财务、设备、质量、采购、物资、人力 资源等9个分支,每个分支下有若干统一视图。在销售分支下,可 定义一个销售合同统一视图,视图包括若干统一属性,如:合同号、 客户编码、生产号、产品类别、流向、材类别、钢类、销售公司、 标准、加工用途、交货状态、冶炼方法、订货量、交货年月、合同 说明。在生产分支下,可定义一个生产物料跟踪统一视图,视图包 括:生产号、生产批次、炉号、工序号、分厂、班组、设备、生产 量、完成时间、物料状态。
统一视图模型基本概念
定义2. 统一视图模型(Unified Views Model ,UVM)
统一视图模型可以定义为全体统一属性、全体统一维 及全体统一视图的集合,即UVM ::= < UAttribute, Dime, UView >,它是全局数据环境下,能够为所有 主题数据仓库提供抽取来源的统一数据模式描述。
研究的背景及意义
随着企业集团信息化进程的不断深入,企业面临问题: 数据的过度冗余而导致“数据过剩”现象.