当前位置:文档之家› 数据仓库报告

数据仓库报告

数据仓库学号:20111004458班级:193113姓名:华秀指导老师:李程俊2015年1月20日目录一、数据仓库的定义 (3)二、实时数据仓库的技术基础和研究现状 (3)1.技术基础: (3)2.研究现状 (7)三、什么是OLTP、OLAP它们的区别有哪些? (8)OLTP: (8)OLAP: (8)OLAP和OLTP的区别 (8)四、OLAP有哪些操作 (9)五、数据立方体 (10)六、数据挖掘分类 (11)七、数据挖掘技术 (11)(1)决策树方法 (11)(2)关联规则 (12)(3)神经网络 (12)(4)遗传算法 (12)(5)聚类分析 (12)(6)统计学习 (12)(7)粗糙集 (13)八、 K means聚类算法 (13)一、数据仓库的定义数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

数据仓库是近年来才提出的新概念.所谓数据仓库(Data Warehouse)是指这样一种数据的存储地,来自于异地、异构的数据源或数据库的数据经加工后在数据仓库中存储、提取和维护.传统数据库主要面向业务处理,而数据仓库面向复杂数据分析、高层决策支持.数据仓库提供来自种类不同的应用系统的集成化和历史化的数据,为有关部门或企业进行全局范围的战略决策和长期趋势分析提供了有效的支持.数据仓库使用户拥有任意提取数据的自由,而不干扰业务数据库的正常运行.当前,一些企业已经在传统数据处理方面有了较丰富的经验,他们采用数据仓库希望能从中得到更多好处,例如,以合理的代价取得有效的决策支持、促进企业中业务处理过程的重组、改善并强化对客户的服务、强化企业的资产/负债管理、促进市场优化、加速资金周转、帮助实现企业的规模优化.数据仓库的产生和发展为数据采掘技术开辟了新的战场,同时也提出了新的要求和挑战.目前的研究还主要着眼于数据仓库的构建和维护的基本理论、方法上,例如数据仓库更新问题的研究,因为这是迈向实用化的第一步的、首要的任务.下一步将把重点放在数据仓库的有效应用研究上.为高级的决策支持服务是数据仓库的最终目的,因此基于数据仓库的数据采掘理论和技术的研究,自然成为信息科学学术界的热点问题.二、实时数据仓库的技术基础和研究现状1.技术基础:数据仓库系列技术,主要支撑技术有以下一些:数据库技术、ETL技术、OLAP技术、元数据管理技术、前台展现技术、报表技术、挖掘技术、仿真优化技术。

这些支撑技术结合各行业业务后,可以生产各式各样的应用。

当然这些技术中,重点突出了在数据仓库方面的特征,而忽略了计算机技术的一些特征。

比如:OLAP技术,那么就需要计算机存储技术、压缩技术、分区技术、加解密技术、图形化技术等等,这里就不再单独列示。

数据库技术是支撑数据仓库技术的最基础技术。

有关系数据库、层次数据库、网络数据库等类型,目前呈现比较好的发展态势的对象关系数据库也是一种类型。

最典型的是关系数据库的应用。

在数据仓库实践中,关系数据库是实质的数据库存储工具,但针对不同的数据仓库方案,有的关系数据库是还提供了有关的数据仓库元素的查询函数或组件,在支撑数据仓库数据存储的基础上,还能支撑数据仓库的数据探查,比如:Teradata,但是,大部分数据库,以及在大部分数据仓库建设方案中,只是利用数据库作为数据存储的工具。

这样,实质上数据仓库与数据库在技术表现看起来可能是一样的,但是,在系统存储模型上却有着本质的区别。

数据库技术在存储模型建设方面强调数据模型的规范性和高效存储能力(少冗余),比如:关系模式符合第三范式。

但是,数据仓库技术在存储模型建设方面强调数据查询的方便性和快速响应能力。

那么,在数据仓库技术存储模型方面,基于数据库技术而发展的关系模式的理念已经被颠覆,取而代之是各种各样的数据仓库数据模型。

如:星型模型,雪花模型等等。

数据库表也将原来的关系模式改称为了事实表和维表,将原来数据库技术中并不关心的属性域及之间的关系,也分别取了自己的业务名称,如:维度,量度,层次,粒度等。

星形结构数据模型:雪花结构数据模型:两者区别:星型架构中,每个维度都有一个由一些部分组成的主键,该主键连接到事实数据表中由多个部分组成的主键的一个部分。

在雪花模型中,一个或多个维表分解成多个表,每个表都有连接到主维度表而不是事实数据表的相关性维度表。

ETL技术是支撑数据仓库系统正常运转的基本技术。

因为数据仓库系统是集成的、与时间相关的数据集合。

随着时间的推移,各种新数据的进入,旧数据的转移等等工作,仓库建设前后,都没有间断过。

要实现这些数据的自动更新运转,以及新业务数据、旧格式新的不同代码的数据进行较好的适应性自动更新运转,ETL技术是必不可少的技术之一。

ETL是Extraction、Transformation、Loading数据抽取、转换、装载系统,该系统整合不同的数据源过来的数据,并对数据进行初步的规格化整理,清洗除杂。

OLAP技术联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。

当时,Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询也不能满足用户分析的需求。

用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。

因此Codd 提出了多维数据库和多维分析的概念,即OLAP。

Codd提出OLAP的12条准则来描述OLAP系统。

基于Codd的12条准则,各个软件开发厂家见仁见智,其中一个流派,认为可以沿用关系型数据库来存储多维数据,于是,基于稀疏矩阵表示方法的星型结构(star schema)就出现了。

后来又演化出雪花结构。

为了与多维数据库相区别,则把基于关系型数据库的OLAP称为Relational OLAP,简称ROLAP。

代表产品有Informix Metacube、Microsoft SQL Server OLAP Services。

Arbor Software严格遵照Codd的定义,自行建立了多维数据库,来存放联机分析系统数据,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。

被人们称为Muiltdimension OLAP,简称MOLAP,代表产品有Hyperion(原Arbor Software) Essbase、Showcase Strategy等。

相对于Server OLAP而言。

部分分析工具厂家建议把部分数据下载到本地,为用户提供本地的多维分析。

代表产品有Brio Designer,Business Object。

这样也形成了另一种OLAP俗称Client OLAP。

纵观整个OLAP以及BI的发展历史,从OLTP统计功能à特定模型查询开发àROLAPàMOLAP和Client OLAP,这样一个产品的不断创新发展过程中,使OLAP技术不断成熟和得到市场的认可,也为BI应用提供了很好的技术保障,使得与传统的OLTP系统在市场中平分秋色。

基于Codd的12条准则具体是:准则1 OLAP模型必须提供多维概念视图;准则2 透明性准则;准则3 存取能力推测;准则4 稳定的报表能力;准则5 客户/服务器体系结构;准则6 维的等同性准则;准则7 动态的稀疏矩阵处理准则;准则8 多用户支持能力准则;准则9 非受限的跨维操作;准则10 直观的数据操纵;准则11 灵活的报表生成;准则12 不受限的维与聚集层次元数据管理技术:所谓元数据meta data是关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。

同时元数据还包含关于数据含义的商业信息,所有这些信息都应当妥善保存,并很好地管理。

为数据仓库的发展和使用提供方便。

元数管理中,能有效的优化数据仓库中的各种数据模型,乃至可以通过元数据管理实现一个各种数据仓库数据模型的生产平台。

高效的建立数据模型,并同时高效的管理对无感情数据的描述数据,数据一致,描述一致,理解一致,使模型能不断改进和继承。

前台展现技术:主要是具有对集成的数据模型(比如:仓库模型、多维CUBE等)具有数据探查、检索、灵活的图表、甚至影像多媒体的展现技术。

前台展现技术主要的技术目的是将没有感情的、枯燥的结构化数据,用友好的方式、灵活的方式、可定义的方式展现出来,使不懂数据结构的人一眼就可以理解其中数据的含义和业务表现。

目前已经进行很好实践该技术的产品,主流主要有:Cognos Powerplay,Bo,Brio等等。

报表技术:该技术主要是将集成的数据模型(比如:仓库模型、多维CUBE等)里的数据,按照复杂的格式、指定行列统计项形成的特殊的报表。

一般简单的报表可以使用前台展现技术实现,而复杂的报表则需要报表技术来满足要求。

报表技术中,可以灵活的制定各种报表模版库和指标库,根据每个区块或单元格的需要引用指标,实现一系列复杂的符合要求的报表结果。

目前主要的主流产品有:Cognos ,Brio, Crystal Reports, Oracle Reports等等。

挖掘技术:该技术能实现找出数据库中隐藏的信息,用模型来拟合数据,探索型数据分析(Exploratory data analysis),数据驱动型的发现(Data driven discovery),演绎型学习(Deductive learning)功能。

运用一种或多种算法,对海量数据进行探索,试图发现未知的模式或关系,最终做出预测或总结规律。

使用挖掘技术建立的数据模型我们称为挖掘模型。

挖掘模型的精度是挖掘模型的生命。

影响模型的精度的原因主要有以下一些方面的重要因素:(1)建模数据的数据质量以及应用模型的数据质量;(2)对不同数据的业务理解,并能有效的宽定预选模型变量因素;(3)模型的正确的模式使用和挖掘算法使用;(4)模型的正确参数使用和技巧使用。

目前主流的挖掘工具主要有:Data Miner for Java,DB2 Intelligent Miner,Analysis Services(Miner Engine),SAS Enterprise Miner,Clementine等等。

相关主题