当前位置:文档之家› 复旦大学精品课程《商务智能》课件,数据仓库课件复习精品资料

复旦大学精品课程《商务智能》课件,数据仓库课件复习精品资料


11
集成性

数据仓库中的数据是从原 有分散的源数据库中提取 出来的,其每一个主题所 对应的源数据在原有的数 据库中有许多冗余和不一 致,且与不同的应用逻辑 相关。为了创建一个有效 的主题域,必须将这些来 自不同数据源的数据集成 起来,使之遵循统一的编 码规则。
7
实施数据仓库的条件

数据积累已达到一定规模 面临激烈的市场竞争 在IT方面的资金能得到保障
8
数据仓库的发展
自从NCR公司为Wal Mart建立了第一个数据仓库。 1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美 企业,结果表明:数据仓库为企业提供了巨大的收益。 早期的数据仓库大都采用当时流行的客户/服务器结构。近年来 分布式对象技术飞速发展,整个数据仓库体系结构从功能上划分 为若干个分布式对象,这些分布式对象不仅可以直接用于建立数 据仓库,还可以在应用程序中向用户提供调用的接口。 IBM的实验室在数据仓库方面已经进行了10多年的研究,并将 研究成果发展成为商用产品。 其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。
SSL
Internet
Browsers Web servers
Excel spreadsheet Oracle SQL Server
layer
DB2
5
数据库系统的局限性(续)
当事务型处理环境和分析型处理环境在同一个数据库系统中, 事务型处理对数据的存取操作频率高,操作处理的时间短, 而分析型处理可能需要连续运行几个小时,从而消耗大量的 系统资源。 决策型分析数据的数据量大,这些数据有来自企业内部的, 也有来自企业外部的。来自企业外部的数据又可能来自不同 的数据库系统,在分析时如果直接对这些数据操作会造成分 析的混乱。对于外部数据中的一些非结构化数据,数据库系 统常常是无能为力。
数据仓库
Data Warehouse
赵卫东 博士 复旦大学软件学院
wdzhao@
1
事务型处理


事务型处理:即操作型处理,是指对数据库的联机操作 处理OLTP。事务型处理是用来协助企业对响应事件或 事务的日常商务活动进行处理。它是事件驱动、面向应 用的,通常是对一个或一组记录的增、删、改以及简单 查询等(大量、简单、重复和例行性)。 在事务型处理环境中,数据库要求能支持日常事务中的 大量事务,用户对数据的存取操作频率高而每次操作处 理的时间短。



9
数据仓库(Data Warehouse)数据仓库用来保存从多个数据库或其它信息源选取的数据, 并为 上层应用提供统一 用户接口,完成数据查询和分析。支持整个 企业范围的主要业务来建立的,主要特点是,包含大量面向整 个企业的综合信息及导出信息。 数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的 只读数据,为制定决策提供所需要的信息。 数据仓库是与操作型系统相分离的、基于标准企业模型集成的、 带有时间属性的、面向主题及不可更新的数据集合。 以1992年W H Inmon出版《Building the Data Warehouse》 为标志,数据仓库发展速度很快。 W H Inmon被誉为数据仓库 之父。 W H Inmon对数据仓库所下的定义:数据仓库是面向主题的、 集成的、稳定的、随时间变化的数据集合,用以支持管理决策 的过程。
信息处理 分析 知识工人(如经理、主管、分析员) 长期信息需求,决策支持 星形/雪花,面向主题 历史的;跨时间维护 汇总的,统一的 汇总的,多维的 复杂查询 大多为读 信息输出 大量扫描 数百万 数百 100GB到TB 高灵活性,端点用户自治 查询吞吐量,响应时间 4
数据库系统的局限性


client 数据库适于存储高度结构化的日 applications 常事务细节数据,而决策型数据 Application 多为历史性、汇总性或计算性数 layer 据,多表现为静态数据,不需直 接更新,但可周期性刷新。 决策分析型数据是多维性,分析 内容复杂。 在事务处理环境中,决策者可能 并不关心具体的细节信息,在决 策分析环境中,如果这些细节数 XML 据量太大一方面会严重影响分析 document 效率,另一方面这些细节数据会 分散决策者的注意力。 Data management
3
事务型处理数据和分析型处理数据的区别
特性 OLTP OLAP
特征 面向 用户 功能 DB 设计 数据 汇总 视图 工作单位 存取 关注 操作 访问记录数 用户数 DB规模 优先 度量
操作处理 事务 办事员、DBA、数据库专业人员 日常操作 基于E-R,面向应用 当前的;确保最新 原始的,高度详细 详细,一般关系 短的、简单事务 读/写 数据进入 主关键字上索引/散列 数十个 数千 100MB到GB 高性能,高可用性 事务吞吐量
10
面向主题


数据仓库中的数据是按照各种主题来组织的。主题在数据仓 库中的物理实现是一系列的相关表,这不同于面向应用环境。 如保险公司按照应用组织可能是汽车保险、生命保险、伤亡 保险,而数据仓库是按照客户、政策、保险金和索赔来组织 数据。 面向主题的数据组织方式可在较高层次上对分析对象的数据 给出完整、一致的描述,能完整、统一的刻画各个分析对象 所涉及的企业的各项数据以及数据之间的联系,从而适应企 业各个部门的业务活动特点和企业数据的动态特征,从根本 上实现数据与应用的分离。
2
分析型处理



分析型处理:用于管理 人员的决策分析,例如 DSS、 EIS和多维分析等。 它帮助决策者分析数据 以察看趋向、判断问题。 分析型处理经常要访问 大量的历史数据,支持 复杂的查询。 分析型处理过程中经常 用到外部数据,这部分 数据不是由事务型处理 系统产生的,而是来自 于其他外部数据源。


6
多库系统的限制




可用性:源站点或通信网络故障将导致系统瘫痪, 源站点不能 通过网络在线联入多库系统。 响应速度:全局查询多级转换和通信传输, 延迟和低层效率影 响响应速度。 系统性能:总体性能取决于源站点中性能最低的系统, 影响系 统性能的发挥; 系统开销:每次查询要启动多个局部系统, 通信和运行开销大。
相关主题