面向应用领域的数据库新技术数据库技术被应用到特定的领域中,出现了工程数据库,地理数据库,统计数据库、科学数据库、空间数据库等多种数据库,使数据库领域中新的技术内容层出不穷。
一、数据仓库传统的数据库技术是以单一的数据资源为中心,进行各种操作型处理。
操作型处理也叫事务处理,是指对数据库联机地日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间,数据的安全性和完整性。
分析型处理则用于管理人员的决策分析。
例如:DSS,EIS和多维分析等,经常要访问大量的历史数据。
于是,数据库由旧的操作型环境发展为一种新环境:体系化环境。
体系化环境由操作型环境和分析型环境(数据仓库级,部门级,个人级)构成。
数据仓库是体系化环境的核心,它是建立决策支持系统(DSS)的基础。
1.从数据库到数据仓库具体来说,有以下原因使得事务处理环境不适宜DSS应用⑴事务处理和分析处理的性能特性不同在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短,因此,系统可以允许多个用户按分时方式使用系统资源,同时保持较短的响应时间,OLTP (联机事务处理)是这种环境下的典型应用。
在分析处理环境中,某个DSS应用程序可能需要连续运行几个小时,从而消耗大量的系统资源。
将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。
⑵数据集成问题DSS需要集成的数据。
全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。
因此,DSS不仅需要整个企业内部各部门的相关数据,还需要企业外部、竞争对手等处的相关数据。
而事务处理的目的在于使业务处理自动化,一般只需要与本部门业务有关的当前数据,对整个企业范围内的集成应用考虑很少。
当前绝大部分企业内数据的真正状况是分散而非集成的,这些数据不能成为一个统一的整体。
对于需要集成数据的DSS应用来说,必须自己在应用程序中对这些纷杂的数据进行集成。
可是,数据集成是一项十分繁杂的工作,都交给应用程序完成会大大增加程序员的负担。
并且,如果每做一次分析,都要进行一次这样的集成,将会导致极低的处理效率。
DSS 对数据集成的迫切需要可能是数据仓库技术出现的最重要动因。
⑴数据动态集成问题由于每次分析都进行数据集成的开销太大,一些应用仅在开始对所需的数据进行了集成,以后就一直以这部分集成的数据作为分析的基础,不再与数据源发生联系,我们称这种方式的集成为静态集成。
静态集成的最大缺点在于如果在数据集成后数据源中数据发生了改变,这些变化将不能反映给决策者,导致决策者使用的是过时的数据。
对于决策者来说,虽然并不要求随时准确地探知系统内的任何数据变化,但也不希望他所分析的是几个月以前的情况。
因此,集成数据必须以一定的周期(例如24小时)进行刷新,我们称其为动态集成。
显然,事务处理系统不具备动态集成的能力。
⑵历史数据问题事务处理一般只需要当前数据,在数据库中一般也只存储短期数据。
但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。
没有对历史数据的详细分析,是难以把握企业的发展趋势的。
⑶数据的综合问题在事务处理系统中积累了大量的细节数据,一般而言,DSS并不对这些细节数据进行分析,在分析前,往往需要对细节数据进行不同程度的综合。
而事务处理系统不具备这种综合能力,根据规范化理论,这种综合还往往因为是一种数据冗余而加以限制。
2.数据仓库的特点原始数据(操作型数据)与导出型数据(DSS数据)之间的区别。
其中主要是:原始数据/操作型数据推导数据/DSS数据细节的综合的,或提炼的在存取瞬间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC 完全不同的生命周期对性能要求高对性能要求宽松事务驱动分析驱动面向应用面向分析一次操作数据量小一次操作数据量大支持日常操作支持管理需求W.H.Inmon还给数据仓库作出了如下定义:数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制订过程。
面向主题、集成、稳定和随时间变化是数据仓库四个最主要的特征。
(1) 数据仓库是面向主题的它是与传统数据库面向应用相对应的。
主题是一个在较高层次将数据归类的标准,每一个主题基本对应一个宏观的分析领域。
比如一个保险公司的数据仓库所组织的主题可能为:客户政策保险金索赔。
而按应用来组织则可能是:汽车保险、生命保险、健康保险、伤亡保险。
我们可以看出,基于主题组织的数据被划分为各自独立的领域,每个领域有自己的逻辑内涵而不相交叉。
而基于应用的数据组织则完全不同,它的数据只是为处理具体应用而组织在一起的。
应用是客观世界既定的,它对于数据内容的划分未必适用于分析所需。
(2) 数据仓库是集成的操作型数据与适合DSS分析的数据之间差别甚大。
因此数据在进入数据仓库之前,必然要经过加工与集成。
这一步实际是数据仓库建设中最关键、最复杂的一步。
首先,要统一原始数据中所有矛盾之处,如字段的同名异义、异名同义,单位不统一,字长不一致等等。
并且对将原始数据结构作一个从面向应用到面向主题的大转变。
(3) 数据仓库是稳定的它反映的是历史数据的内容,而不是处理联机数据。
因而,数据经集成进入数据库后是极少或根本不更新的。
(4) 数据仓库是随时间变化的首先,数据仓库内的数据时限要远远长于操作环境中的数据时限。
前者一般在5-10年,而后者只有60-90天。
数据仓库保存数据时限较长是为了适应DSS进行趋势分析的要求。
其次,操作环境包含当前数据,即在存取一刹那是正确有效的数据。
而数据仓库中的数据都是历史数据。
最后,数据仓库数据的码键都包含时间项,从而标明该数据的历史时期。
3.分析工具─数据仓库系统的重要组成部分有了数据就如同有了矿藏,而要从大量数据中获得决策所需的数据就如同开采矿藏一样,必须要有工具。
⑴联机分析处理技术及工具短短的几年,OLAP技术发展迅速,产品越来越丰富。
它们具有灵活的分析功能,直观的数据操作和可视化的分析结果表示等突出优点,从而使用户对基于大量数据的复杂分析变得轻松而高效。
目前OLAP工具可分为两大类,一类是基于多维数据库的,一类是基于关系数据库的。
两者相同之处是基本数据源仍是数据库和数据仓库,是基于关系数据模型的,向用户呈现的也都是多维数据视图。
不同之处是前者把分析所需的数据从数据仓库中抽取出来物理地组织成多维数据库,后者则利用关系表来模拟多维数据,并不物理地生成多维数据库。
⑵数据挖掘技术和工具数据挖掘(Data Mining,简称DM)是从大型数据库或数据仓库中发现并提取隐藏在内的信息的一种新技术。
目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,它们对预测趋势、决策行为也许是十分有用的信息。
数据挖掘技术涉及数据库技术、人工智能技术、机器学习、统计分析等多种技术,它使DSS系统跨入了一个新阶段。
传统的DSS系统通常是在某个假设的前提下通过数据查询和分析来验证或否定这个假设,而数据挖掘技术则能够自动分析数据,进行归纳性推理,从中发掘出潜在的模式;或产生联想,建立新的业务模型帮助决策者调整市场策略,找到正确的决策。
4.基于数据库技术的DSS解决方案技术的进步,不懈的努力使人们终于找到了基于数据库技术的DSS的解决方案,这就是: DW+OLAP+DMDSS的可行方案数据仓库、OLAP和数据挖掘是作为三种独立的信息处理技术出现的。
数据仓库用于数据的存储和组织,OLAP集中于数据的分析,数据挖掘则致力于知识的自动发现。
它们都可以分别应用到信息系统的设计和实现中,以提高相应部分的处理能力。
但是,由于这三种技术内在的联系性和互补性,将它们结合起来即是一种新的DSS构架。
这一构架以数据库中的大量数据为基础,系统由数据驱动。
其特点是:⑴在底层的数据库中保存了大量的事务级细节数据。
这些数据是整个DSS系统的数据来源。
⑵数据仓库对底层数据库中的事务级数据进行集成、转换、综合,重新组织成面向全局的数据视图,为DSS提供数据存储和组织的基础。
⑶ OLAP从数据仓库中的集成数据出发,构建面向分析的多维数据模型,再使用多维分析方法从多个不同的视角对多维数据进行分析、比较,分析活动从以前的方法驱动转向了数据驱动,分析方法和数据结构实现了分离。
⑷数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这些模式为基础自动地作出预测。
数据挖掘表明知识就隐藏在日常积累下来的大量数据之中,仅靠复杂的算法和推理并不能发现知识,数据才是知识的真正源泉。
数据挖掘为AI技术指出了一条新的发展道路。
二、工程数据库(Engineering Data Base)工程数据库是一种能存储和管理各种工程图形,并能为工程设计提供各种服务的数据库。
它适用于CAD/CAM、计算机集成制造(CIM)等通称为CAX的工程应用领域。
工程数据库针对工程应用领域的需求,对工程对象进行处理,并提供相应的管理功能及良好的设计环境。
工程数据库管理系统是用于支持工程数据库的数据库管理系统主要应具有以下功能:支持复杂多样的工程数据的存储和集成管理;支持复杂对象(如图形数据)的表示和处理;支持变长结构数据实体的处理;支持多种工程应用程序;支持模式的动态修改和扩展;支持设计过程中多个不同数据库版本的存储和管理;支持工程长事务和嵌套事务的处理和恢复;在工程数据库的设计过程中,由于传统的数据模型难于满足CAX应用对数据模型的要求,需要运用当前数据库研究中的一些新的模型技术,如扩展的关系模型、语义模型、面向对象的数据模型三、统计数据库(Statistical Data Base)统计数据是人类对现实社会各行各业、科技教育、国情国力的大量调查数据。
采用数据库技术实现对统计数据的管理,对于充分发挥统计信息的作用具有决定性的意义。
统计数据库是一种用来对统计数据进行存贮、统计(如求数据的平均值、最大值、最小值、总和等等)、分析的数据库系统第一,多维性是统计数据的第一个特点,也是最基本的特点。
其次,统计数据是在一定时间(年度、月度、季度)期末产生大量数据,故入库时总是定时的大批量加载。
经过各种条件下的查询以及一定的加工处理,通常又要输出一系列结果报表。
这就是统计数据的“大进大出”特点。
第三,统计数据的时间属性是一个最基本的属性,任何统计量都离不开时间因素,而且经常需要研究时间序列值,所以统计数据又有时间向量性。
第四,随着用户对所关心问题的观察角度不同,统计数据查询出来后常有转置的要求。
四、空间数据库(Spacial Data Base)空间数据库,是以描述空间位置和点、线、面、体特征的拓扑结构的位置数据及描述这些特征的性能的属性数据为对象的数据库。