人大金仓BI产品方案Business Intelligence(BI)商务智能商业智能:将数据转换成信息的过程,再通过发现将信息转化为知识。
从业务角度看用来辅助商业决策的制定;商业智能提供迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。
从技术角度看将数据仓库(DW )、联机分析处理(OLAP)、数据挖掘(DM ) 等技术与业务结合起来应用于商业决策的过程,实现技术服务于决策的目的。
商业智能也称作BI,是英文单词Business Intelligence的缩写。
商业智能的概念最早在1996年提出。
当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的、以帮助企业决策为目的技术及其应用。
目前,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。
这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。
而商业智能能够辅助的业务经营决策既可以是操作层的,也可以是战术层和战略层的决策。
为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。
因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。
因此,把商业智能看成是一种解决方案应该比较恰当。
商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。
金仓BI的体系架构及相关技术BI系统为了满足企业管理者的要求,从浩如烟海的资料中找出其关心的数据,必须要做到以下几步:●为了整合各种格式的数据,清除原有数据中的错误记录——数据预处理的要求;●对预处理过数据,应该统一集中起来——元数据(Meta Data)、数据仓库(Data Warehouse)的要求;●最后,对于集中起来的庞大的数据集,还应进行相应的专业统计,从中发掘出对企业决策有价值的新的机会——OLAP(联机事务分析)和数据挖掘(Data Mining)的要求;金仓BI统一平台是一个面向数据分析和数据集成的企业级商业智能平台,集数据处理、数据管理、数据分析和数据展现为一体。
产品基于J2EE架构设计,采用统一的管理架构和集中的管理工具,采用可视化的图形操作界面和本地化的设计风格,规范企业数据,提高数据质量,为政府部门、企业集团、特定行业提供数据处理、分析整合,从而有力的保障决策支持的正确性。
金仓BI统一平台系统架构如下:接下来,从上述几个核心部分对金仓BI统一平台进行详细说明。
数据预处理当早期大型的在线事务处理系统(OLTP)问世后不久,就出现了一种用于“抽取”处理的简单程序,其作用是搜索整个文件和数据库,使用某些标准选择合乎要求的数据,将其复制拷贝出来,用于总体分析。
因为这样做不会影响正在使用的在线事务处理系统,降低其性能,同时,用户可以自行控制抽取出来的数据。
但是,现在情况发生了巨大的变化,企业同时采用了多个在线事务处理系统,而这些系统之间的数据定义格式不尽相同,即使采用同一软件厂商提供的不同软件产品,或者仅仅是产品版本不同,之间的数据定义格式也有少许差距。
由此,我们必须先定义一个统一的数据格式,然后把各个来源的数据按新的统一的格式进行转换,然后集中装载入数据仓库中。
其中,尤其要注意的一点时,并不是各个来源的不同格式的所有数据都能被新的统一格式包容,我们也不应强求非要把所有数据源的数据全部集中起来。
其中原因很多,有可能原来录入的数据中,少量的记录使用了错误的数据,这类数据如果无法校正,应该被舍去。
某些数据记录是非结构化的,很难将其转化成新定义的统一格式,而且从中抽取信息必须读取整个文件,效率极低,如大容量的二进制数据文件,多媒体文件等,这类数据如果对企业决策不大,可以舍去。
金仓数据整合平台(KingbaseDI)是专门提供数据处理、分析及整合的一套产品,主要包括数据仓库建模(指标库建模、IQ建模、MSTR建模)、数据清洗转换等功能,与BI工具相结合可进行在线分析、数据挖掘和辅助决策,通过简单设置产品即可完成模型的自动化创建和数据的转入。
本产品采用了以指标为对象的设计思想,基于J2EE架构设计,是政府部门构建宏观经济系统、政府数据中心、决策支持系统的应用支撑平台。
其逻辑结构示意图如下:产品主要功能:数据仓库数据仓库概念是由号称“数据仓库之父”William H.Inmon在上世纪80年代中期撰写的《建立数据仓库》一书中首次提出,“数据仓库是一个面向主题的、集成的、非易失性的,随时间变化的用来支持管理人员决策的数据集合”。
面向主题是数据仓库第一个显著特点,就是指在数据仓库中,数据按照不同的主题进行组织,每一个主题中的数据都是从各操作数据库中抽取出来汇集而成,这些与该主题相关的所有历史数据就形成了相应的主题域。
数据仓库的第二个显著特点是集成。
数据来源于不同的数据源,通过相应的规则进行一致性转换,最终集成为一体。
数据仓库的第三个特点是非易失性。
一旦数据被加载到数据仓库中,数据的值不会再发生变化,尽管运行系统中对数据进行增、删、改等操作,但对这些数据的操作将会作为新的快照记录到数据仓库中,从而不会影响到已经进入到数据仓库的数据。
数据仓库最后一个特点是它随时间变化。
数据仓库中每一个数据都是在特定时间的记录,每个记录都有着相应的时间戳。
数据仓库架构体系数据仓库对外部数据源和操作型数据源的元数据,按照数据仓库模式设计要求进行归类,并建成元数据库,相对应的数据经过ETL后加载到数据仓库中;当信息客户需要查询数据时先通过信息展现系统了解元数据或者直接浏览元数据库,再发起数据查询请求得到所需数据。
金仓数据仓库基于金仓数据库系统技术发展而来,充分理解信息系统业务发展的需要,提现了面向主题的、集成的、与时间相关的、不可修改的数据集合的数据仓库的特征。
金仓数据仓库作为一个典型的企业数据仓库系统,包含数据源、数据存储与管理、数据的访问三个部分。
数据仓库系统数据源:是指企业操作型数据库中的各种生产运营数据、办公管理数据等内部数据和一些调查数据、市场信息等来自外环境的数据总称。
这些数据是构建金仓数据仓库系统的基础,是整个系统的数据源泉。
数据的存储与管理:金仓数据仓库的存储主要由元数据的存储及数据的存储两部分组成。
元数据是关于数据的数据,其内容主要包括数据仓库的数据字典、数据的定义、数据的抽取规则、数据的转换规则、数据加载频率等信息。
各操作数据库中的数据按照元数据库中定义的规则,经过抽取、清理、转换、集成,按照主题重新组织,依照相应的存储结构进行存储。
也可以面向应用建立一些数据集市,数据集市可以看作是数据仓库的一个子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
金仓元数据管理平台作为产品的组件集合,包括元数据仓储(M ETADATA R EPOSITORY)、W EB 应用程序、元数据接口层、统一数据源管理客户端、元模型操控台以及元数据基本维护管理功能组成的组件集合。
金仓元数据管理平台是为用户提供基本功能完善的元数据仓储管理平台,并支持基于平台的应用服务定制。
丰富的调用接口和强大的二次开发指南,保障产品良好的适用性。
系统整体在功能上,划分为存储层、基本功能层、接口层、应用层。
数据的访问:由OLAP(联机分析处理)、数据挖掘、统计报表、即席查询等几部分组成。
例如OLAP:针对特定的分析主题,设计多种可能的观察形式,设计相应的分析主题结构(即进行事实表和维表的设计),使管理决策人员在多维数据模型的基础上进行快速、稳定和交互性的访问,并进行各种复杂的分析和预测工作。
按照存储方式来分,OLAP可以分成MOLAP 以及ROLAP等方式,MOLAP(M ULTI-D IMENSION OLAP)将OLAP分析所需的数据存放在多维数据库中。
分析主题的数据可以形成一个或多个多维立方体。
ROLAP(R ELATIONAL OLAP)将OLAP分析所需的数据存放在关系型数据库中。
分析主题的数据以“事实表-维表”的星型模式组织。
数据挖掘数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。
如下是一些DM文献中的定义:数据挖掘是一个确定数据中有效的,新的,可能有用的并且最终能被理解的模式的重要过程。
数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可执行的信息并用它来进行关键的商业决策的过程。
数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关系和模式的一些方法。
数据挖掘是发现数据中有益模式的过程。
数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程。
虽然数据挖掘的这些定义有点不可触摸,但在目前它已经成为一种商业事业。
如同在过去的历次淘金热中一样,目标是‘开发矿工’。
利润最大的是卖工具给矿工,而不是干实际的开发。
目前业内已有很多成熟的数据挖掘方法论,为实际应用提供了理想的指导模型。
其中,标准化的主要有三个:CRISP-DM;PMML;OLE DB FOR DM。
CRISP-DM(C ROSS-I NDUSTRY S TANDARD P ROCESS FOR D ATA M INING)是目前公认的、较有影响的方法论之一。
CRISP-DM强调,DM不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。
CRISP-DM将整个挖掘过程分为以下六个阶段:商业理解(B USINESS U NDERSTANDING),数据理解(D ATA U NDERSTANDING),数据准备(D ATA P REPARATION),建模(M ODELING),评估(E VALUATION)和发布(D EPLOYMENT)。
CRISP-DM模型框架图从技术层来看,数据挖掘技术可分为描述型数据挖掘和预测型数据挖掘两种。
描述型数据挖掘包括数据总结、聚类及关联分析等。
预测型数据挖掘包括分类、回归及时间序列分析等。
1、数据总结:继承于数据分析中的统计分析。
数据总结目的是对数据进行浓缩,给出它的紧凑描述。
传统统计方法如求和值、平均值、方差值等都是有效方法。