当前位置:文档之家› 基于BI的数据集成展现分析平台设计与实现

基于BI的数据集成展现分析平台设计与实现

基于BI的数据集成展现分析平台设计与实现李 军 杜 勇(北京市交通信息中心 北京100073)摘 要 为了更直观地分析展现数据中心整合接入的数据,进一步发挥数据中心的行业价值和建设成果,数据集成展现分析平台的建设必不可少。

文中在梳理总结BI技术用于数据展现分析现状及趋势的基础上,对依托数据中心进行数据展现分析的一般流程和方法进行了论述,并以北京市为例,对构建交通行业数据中心数据集成展现分析平台的流程和效果进行了实例应用和总结。

平台实现了数据和业务系统的集成展现和分析,并提供历史数据查询、统计分析、报表输出等功能,为交通运行管理和业务决策提供了支持。

关键词 数据中心;商务智能;展现;报表;交通中图分类号:U1 文献标志码:A doi:10.3963/j.issn 1674-4861.2012.06.032收稿日期:2012-07-31 修回日期:2012-11-28第一作者简介:李 军(1979),硕士,工程师.研究方向:交通数据处理分析及交通信息化系统建设等.E-mail:leejun@bjjtw.gov.cn0 引 言随着交通信息化建设的不断深入,各单位、各部门建设了满足自身业务处理需要的业务应用系统。

但由于不同应用系统在不同时期独自建立,系统从业务应用和数据关联上缺少总体规划和设计协调,系统之间数据交换共享存在困难,使得各个部门、单位之间形成了一条条“数字鸿沟”,大量的数据未得到充分的利用,无法满足综合业务处理、公众信息服务和政府决策数据支持的需要[1]。

因此,研究和建设跨部门、跨业务的集数据采集、处理、共享交换和综合利用多种功能为一体的交通数据中心己成为当前交通信息化工作的重中之重。

数据中心的建设是行业业务信息化系统发展到一定时期的必然阶段,而数据集成展现平台则是数据中心的重要应用体现。

数据中心内的各数据生产系统从各个不同的业务角度部分实现了本业务数据的集成、分析和展现,对提高本行业本部门管理的信息化、科学化和专业化发挥了重要作用。

但由于各系统服务的主要业务方向不同,其部署环境和平台、数据库种类版本也不尽相同,这就形成了一定程度的信息孤岛,经常出现“数据到处要,报表不一样”的尴尬情况。

各个业务数据生产系统之间缺乏信息沟通,统计口径和格式的不一致容易导致出现不全面、不正确的数据,会让日常工作人员和高层决策人员不能较充分地利用好数据。

基于此,为使建设的数据中心能够为业务工作和领导决策提供标准、统一、高效的服务,亟需依托数据中心整合的数据资源建立集成统一的数据展现分析平台。

本文在分析BI(business intelligence)发展趋势及其用于数据中心展现分析可行性的基础上,设计了数据中心进行数据集成展现分析的一般流程和方法,最后以北京市交通行业数据中心数据综合展现分析平台建设为例进行了实际应用。

1 BI数据展现分析现状及需求随着信息技术的发展,数据中心可以获得的内部和外部数据不断增长,但是利用数据的效率并没有相应的提高,用户难以在海量的数据中发现真正有价值的信息。

同时,由于数据来源的广泛性,各种不同来源的数据在格式上存在很大的差别,难以进行比较、衡量和利用,使得数据支撑业务工作和决策难度加大。

为了解决数据处理和应用过程中的问题,商业智能应运而生。

BI的定义最早由Gartner Group于1996年提出,他将商业智能定义为由数据仓库、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成,以帮助企业决策为目的的技术及其应用[2]。

051交通信息与安全 2012年6期 第30卷 总173期BI的体系在国内外的发展各不相同。

微软的BI核心是根据数据库中的数据实现各种应用,体现的是BI的一般思路。

IBM在此基础上增加了管控和安全。

美国数据仓库研究院则侧重BI的结果对策略和行动的关联和影响。

国内的有些研究者认为BI体系可以分为4层:最底层是信息系统层面,其上是数据分析层面,再上是知识发现层面,顶层是战略层面,该框架注重了管理层面,但是应用性显得不够[3]。

各种观念在不同侧面突出了BI的优势,但由于BI用户和BI厂商的天然差距,造成了BI系统很难在用户角色、BI工具和BI内容上达到完美的结合。

现在国外的企业,大部分己经进入了中端BI数据分析阶段,有一些已经积累了高端的数据挖掘经验。

但是,目前国内BI的应用水平仍然主要停留在基本的统计分析和数据整合阶段,即报表软件市场,真正实现深度分析的应用极少。

原因是国内成功的、可效仿的经验欠缺,厂家、用户、企业都在谈BI,但对BI的理解都不一样,对于应用BI能得到的效果也不尽相同[4]。

其实,它是需要企业具备一定的条件才能应用的,尤其是BI高端的功能实现。

实际上,行业用户对BI应用成果的最先认知是复杂的报表系统,然后是OLAP多维分析系统[5]。

2006年以来,用户越来越重视数据仓库基础建设。

据预计,未来几年BI建设的重点将从企业报表制作转向数据挖掘与智能分析,将历史数据转化为资源,为领导决策提供有力的数据参考依据[6]。

随着数据中心业务发展步伐的加快,实施数据集中统一展现和分析的意义将在众多的方面凸显出来。

我国数据中心的数据展现及报表平台虽然得到了快速的发展,但是与发达国家的数据中心相比,仍然存在着较大的差距。

据统计,目前国内数据中心开发专业的展现分析系统仅占所有数据中心的20%~30%。

即使在这一部分拥有展现和报表系统的数据中心中,绝大多数也只是在静态展现来自各部门的大量数据。

既没有统一各部门的数据口径,也没有充分利用报表对数据进行管理。

数据中心内部需要在统一数据整合平台基础上,采集存储各业务系统的数据,并在此基础上搭建集中数据展现分析平台,实现各业务部门数据的集中统一展现和报表需求。

因此,依托数据中心开发建设1个覆盖全业务部门的数据集成展现分析平台是非常迫切和必要的。

2 数据中心集成展现平台设计与实现 对数据中心所接入的数据进行集成展现分析的过程和方法无一定之规,本部分只对依托数据中心进行数据展现的一般流程和方法进行论述。

不同行业、类型的数据中心应结合自身的软硬件基础条件、数据情况和具体展现需求确定适宜的方法和过程。

2.1 设计原则与思路数据中心集成展现分析平台的建立应在把握数据分析应用总体需求的基础上,遵循信息化建设规范,确定系统的设计原则和思路。

1)总体规划与分步实施。

一般数据中心项目建设周期长、投资大,项目的风险性较高。

采用总体规划、分步实施的策略,可以有效规避风险和科学地分阶段完成既定目标。

2)采用先进的设计思路。

高开放性、低耦合度、可扩展性有利于实现因需而变的高复用度系统设计,在涉及与其他系统集成的部分时,均采用降低耦合的思路进行设计,以避免不同系统之间的紧密依赖约束,赋予更大的灵活性和独立运行能力。

3)采用先进技术体系以保证先进性。

系统采用先进的技术体系,保障其在较长的时间内保持先进性,有利于获得来自各种渠道的技术支持,如软、硬件环境有更大的选择空间,系统性能可得到进一步扩展和提升。

4)采用原型法开发。

采用原型起步、反复迭代,逐步贴近用户需求和应用习惯的开发方法,逐步理解用户业务逻辑,科学反映业务需求并确定信息流程,以满足用户对展现层的要求。

2.2 总体架构设计遵循系统总体设计原则和思路,在确定了项目的解决方案之后,就可以明确系统相应的总体架构。

总体架构主要由基础数据库、算法设计与实现以及报表展现3部分组成,见图1。

2.3 平台实现2.3.1 数据源在建设数据中心集成展现分析平台时,选择数据源的范围十分重要。

一般地,应综合考虑以下几方面的因素:①业务数据的重要性,是否为领导和业务部门重点关注;②业务系统及其生产数据的建设和管理比较规范并具有代表性;③否积151基于BI的数据集成展现分析平台设计与实现———李 军 杜 勇累了一定量的历史数据并具有分析价值;④考虑所分析数据与其他数据的关联性。

图1 平台设计总体架构图Fig.1 General Framework of platform design2.3.2 数据ETL处理数据抽取、转换和装载的过程(extract trans-form load,ETL)是数据中心建设的重要技术环节,对数据展现、分析及报表制作也起着重要的支撑作用。

在系统实施过程中,抽取数据需要根据数据量大小及增量变化情况而决定采用不同的抽取策略,如行业信息维度表数据量小且几乎无变化,可采取每月抽取1次。

数据清理可以去掉数据中的噪音,纠正不一致。

一旦发现数据异常和数据质量问题,可及时和业务人员交流沟通,以制定数据处理规则。

2.3.3 数据建模数据集成展现分析平台采取数据驱动,即通过对原有系统业务及数据的分析,再结合主题分析的目标,实现数据的迁移和存储转制。

如对原有业务系统某一指标项的排名进行梳理,找出相关数据结构的关系,根据分析主题目标,重新定义数据集成展现分析平台的数据模型。

采用适宜的工具建立数据模型,而数据模型构建是否合理,会直接影响报表展现和分析。

2.3.4 展现及分析使用专业的报表工具方便业务部门实现报表展现及业务分析,减轻业务人员和管理人员的劳动强度,提高工作效率和数据分析统计的科学性,可以根据实际管理需要,提供定制、交互式查询及其他种类的报表。

这样原来业务系统无法生成的跨部门、综合性的、复杂的报表,可以通过数据集成展现平台自动生成。

3 应用实例近年来,北京市交通信息化工作取得了显著成果,完成了公交运营指挥调度系统、地铁运营指挥调度系统、市政交通一卡通系统、长途客运联网售票系统、高速公路不停车收费系统等一系列卓有成效且具有良好示范作用系统的建设,这些业务系统的建设对提高部门管理的信息化、科学化、专业化发挥着重要作用。

北京市交通行业数据中心的建设整合接入了大量行业数据,但由于不同业务系统任务分工不同,系统在业务应用和数据关联上缺少总体规划和设计,系统之间的数据有交叉和重复,并且缺乏统一的标准,数据的准确性和一致性难以保证,导致在综合运输业务管理和决策上缺乏准确清晰的数据支持。

为有效解决上述问题,依托北京市交通行业数据中心建设了北京市交通行业数据中心集成展现分析平台。

该平台的建设可使数据中心更好地为交通行业主管部门全面监测和掌握整个行业运行状况提供支撑,同时也可为不同业务部门了解彼此的业务运行情况提供平台。

3.1 平台实现过程展现平台的实现主要有专题统计数据库建设、算法设计与实现、BI模型建立、报表设计与实现及报表展现等几个主要环节,见图2。

1)专题统计数据库建设。

梳理基础数据库,分析相应的统计维度、指标,并建立相应的统计汇总数据库,包括维度表、指标统计表。

2)算法设计与实现。

根据基础数据库数据特点及相关业务特性,建立指标计算算法,并开发相应的存储过程、JOB、触发器等。

相关主题