DreamBI大数据分析平台技术白皮书目录第一章产品简介 (4)一、产品说明 (4)二、产品特点 (4)三、系统架构 (4)四、基础架构 (7)五、平台架构 (7)第二章功能介绍 (7)2.1.元数据管理平台 (7)2.1.1.业务元数据管理 (8)2.1.2.指标元数据管理 (10)2.1.3.技术元数据管理 (14)2.1.4.血统管理 (15)2.1.5.分析与扩展应用 (16)2.2.信息报送平台 (17)2.2.1.填报制度管理 (17)2.2.2.填报业务管理 (33)2.3.数据交换平台 (54)2.3.1.ETL概述 (55)2.3.2.数据抽取 (56)2.3.3.数据转换 (56)2.3.4.数据装载 (57)2.3.5.规则维护 (58)2.3.6.数据梳理和加载 (65)2.4.统计分析平台 (67)2.4.1.多维在线分析 (67)2.4.2.即席查询 (68)2.4.3.智能报表 (70)2.4.4.驾驶舱 (74)2.4.5.图表分析与监测预警 (75)2.4.6.决策分析 (79)2.5.智能搜索平台 (83)2.5.1.实现方式 (84)2.5.2.SolrCloud (85)2.6.应用支撑平台 (87)2.6.1.用户及权限管理 (87)2.6.2.统一工作门户 (94)2.6.3.统一消息管理 (100)2.6.4.统一日志管理 (103)第三章典型用户 (106)第四章案例介绍 (108)一、高速公路大数据与公路货运统计 (108)二、工信部-数据决策支撑系统 (110)三、企业诚信指数分析 (111)四、风险定价分析平台 (112)五、基于斯诺模型的增长率测算 (113)六、上交所-历史数据回放引擎 (114)七、浦东新区能耗监控 (115)第一章产品简介一、产品说明DreamBI摒弃了原有数据采集及开发应用系统建设时间长、花费高的传统建设模式,提供了一套方便易用的元数据管理平台,并以此为基础,采用独有的拖拽式可视化操作,为用户提供了一整套简单快捷的数据采集、查询统计、在线分析、资料制作、信息发布等功能模块。
二、产品特点让每个人都会用的可视化展现及分析系统◆拖拽即成,人人会用◆跨平台、跨设备轻松展现◆全程元数据管理◆完美中国式报表,符合国情◆OLAP分析、即席查询、交互式图表分析、数据挖掘四项项全能三、系统架构总体架构设计采用云服务的架构模式系统建设总体架构图如下:如上图所示,项目功能整体设计以服务为理念,自下而上分别提供:一、Iaas(设备即服务)层这一层,利用服务器、存储设备、网络设备等硬件设施,同时配合操作系统、虚拟化管理软件、数据库、网络管理系统为整个项目的部署、运行提供高效可控的硬件设施服务。
二、Daas(数据即服务)层数据层,作为整个系统的信息存储层,这里主要存储信息包括:元数据、企业名录库、共享数据、私有数据以及应用信息库(用户权限信息、系统配置信息、日志信息等)。
三、Paas(平台即服务)层作为开放、可扩展、成熟的应用系统,大部分的应用模块都应该是通过完善可靠的应用开发平台,结合实际的业务需要,通过二次开发或配置完成,配合本期项目的实际需要以及未来可扩展性的考虑,我们将提供元数据管理平台、智能搜索平台、信息交换平台、信息报送平台、统计分析平台、应用支撑平台这六大基础服务平台,大部分的功能模块将通过这六大平台二次开发或配置完成,同时保证业务模块的快速调整或功能扩展。
四、Saas(软件即服务)层软件既服务这一层,将根据用户实际的业务需求,结合基础服务平台,提供具体的功能模块,包括:(一)、信息报送子系统➢任务发布➢信息报送➢数据审核➢信息归档➢任务监控➢报送情况统计(二)、数据处理子系统➢企业名录库➢数据加载➢查询、统计、计算、报表设计、图表设计➢信息发布➢批处理脚本(三)、信息共享门户➢信息发布审核➢共享目录➢智能检索➢统计出版物➢专题分析➢分析报告➢数据解读(四)、微信服务号及移动应用➢用户绑定➢智能应答➢信息推送➢报送审核➢辅助功能➢管理功能四、基础架构五、平台架构第二章功能介绍2.1.元数据管理平台数据共享平台,作为一个以资源信息库为核心的建设项目,数据标准的制定和管理是这个项目是否成功的主要因素,所以,元数据管理平台是支撑数据共享平台的主要组成部分。
通过该平台来规范管理全系统数据资源的规范定义、命名、分类等。
同时,元数据管理平台也将帮助我们从技术的角度梳理所有的信息系统,了解所有数据资源的生产、存储、转换和同步等所有相关活动,从而建立数据元的血统世系,帮助我们理解每一个数据的来龙去脉。
元数据管理系统将提供如下一些主要的功能:2.1.1.业务元数据管理根据全系统信息资源规划的结果和行业信息资源标准体系,从业务的视野出发,建立的关键数据元、指标等的分类、规范定义体系。
具体功能如下:2.1.1.1.元模型定义元模型定义用于定义元模型结构,一般包括编号、名称、说明、同义词、语境、标注字段命名、值域、备注等要素。
为建立与行业标准的对照,建议元模型应包含与行业标准的对照项。
一个推荐的业务数据元元模型如下(最后一栏为国标行政区划的案例):数据元编号建议采用特征组合编码方式进行编码,一个建议的编号模式如下:2.1.1.2.元数据维护根据业务需求,制定统一的技术元数据和业务元数据标准,覆盖多种来源统计数据采集、加工、清洗、加载、多维生成、分析利用、发布、归档等各个环节,建立相应的管理维护机制,梳理并加载各种元数据。
根据统计业务特点,制定元数据标准,要满足统计元数据在口径、分类等方面的历史变化。
支持对派生元数据的管理,如派生指标、代码重新组合等,对元数据管理实行权限控制。
2.1.1.3.统一管理和利用通过元数据,实现对各类数据的统一管理和利用,包括:➢填报数据:与各级业务数据系统的无缝集成。
➢基础数据管理:建立各类基础数据与元数据的映射关系,实现统一的数据查询、处理、报表管理。
➢ETL:通过元数据获取ETL规则的描述信息,包括字段映射、数据转换、数据转换、数据清洗、数据加载规则以及错误处理等。
➢数据库:利用元数据实现对数据库结构的描述,包括仓库模式、视图、维、层次结构维度描述、多维查询的描述、立方体(CUBE)的结构等。
➢版本控制及追溯➢对于元数据的维护版本进行控制和追溯。
2.1.2.指标元数据管理作为一项特殊的业务元数据,指标元数据在业务应用中具有非常重要的地位,在元数据管理系统的基础上,实现对信息资源的指标元数据的管理与维护功能:➢对指标元数据的分类管理➢基本信息维护➢使用情况监管➢存储信息监管➢元数据归并管理➢派生指标的管理➢操作日志➢版本控制与追溯2.1.3.技术元数据管理技术元数据原理用于管理物理上生产、存储、传递业务元数据的信息资产,包括应用软件、程序组件(服务)、数据库、表、字段等各种对象,并描述这些错综复杂的对象之间的相互关系,以及与业务元数据的对应关系。
具体的功能如下:➢技术元数据模型定义模型在遵照CWM规范的基础上做到可扩展,能根据管理的需要扩展该模型,一个示例的纳入技术元数据管理框架的主体及内容如下:➢技术元数据导入系统提供与主流数据库产品,如DB2、ORACLE、SQLSERVER,主流ETL 产品的接口,可直接导入相关元数据到系统中系统提供导出功能,可导出元数据到EXCEL表中,手工修改维护后导入系统。
➢技术元数据维护手工增加、修改、删除(作废)、生效元数据,对字段级元数据,可建立与业务元数据的对照关系。
2.1.4.血统管理血统管理用于管理元数据的相关关系。
这种关系可帮助我们更好的理解数据,追踪出现的问题等。
部分血统数据可直接从主流ETL工具中直接导入,也可手工维护数据血统。
一个示例的数据血统示意图如下:2.1.5.分析与扩展应用➢数据元查询根据各种查询条件,模糊查询系统相关数据元信息➢血统分析分析某数据元对象的血统,从而帮助我们更好的理解数据➢影响分析分析某数据元变化对其他信息资源的影响。
➢对外服务通过web服务方式对外提供数据元服务,外部应用系统可通过调用专用服务了解某指标的定义,数据血统等要素。
2.2.信息报送平台2.2.1.填报制度管理填报制度的管理是数据采集、存储、查询、分析等一切应用的基础,如何提供方便完善的统计制度管理功能,是数据库建设成功与否的重要基石。
具体要求如下:➢支持制度方便的复制、备份、调整,并支持对统计制度的版本管控。
➢提供指标的增删改操作,以及对应的存储设计与字段的映射关系管理,并提供完整的指标生命周期管控,指标统计口径调整过程和追溯功能。
➢支持派生指标的设置与维护,满足前后计算的两种统计模式。
➢支持指标审核关系的自由设置,同时提供常规的审核公式函数库。
➢提供图形化的报表表样配置工具,要求做到设计报表表样的所见即所得。
➢提供维度(统计分类标准)管理,支持维度层级管理,唯独项基本信息描述,包括:唯一标识、名称、显示名称、排序属性等。
功能实现包括:2.2.1.1.存储设计2.2.1.1.1.数据库连接管理提供oracle、sqlserver、mysql、db2、sybase等大型关系型数据库的连接管理功能;支持多数据库同时连接功能,允许一个系统中同时管理多个异构数据库的连接;2.2.1.1.2.表关系管理实现功能包括:➢提供从当前连接的数据库中获取全部表及字段功能;➢提供可视化的表关系设置功能,通过拖拽相关表的相关字段,可以定义表之间的1:1,1:N,M:N关系;➢提供表的数据字典维护管理功能;并为后面的数据源管理、报表管理、报表查询统计等使用;➢提供向导式建表功能;通过定义通用的数据类型,系统可自动根据当前连接数据库的类型(oracle、mysql、sqlserver),自动建表。
➢提供表的版本管理,可以追溯至某个版本的变化,并导出相应的DDL 语句;➢支持上下文管理;➢以上所有操作均需要在浏览器模式下完成。
具体实现如下:一、表结构管理1)存储表管理提供表的增删改操作。
2)字段维护提供表字段的增删改操作,同时支持数据字典的维护。
字段类型支持:数字、文本、大文本、对象、日期3)提交操作点击完成,系统会根据当前数据库的类型及版本,自动生成相应的建表语句,并提交数据库完成建表操作。
二、表关系管理通过E-R图这种直观的方式,完成表关系的管理与设置,如下图所示:用户可以选择已有表或新建表,然后通过拖拽字段,完成表之间关系的设置。
支持表关系高级设置支持复杂的表关系条件设置支持内、外链接的设置支持N:N的描述⏹支持上下文管理采用上下文的方式,描述表关系的最小单位,以避免在应用的过程中,选择最小的相关表进行操作处理,避免多余的表关系导致系统性能下降。
⏹支持关系表的属性设置包括:➢别名设置➢只读属性设置➢主键设置表内条件设置2.2.1.1.3.数据源管理提供可视化拖拽式的指标选择、条件选择、排序项选择等功能,同时要求:➢条件选择支持and、or以及括号➢条件支持参数➢生成的数据源具有跨数据库的特性,能够自动匹配后台数据库,当后台连接的数据库发生变化(如oracle变为mysql时),系统任何改变(无须重新定义也无须重新生成)。