当前位置:文档之家› 气象大数据平台建设方案

气象大数据平台建设方案

气象大数据平台建设方案目录1引言 (1)2大数据平台的基本构成 (3)2.1概述 (3)2.2数据基础决定平台框架 (4)2.2.1从分类大数据到选择大数据解决方案 (4)2.2.2依据大数据类型对业务问题进行分类 (7)2.2.3使用大数据类型对大数据特征进行分类 (9)2.3数据分类决定应用方案 (12)2.4大数据平台的逻辑层次 (13)2.4.1大数据集成层 (14)2.4.2大数据存储层 (15)2.4.3大数据分析层 (15)2.4.4大数据应用层 (16)3大数据平台的功能架构 (16)3.1组件构成 (16)3.1.1横向层 (16)3.1.1.1大数据集成层 (16)3.1.1.2大数据存储层 (19)3.1.1.3分析层 (20)3.1.1.4使用层 (21)3.1.2垂直层 (23)3.1.2.1信息集成 (24)3.1.2.2大数据治理 (24)3.1.2.3服务质量层 (25)3.1.2.4系统管理 (27)3.3原子模式 (28)3.3.1数据使用组件 (29)3.3.1.1可视化组件 (29)3.3.1.2即席发现组件 (30)3.3.1.3数据转储组件 (31)3.3.1.4信息推送/通知组件 (31)3.3.1.5自动响应组件 (32)3.3.2数据处理组件 (32)3.3.2.1历史数据分析组件 (32)3.3.2.2高级分析组件 (33)3.3.2.3预处理原始数据组件 (34)3.3.2.4即席分析组件 (35)3.3.3数据访问组件 (36)3.3.3.1web和社交媒体访问组件 (36)3.3.3.2物联网设备数据的访问组件 (39)3.3.3.3基础数据(观测数据和生产数据)的访问模式 (40)3.3.4数据存储组件 (41)3.3.4.1分布式非结构化数据存储组件 (41)3.3.4.2分布式结构化数据存储组件 (42)3.3.4.3传统数据存储组件 (42)3.3.4.4云存储组件 (42)3.4复合模式 (43)3.4.1存储和探索复合组件 (43)3.4.2专业分析和预测分析组件 (44)3.4.3OLAP在线分析 (45)3.4.4原子模式和符合模式的映射 (46)3.4.4.1.1图 10. 将原子模式映射到架构层 (48)3.5解决方案模式(模拟应用场景) (48)4.1概述 (49)4.2技术架构的关键问题 (49)4.2.1hadoop (49)4.2.2数据库 (49)4.2.3流计算 (50)4.3数据库功能支持 (50)4.3.1开发及应用接口 (50)4.3.2SQL语法兼容性 (52)4.3.3生命周期管理功能 (55)4.3.4热数据 (56)4.3.5冷数据 (56)4.3.6表分区功能 (57)4.3.7表压缩功能 (58)4.3.8大表索引管理 (58)4.3.9数据导入与导出 (59)4.3.10多级数据存储 (60)4.3.11半结构化与非结构化数据支持 (61)4.3.12全文数据处理 (61)4.3.12.1安全可靠与运维能力 (62)4.3.12.2资源管理 (62)4.3.12.3系统容错性 (65)4.3.13单点故障消除 (66)4.3.14容灾与备份 (68)4.3.15在线扩容 (69)5大数据创新平台设计 (1)5.1质控治理服务(云平台) (1)5.1.1质量规则 (3)5.1.3数据比对 (4)5.1.4数据检测 (5)5.1.5数据质量评分 (5)5.2数据资源服务(云平台和智慧城市) (6)5.2.1架构设计 (6)5.2.2服务总线 (7)5.2.2.1服务总线架构 (7)5.2.2.2服务生命周期管理 (8)5.2.2.3服务目录 (9)5.2.2.4服务授权 (10)5.2.2.5服务网关 (10)5.2.2.6服务监控 (11)5.2.2.7服务SDK (11)5.2.3数据超市 (12)5.2.3.1数据多维展示 (12)5.2.3.2数据检索 (13)5.2.3.3数据订阅 (13)5.2.3.4数据评分、评论 (13)5.2.3.5数据可视化 (14)5.2.3.6数据气象局 (14)5.2.3.7数据反馈 (15)5.3数据资源服务 (15)5.3.1数据目录创建 (15)5.3.1.1数据目录申请 (15)5.3.1.2数据集目录完善 (16)5.3.1.3数据目录初始化 (17)5.3.2标签生成 (17)5.3.3目录审批管理 (17)5.4.1数据挖掘 (18)5.4.2数据可视化 (22)5.4.2.1地图 (23)5.4.2.2图表 (24)5.5数据开放服务 (34)5.5.1数据开放目录管理 (34)5.5.1.1目录设计 (34)5.5.1.2数据开放目录的梳理 (35)5.5.2数据开放加工机制 (35)5.5.2.1数据再整理 (35)5.5.2.2数据失真 (36)5.5.3数据开放方式管理 (38)5.5.4数据开放生命周期管理 (38)5.5.4.1数据规划设计 (38)5.5.4.2数据运行维护 (39)5.5.4.2.1待发布数据集 (39)5.5.4.2.2数据集目录查询 (39)5.5.4.2.3数据集更新 (39)5.5.4.2.4数据集目录修改 (40)5.5.4.2.5数据集目录下线 (41)5.5.4.2.6数据集目录删除 (41)5.5.4.2.7数据绩效评价 (41)5.5.5数据开放授权管理 (41)5.5.6开放服务管理机制 (42)5.5.6.1数据目录申请流程 (42)5.5.6.2数据集目录完善 (43)1引言在气象行业内部,气象数据的价值已经和正在被深入挖掘着。

但是,不能将气象预报产品的社会化推广简单地认为就是“气象大数据的广泛应用”。

大数据实际上是一种混杂数据,气象大数据应该是指气象行业所拥有的以及锁接触到的全体数据,包括传统的气象数据和对外服务提供的影视音频资料、网页资料、预报文本以及地理位置相关数据、社会经济共享数据等等。

传统的”气象数据“,地面观测、气象卫星遥感、天气雷达和数值预报产品四类数据占数据总量的90%以上,基本的气象数据直接用途是气象业务、天气预报、气候预测以及气象服务。

“大数据应用”与目前的气象服务有所不同,前者是气象数据的“深度应用”和“增值应用”,后者是既定业务数据加工产品的社会推广应用。

“大数据的核心就是预测”,这是《大数据时代》的作者舍恩伯格的名言。

天气和气候系统是典型的非线性系统,无法通过运用简单的统计分析方法来对其进行准确的预报和预测。

人们常说的南美丛林里一只蝴蝶扇动几下翅膀,会在几周后引发北美的一场暴风雪这一现象,形象地描绘了气象科学的复杂性。

运用统计分析方法进行天气预报在数十年前便已被气象科学界否决了——也就是说,目前经典的大数据应用方法并不适用于天气预报业务。

现在,气象行业的公共服务职能越来越强,面向政府提供决策服务,面向公众提供气象预报预警服务,面向社会发展,应对气候发展节能减排。

这些决策信息怎么来依赖于我们对气象数据的处理。

气象大数据应该在跨行业综合应用这一“增值应用”价值挖掘过程中焕发出的新的光芒。

2大数据平台的基本构成2.1概述“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。

大数据必然无法用单台的计算机进行处理,必须采用分布式架构。

它的特色在于对海量数据进行分布式数据挖掘(SaaS),但它必须依托云计算的分布式处理、分布式数据库(PaaS)和云存储、虚拟化技术(IaaS)。

大数据可通过许多方式来存储、获取、处理和分析。

每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。

处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。

选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素。

气象行业的数据情况则更为复杂,除了“机器生成”(可以理解为遥测、传感设备产生的观测数据,大量参与气象服务和共享的信息都以文本、图片、视频等多种形式存储,符合“大数据”的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、veracity(真实性) 。

这些信息长期存储于气象各部门的平台上未能加以合理利用。

另一方面,这些数据本身就是分散存储于多个服务器平台上,急需应用分布式平台统一管理。

因此,我们亟需一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。

因为评估一个业务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案。

2.2数据基础决定平台框架2.2.1从分类大数据到选择大数据解决方案RDBMS:关系型数据库;ETL:数据清晰、转换、装载的过程;ELT:数据清晰、装载、转换的过程;CDC:增量数据复制。

有同步和异步两种模式。

结构化数据半结构化数据“非结构化数据非结构化数据2.2.2依据大数据类型对业务问题进行分类根据气象服务需要,业务问题可分类为不同的大数据问题类型。

以后,我们将使用此类型确定合适的分类模式(原子或复合)和合适的大数据解决方案。

但第一步是将业务问题映射到它的大数据类型。

下表列出了常见的业务问题并为每个问题分配了一种大数据类型。

2.2.3使用大数据类型对大数据特征进行分类按特定方向分析大数据的特征会有所帮助,例如以下特征:数据如何收集、分析和处理。

对数据进行分类后,就可以将它与合适的大数据模式匹配:●分析类型—对数据执行实时分析还是批量分析。

请仔细考虑分析类型的选择,因为这会影响一些有关产品、工具、硬件、数据源和预期的数据频率的其他决策。

一些用例可能需要混合使用两种类型:⏹临近分析;分析必须实时或近实时地完成。

⏹历史分析针对战略性业务决策的趋势分析;分析可采用批量模式。

●处理方法—要应用来处理数据的技术类型(比如预测、分析、临时查询和报告)。

业务需求确定了合适的处理方法。

可结合使用各种技术。

处理方法的选择,有助于识别要在您的大数据解决方案中使用的合适的工具和技术。

●数据频率和大小—预计有多少数据和数据到达的频率多高。

知道频率和大小,有助于确定存储机制、存储格式和所需的预处理工具。

数据频率和大小依赖于数据源:⏹按需分析,与社交媒体数据一样⏹实时、持续提供(天气数据、交易数据)⏹时序(基于时间的数据)●数据类型—要处理数据类型—交易、历史、主数据等。

相关主题