当前位置:文档之家› 物联网大数据处理中实时流计算系统的实践

物联网大数据处理中实时流计算系统的实践

170 •电子技术与软件工程󰀡󰀡Electronic Technology & Software Engineering数据库技术 • Data Base Technique

【关键词】大数据 实时计算 物联网 实践

物联网是在互联网应用的基础上进行了

进一步拓展。其主要具有移动、智能、多节点

的特点。而Spark为大数据实时计算工作提供

了一个优良的数据储存计算引擎,其在实际数

据应用过程中,可利用自身优良的计算性能及

多平台兼容特性,实现大数据混合计算处理。

因此为了保证物联网数据处理效率,对大数据

混合计算模式在物联网中的实践应用进行适当

分析具有非常重要的意义。

1 基于Spark的大数据混合计算模型

基于Spark的大数据混合计算模式在实际

设计过程中,首先需要进行数据源的确定,经

过逐步处理后将其进行计算储存,并通过实时

查询数据库进行提前数据Web接口的设置。

在这个基础上,将不同数据源数据通过分布式

处理模式进行移动、收集、分发。然后利用Spark数据批处理工作,综合采用直接走流处

理、程序批处理的方式,将实施应用数据调到

已核算完毕的计算结果中间。最后基于物联网

应用特点,将数据源数据内部数据移动、收集

及分发批处理模块进行有机整合,并结合大数

据域内数据处理需求,逐渐利用SparklShark

架构代替MapreducelHIve结构。在这个基础

上进行Spark混合计算规则融入,最终形成完

善的Spark混合计算模型架构。

2 大数据实时计算在物联网中的实践

2.1 以流处理为基础的用量实时计算系统

以流处理为基础的用量实时计算系统在

物联网中的实践应用,主要是利用开源分布式物联网大数据处理中实时流计算系统的实践

文/吴海建1 吕军2

在信息时代,大数据得到了广泛的应用。在大数据应用过程中,根据不同应用模式其计算模式也有相应的变化。而UCBerkeleyAMPLab的Spark系统将所有特征的数据及计算方式进行的有效融合,如批处理计算、迭代计算、流式计算等。本文以Spark下的大数据混合计算模型为例,对大数据实时计算在物联网中的实践进行了简单的分析,以便为物联网管理工作的顺利进行提供有效的借鉴。摘 要软件结构的架设,结合Flume数据收集模块的

设置。同时将物联网中不同数据源进行接入差

异化分析。在这个基础上利用消息缓存系统保

障模块,将用量实时计算系统内部相关模块间

进行解耦设置。同时结合流式计算框架的运行,

保障系统并行计算性能拓展问题的有效处理。

在具体基于流处理的用量实时计算系统设置过

程中,主要包括数据收集、数据处理、数据存

储、数据处理等几个模块。首先在数据收集模

块设置环节,主要采用Flume集群,结合海

量日志采集、传输、集成等功能的处理,可从exec、text等多数据源进行数据收集。Flume

集群的处理核心为代理,即在完整数据收集中

心的基础上,通过核心事件集合,分别采用话

单文件代理、计费消息代理等模式,对文件、

消息进行收集处理。需要注意的是,在消息接

收之后,需要将不同代理数据进行统一数据格

式的处理,从而保证整体消息系统的核心统一。

其次在实际应用过程中,以流处理为基础的大

数据实时计算模型在数据接入环节,主要采用Kafka集群,其在实际运行中具有较为优良的

吞吐量。而且分布式订阅消息发布的新模式,

也可以在较为活跃的流式数据处理中发挥优良

的效用。在以流处理为基础的用量实时计算系

统运行过程中,Kafka集群主要针对O(1)

磁盘数据,其主要通过对TB级别的消息进行

储存处理,并维持相应数据在对应磁盘数据结

构中的平稳运行。同时在实际运行中,Kafka

集群还可以依据消息储存日期进行消息类别划

分,如通过对消息生产者、消息消费者等相应

类别的划分,可为元数据信息处理效率的提升

提供依据。

数据处理框架主要采用Storm集群,其主

要具有容错率高、开源免费、分布式等优良特

点。在基于Storm集群的数据处理框架计算过

程中,可通过实时计算图状结构的设计,进行

拓扑集群提交。同时通过集群中主控节点分发

代码设置,实现数据实时过滤处理。在实际运

行过程中,基于Storm集群的数据处理框架,

具有Spout、Bolt两种形式。前者为数据信息

发送,而后者为数据流转换。通过模块间数据

传输,Storm集群也可以进行流量区域分析、

自动化阈值检查、流量区域分析等模块的集中

处理。数据储存模块主要采用Redis集群,其

在实际处理过程中,主要采用开源式的内部储

存结构,通过高速缓存消息队列的设置,可为

多种数据类型处理提供依据,如有效集合、列

表、字符串、散列表等。

2.2 算例分析在实际应用过程中,基于流处理的大数

据实时计算模型需要对多种维度因素进行综合

分析,如运营商区域组成维度、时间段储存方

案、APN、资费组处理等。以某个SIM卡数

据处理为例,若其ID为12345678,则在实际

处理中主要包括APN1、APN2两个APN。若

其为联通域内的SIM卡,则其运营商代码为86。这种情况下就可以对其进行高峰时段及

非高峰时段进行合理处理,分为为0、1。而

资费组就需要进行All默认程度的处理,若当

前流量话费总体使用量为1.6KB,则APN1、APN2分别使用流量为1.1/0.4KB。而在高峰

时段、非高峰时段流量损耗为1.1/0.5KB。这

种情况下,就需要对整体区域维度及储存变动

情况进行合理评估。在这一环节储存变动主要

为Storm集群,即为消息系统-流量区域分析-

流量区域累积-自动化规则阈值检测/区域组

合统计-缓存系统。

3 结束语

综上所述,从长期而言,基于Spark的大

数据混合计算模式具有良好的应用优势,其可

以通过批处理、流计算、机器学习、图分析等

模式的综合应用,满足物联网管理中的多个场

景需要。而相较于以往物联网平台而已,基于

流处理的大数据实时处理系统具有更为优良的

数据压力处理性能。通过多种集群的整合,基

于流处理的大数据实时处理系统在我国物联网

平台将具有更加广阔的应用前景。

参考文献

[1]欧阳晨.海关应用大数据的实践与思考

[J].海关与经贸研究,2016,37(03):33-

43.

[2]余焯伟.物联网与大数据的新思考[J].

通讯世界,2017(01):1-2.

[3]孙学义.物联网与大数据的新思考[J].

科研,2017(03):00200-00200.

作者简介

吴海建(1980-),男,浙江省衢州市人。硕

士研究生,中级工程师。研究方向为人工智能。

作者单位

1.中电海康集团有限公司 浙江省杭州市

310012

2.中国电子科技集团第五十二研究所 浙江

省杭州市 310012

相关主题