流式大数据实时处理技术、平台及应用研究作者:余谦
来源:《现代信息科技》2019年第01期
摘; 要:流式大数据实时处理技术的应用能够实现对客户的实时反馈,所以相比于批量大数据受到了更多的关注与研究。
基于此,本文设计了一种基于流式大数据实时处理技术的平台系统,对流式大数据实时处理技术进行了解析,对该平台系统的设计、优势以及性能测试进行了说明,分析了基于流式大数据实时处理技术平台系统的应用。
关键词:流式大数据;实时处理;平台设计
中图分类号:TP311.13; ; ; 文献标识码:A 文章编号:2096-4706(2019)01-0086-03
Streaming Big Data Real-time Processing Technology,Platform and
Application Research
YU Qian
(Wuhan Polytechnic University,School of Mathematics and Computer Science,Wuhan; 430023,China)
Abstract:The application of streaming big data real-time processing technology can realize real-time feedback to customers,so it has received more attention and research compared with large batch data. Based on this,this paper designs a platform system based on streaming big data real-time processing technology,analyzes the real-time processing technology of streaming big data,explains the design,advantages and performance testing of the platform system,the application of real-time processing technology platform system based on streaming large data is analyzed.
Keywords:streaming big data;real-time processing;platform design
0; 引; 言
现阶段,随着互联网技术的发展和普及性使用,社会产生的数据量显著提升,这使得人们对于大数据技术的关注与引入程度显著提升。
对于大数据技术来说,通过引入大数据技术,就能够实现多个行业的技术进步、促进经济效益的显著增长。
依照数据处理的时效性,能够将基于大数据技术的数据处理系统分成流式大数据(实时大数据)处理以及批量大数据(历史大数据)处理两种。
其中,流式大数据实时处理技术的应用能够实现对客户的实时反馈,所以受到
了更多的关注与研究。
本文对流式大数实时处理技术及其平台进行分析,对该平台的应用进行研究,为相关工作人员提供参考。
1; 流式大数据实时处理技术的解析
1.1; 流式大数据实时处理技术的分析
结合现阶段大数据技术的发展以及使用情况来看,能够依据数据处理的时效性,将基于大数据技术的处理系统分为两种:批量大数据处理系统以及流式大数据处理系统。
其中,在批量大数据处理系统中,主要以Hadoop为代表。
该系统在对批量大数据进行处理时,会首先将相应的数据信息汇总成批,接着会对这些汇总后的数据信息展开批量的预处理,最终会将处理后的数据传输并保存至分析数据仓库之中,完成高性能的实时查询服务提供。
可以说,批量大数据处理系统能够实现对完整大数据的快速查询,但是其并不能实现对于最新数据信息的查询,也存在着数据迟滞相对较高的问题。
对于流式大数据处理系统来说,在批量大数据处理系统中无法解决的问题在流式大数据中能够得到有效的处理。
相比于批量大数据处理系统来说,流式大数据处理系统能够有效的实现对即时性数据的处理与反馈。
现阶段,基于流式大数据实时处理技术的系统主要有Flink、Storm、Spark Streaming等,这些数据处理系统都能够实现对于实施数据的有效处理以及第一时间的反馈[1]。
1.2; 建立基于流式大数据实时处理技术系统的技术难点分析
对于基于流式大数据实时处理技术的系统来说,由于已经在系统中设置了针对最新实时数据信息的高效预处理模型,所以其数据迟滞相对较低。
但是,由于受到内存容量的限制,基于流式大数据实时处理技术的系统在实际的运行中,会对部分历史数据信息进行舍弃。
在这样的情况下,基于流式大数据实时处理技术的系统就无法实现对完整大数据集的分析与查询。
所以,必须要开发出自主可控、高效、迅速的流失大数据实时处理技术及相关平台。
在进行这一平台的开发时,要对以下几项技术难点进行重点的解决:
(1)对于相对复杂的指标展开增量计算。
对于计数、平均、求和等指标来说,通过查询结果的合并就能够提供。
但是,对于一些相对复杂的指标来说,通过查询结果的合并并不能完成计算,例如标准差、方差、熵等复杂指标。
同时,若是在实际的查询中,涉及到了长周期时间窗口或是热点数据维度这些复杂指标时,就会进行多次的计算,这显著增加了计算的开销;
(2)分布式内存的并行计算。
若是在实际的计算中,使用粗放的调度策略,会导致系统内存的大量浪费。
基于这样的情况,必须要开发出能够对进度进行实时感知的融合存储策略,优化基于流式大数据实时处理技术系统平台的内存使用效率;。