当前位置:文档之家› 互联网大数据文献综述

互联网大数据文献综述

互联网大数据文献综述大数据分析的趋势亮点大数据分析中的当前的最先进技术的概述。

大数据分析的规模和应用前景趋势。

在硬件上的现况和未来的发展趋势,如何帮助我们解决大规模数据集。

讨论目前采用的软件技术和未来趋势,以解决大数据分析应用。

关键词:大数据分析数据中心分布式系统摘要:大数据分析是并行的分布式系统未来的主要应用之一。

数据仓库目前应用的规模已经超过EB级,并且其规模还在不断增长。

当数据集和相关应用程序超出了他们的规模,给这些的构成要求和软件开发方法的考虑带来了重大挑战。

数据集通常是分布式,它们的大小和安全考虑到分布式技术来得到保证。

数据经常驻留在不同的平台上计算,对网络能力,容错性,安全性和访问控制的考虑是在许多应用中的关键。

在其他应用程序中,分析任务的截止时间主要与数据质量有关。

对于大多数新兴应用程序,数据驱动的模型和方法,能够大规模操作的方法,到目前还未找到。

即使知道可以缩放的方法,验证结果又是一个重大的问题。

硬件平台的特性和软件堆栈从根本上影响数据分析。

在这篇文章中,我们提供了一个概述的最先进的硬件和软件的趋势在大数据分析应用程序前景的应用。

引言随着互联网关键的技术的发展,计算作为一个实用程序的设想在上世纪90年代中期开始形成。

在网格计算时代的早期人们通常认为硬件作为主要资源。

网格计算技术专注于分享、选择和聚合各种各样的地理上分布的资源。

这些资源包括超级计算机、存储和其他设备,用来解决在科学、工程和商业的大规模计算密集型问题。

这些框架的一个关键特性是他们的支持透明跨域管理和资源管理能力。

“数据即资源”的概念被普及在p2p系统。

Napster、Gnutella,和Bit Torrent 允许节点共享多媒体数据内容通常直接彼此以分散的方式。

这这些框架强调互操作性和动态性,降低成本,资源共享特定的沟通和协作,聚集。

然而,在这些平台上,匿名,隐私问题和扩展性问题的考虑是次要的。

最近,云计算环境的可靠性、服务的健壮性被(通常的访问来自客户机的浏览器)来自于客户端,大规模生产的移动设备和通用计算机的访问检验。

云计算的服务观念概述为“基础架构即服务”(云计算资源在云中可用),数据即服务(数据在云中可用)和软件即服务(访问程序在云中执行)。

从服务提供者的角度来看这提供了相当大的好处(在硬件和管理的成本降低),整体资源的利用率,以及更好的客户端接口。

云环境的计算底层通常依赖于高效和弹性的数据中心架构,基于虚拟化的计算和存储技术,高效利用商品硬件组件。

目前的数据中心通常规模为成千上万的节点,计算在云计算中经常跨越多个数据节点。

新兴的基于云的环境与分布式数据中心托管的大型数据仓库,同时也为分析提供强力的处理有效的并行/分布式算法的需要。

潜在的社会经济效益的大数据分析,与多样性的应用提出是很大的挑战,在本文的其他部分我们重点强调数据分析问题的规模和范围。

我们描述了常用的硬件平台上执行分析应用的相关情况,并考虑存储,处理,网络和能量。

然后,我们专注于应用程序,即虚拟化技术,运行时系统/执行环境和编程的软件基础模型。

我们在多样性数据分析的应用中,对健康和人类福利进行计算机建模与模拟得出一个简短的结论。

1.1数据分析的规模和范围最近保守的研究估计,在2008年世界上的企业服务器系统已经能处理了9.57 ×10^21字节的数据。

这一数字预计将从这基础上每两年翻了一番。

举一个例子,沃尔玛的服务器每过一个小时就要处理超过一百万客户交易,这些信息插入到数据库,存储超过2.5 PB的数据与167座国会图书馆的书籍数量相当。

在欧洲核子研究中心的大型强子对撞机每年将产生大约15千兆字节的数据,足以填满超过170万个双层DVD。

每天,Facebook产生近500 TB的用户日志数据和数百万TB的图像数据。

每分钟,在YouTube有100小时的视频被上传,有135000小时的视频被观看。

每一秒,有超过28000个多媒体(MMS)消息被发送。

在2012大约4600万的移动应用程序被下载了,每一个应用程序收集到更多的数据。

推特的服务上有超过5亿5000万的活跃用户,他们每秒钟产生9100条推特。

eBay系统每一天处理超过100 PB的数据。

在其他领域,波音喷气发动机每运转30分钟能产生10 TB的操作信息。

其中,如果每一天有25000的航班,仅仅数据传感器和机器生产的足迹信息的数据,在横渡一次大西洋将产生几百TB的数据。

这些例子只是惊鸿一瞥,来自不同数据源的生态系统的数据集在迅速扩张。

结构化数据(例如,金融,电子医学记录,政府统计),半结构化数据(例如,文本,微博,电子邮件),非结构化(例如,音频和视频),和实时数据(如网络痕迹,一般的监测日志)。

如果有组织和适当的分析的话,所有这些应用都有可能提供宝贵的见解。

在当今广泛公认需要有效分析的大型数据集的应用程序。

这些应用包括医疗保健分析(例如,个性化基因组学),业务流程优化,和社会网络为基础的建议。

然而,预测表明数据增长将在很大程度上超过了可预见的成本改善,密度的存储技术,来处理它可用的计算能力和相关的能源熵。

例如,在2002和2009之间数据流量增长了56倍,相比,相应的计算能力的增加是16倍(主要是跟踪穆尔的法律)。

相比之下,1998至2005数据中心的规模的增长是每年173%。

这些趋势推断,大概需要13年对于计算能力的增加才能满足需求。

然而,能源效率并不是像预期在同一时间内增加25倍。

这产生几乎40倍的严重的不匹配的增加在数据分析能源足迹上。

负载特性。

大数据工作负载的全面研究,可以帮助他们理解对硬件和软件设计的影响。

由数值计算的“七个小矮人”,MEHUL,Shah等。

试图定义一组“数据小矮人”即关键数据处理内核用来提供当前和未来的数据中心的负载特性的报道。

在2010年借鉴一组广泛的负载特性,他们建立了一套分类尺寸(响应时间,访问模式,工作组,数据类型,读与写,处理复杂度),并得出结论,五个工作负载模型可以令人满意的覆盖以数据为中心的工作负载:(一)在PB级规模的分布式排序,(二)在内存中的索引搜索,(三)推荐系统,具有较高的处理负载和规则的通信模式,(四)顺序访问为基础的数据复制(五)视频上传和流交互应答率的服务器。

在联机分析处理(OLAP)的工作负载可以表示为(1)、(3)、(4)的组合、在线事务处理(OLTP)的工作量只能部分捕获,在未来可能需要另一个类别,在内存索引和查询支持捕获一些这些负载特性的方面,但工作集因为太大而不能放在内存中。

1.2. 设计考虑在未来,大的规模、范围和性质(负载特性)的大数据分析应用,能独立的分别对硬件系统,软件系统和架构设计提供有趣的见解。

对硬件的影响。

数据访问模式和访问数据的频率(冷与热数据)可以驱动未来的内存层次结构的优化:数据一般为热数据;但是随着时间的推移,它变成了归档,冷的数据,最适合存储在NVM中。

然而,有显着的例外的周期性或客户流失的访问模式(季节相关主题,名人的标题),和热庞大的数据集(比较基因组计算)应加以考虑。

此外,潜在的维度之间的相关性出现能对硬件堆栈的进行预测:一个视频,由于存在多种格式或语言字幕,结果有许多版本,这些可以离线生成和存储(因此需要足够的存储)或动态生成(代码转换和翻译调控)数据给数据中心,或是在用户的设备上(客户端计算)带来计算压力。

另外,可能要重新考虑相对优先级的进展,在处理器设计的性能的考虑在当前的子系统的I/O 之上。

存在这样一种替代的极端,一种选择将是考虑一个可能的“版本”:层次结构的计算支持数据存储的元素,而不是今天的设计存储层次结构为计算元素服务。

逐渐瓦解现有的存储层次结构的平滑过渡,这样进一步提供节省能源消耗。

了解工作负载也能在硬件识别可能会用于直接执行特殊用途处理单元。

图形处理器、现场可编程门阵列(FPGA),专业化的特定应用集成电路(ASIC),和专用的视频编码器/解码器都是值得考虑的。

这样的硬件加速器大大减少能源消耗,与通用处理相比较。

这些可以集成在芯片上,导致的以数据为中心的家族是非对称处理器。

对软件的影响。

软件系统、存储和计算的需要为了迎合一个相当大的问题:数据规模的空间、工作负载的性质和其他应用程序的需求,像一致性、可用性和分区容忍。

大数据规模需求高度可扩展的分布式存储系统能够适应大量的数据,有效率的入口和出口的机制;Apache的Flume就是这样的有利于数据收集的系统。

此外,这些存储系统应该支持高效查询的内存缓存和其他OLTP工作负载;即使HDFS 最近增加了支持缓存。

不同工作负载需求各种各样的计算特点引擎,流式处理更多的在线数据的查询与事务支持。

大数据分析通常允许对其定量的输出放宽精度约束,从而影响算法设计。

随机的算法应用原始的、昂贵的计算内核和最后牺牲精度(数据可证明的界限尺寸/精度权衡)。

能源意识到计算内核可以减少能源足迹的分析计算,同时保留性能与最小精度退化(能源/精度权衡)。

2.数据分析的硬件平台我们现在考虑当前数据分析的硬件平台,以及这些平台将来如何发展。

2.1 内存/存储在传统的系统设计,磁盘用于数据持久化和DRAM内存更快的访问/磁盘缓存。

然而传统磁盘有移动的部件,很大程度上制约了他们的一生和建立对其访问的时间界限。

另一方面,DRAM芯片需要静态刷新电路独立消费能源判断是否有数据读/写活动。

非易失性存储器(NVM)技术能解决这些缺点,并有望在未来设计发挥重大作用。

有几个以数据为中心的NVM应用程序[的建议。

基于Flash 的应用可以公开为块存储通过串行连接SCSI(SAS)和串行先进技术附件(SATA)或PCI Express接口甚至结合解散汇总内存提供降低成本效益解决方案。

其他类型的非易失性存储器如相变存储器(PCRAM)和忆阻器已提出将集成作为字节寻址的内存在芯片上的存储器总线或直接堆放(3D堆)。

非易失性存储器也可以用于实现额外的缓存层次,或更换持久存储,从而用于各级促进减缓内存崩溃的内存类型。

这些建议的共同点是稳定的转变用于持久性数据存储的内存接口,理由是性能与简化。

移动计算更接近数据也受到许多大型数据管理任务的一般结构,随后产生相关框架。

例如在经常使用的MapReduce范式中,数据被分区在可用的节点和任务计划,这样配置与数据操作的数量有关。

任务和相关数据的搭配也很注重节约能源。

最近的毫微级储存方案主张计算与持久性数据存储的搭配。

这是让人想起过去的想法,活跃存储,增强磁盘控制器处理特殊计算任务,是当时应用程序范围有限的原始提案。

从进化的角度来看,磁盘仍然具有很高的成本。

因此,他们不太可能完全被取代在之后的一段时间。

NVM技术应被视为近期未来设计的有吸引力的组成部分。

在这方面,我们还应该考虑到变化的应用将引发在总体的软件的栈的变化。

相关主题