Hadoop是一个能够对大量数据进行分布式处理的软件框架。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
Hadoop 还是可伸缩的,能够处理PB 级数据。
此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
云计算1.特点:超大规模、虚拟化、高可靠性、通用性、高可扩展性、按需服务2.PAAS平台即(Platform-as-a-Service:平台即服务),把服务器平台作为一种服务提供的商业模式。
通过网络进行程序提供的服务称之为SaaS(Software as a Service),而云计算时代相应的服务器平台或者开发环境作为服务进行提供就成为了PaaS(Platform as a Service)。
3.开放移动互联网应用平台(Open Mobile-Internet Platform,OMP)4.云计算概要介绍云计算是一种新兴的计算模型,在云计算环境下一切皆服务,用户按需使用服务并对其进行支付。
应用以服务的形式提供给用户:无论云提供的是应用软件,基础平台API或者是完全抽象的运算资源,这些都是整合了底层的IT资源,以服务的形式呈现给上层用户"。
云计算作为一门新兴的技术,它是在分布式计算、并行计算和网格计算基础上发展而来的。
虚拟化技术在云计算中的运用将数据中心的硬件资源虚拟化为资源池中的虚拟资源进行统一的管理和对外服务。
形成了“按需使用、按量付费”的以用户为中心,资源对用户透明的商业服务模式。
云计算(Cloud Computing)是分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
现有的云计算任务调度算法大都把研究重点放在缩短任务的最大完成时间或者是仅考虑任务的快速响应速度,对用户 QoS 需求考虑不够;从云资源服务提供者角度(系统资源角度)来看,现有的调度算法和分配策略更偏重于注重效率,对经济效益和资源利用率等方面因素的考虑不够。
云计算同时还具备良好的弹性扩展支持能力即:不能自由伸缩的系统不能称之为云"一个合符定义的云具备动态扩展的能力,无论是内容还是资源"这种扩展可能是运营商操作下的整体扩展,也可能是某一个具体应用对客户需求的自动响应"云计算的形式可主要分为以下几种:1.SaaS(软件即服务)SaaS(软件即服务),是指用户获取软件服务的一种新形式"它不需要用户将软件产品安装在自己的电脑或服务器上,而是按某种服务水平协议(SLA)直接通过网络向专门的提供商获取自己所需要的,带有相应软件功能的服务。
本质上而言,软件即服务就是软件服务提供商为满足用户某种特定需求而提供其消费的软件的计算能力。
当前,SaaS有各种典型的应用,如在线邮件服务,网络会议,网络传真,在线杀毒等各种工具型服务,还有在线CRM、在线HR、在线进销存、在线项目管理等各种管理型服务。
SaaS是未来软件业的发展趋势,目前己吸引了众多厂商的参与"不仅微软、Safesforce等各大软件巨头都推出了自己的SaaS应用,用友,金蝶等国内软件巨头也推出了自己的SaaS应用"。
2.paas(平台即服务)PaaS(平台即服务),是指将一个完整的计算机平台,包括应用设计、应用开发、应用测试和应用托管,都作为一种服务提供给客户。
在这种服务模式中,客户不需要购买硬件和软件,只需要利用PaaS平台,就能够创建、测试和部署应用和服务,与基于数据中心的平台进行软件开发相比,费用要低得多,这是PaaS的最大价值所在。
PaaS自身不仅拥有很好的市场应用前景,而且能够推进SaaS,并与其共同发展。
对于想进入SaaS领域的提供商而言,PaaS关键是降低了他们开发和提供SaaS服务的门槛,而对于已经在提供SaaS服务的提供商而言,PaaS可以帮助部分提供商进行产品多元化和产品定制化服务,让更多的ISV成为其平台的客户,从而开发出基于平台的多种SaaS应用,使其成为多元化软件服务供货商。
同时,PaaS降低了SaaS应用开发的门槛,提高了开发的效率。
3.IaaS(基础设施即服务)IaaS(基础设施即服务),是指企业或个人可以使用云计算技术来远程访问计算资源,这包括计算、存储以及应用虚拟化技术所提供的相关功能。
无论是最终用户、SaaS提供商还是PaaS提供商都可以从基础设施服务中获得应用所需的一计算.能力,但却无需对支持这一计算能力的基础IT软硬件付出相应的原始投资成本。
5.云计算研究现状随着云计算技术的不断发展,许多著名的 IT 企业纷纷加入到云计算技术及产品研究和推广的行列。
这些企业以 Google、Amazon、IBM 和 Microsoft 为代表。
下面就简单对这些公司从事的云计算研究进行介绍。
(1)Google 云计算目前,Google 处于云计算研究领先地位。
从 2003 年以来,Google 陆续发表了多篇关于分布式文件系统(GFS)、并行计算编程方式(MapReduce)、分布式大型数据管理(BigTable)和分布式资源管理(Chubby)的文章,并推出了基于这些技术的云计算服务和自己的云计算平台 Google App Engine四个相关的技术介绍如下:①GFS 首先是一个分布式文件系统,专门为大规模分布式应用数据中心所设计的它最大的特点就是可伸缩性,并且对硬件条件要求不高,在普通的硬件上就可运行提供高性能服务。
GFS 为 Google App Engine 提供海量存储,并且紧密与 Chubby、MapReduce 和 BigTable 等技术结合。
Google 公布了关于 GFS 的详尽的技术文档《The Google File System》.该文档对GFS 产生的背景、特点、系统框架、性能测试等方面进行了详细的阐述。
② MapReduce 是一个面向大规模数据集的软件架构是一种处理海量数据的并行编程模式,用于大规模数据集的并行计算。
两个核心概念“Map”与“Reduce”以及整个架构的主要设计理念,是从矢量编程语言和函数式编程语言借鉴得来。
早在1995 年,学者 John Darlington 等人首次提出了“Map”和“Fold”的概念,和现在的 Google 所使用的“Map”和“Reduce”思想比较相似。
③ Chubby也是 Google 设计的一个基于松耦合的分布式文件系统,提供粗粒度锁服务可以用来解决分布式系统中的一致性难题。
其中 GFS 使用 Chubby 来获取一个 GFS 主服务器,BigTable 使用 Chubby 指定一个主服务器并发现、控制与其相关的子表服务器。
④ Bigtable是 Google 为了处理分布在数以前千计服务器上超大规模海量数据而设计的基于分布式平台的数据存储系统。
目前 Google 的大部分项目例如:Google Finance、GoogleEarth、Web 索引使用的数据存储技术都是 Bigtable。
这些应用项目在数据存储上的要求差别很大,差别来源于数据量上的不同(从 URL 到网页到卫星图像),对于响应速度的要求不同(从后端的批量处理到实时数据服务)。
尽管项目应用要求差别巨大,但是 Bigtable 还是成功的提供了一个高性能的、灵活的解决方案。
(2) Amazon 云计算Amazon 是全球第一家大型 IT 公司把云计算和基础设施当做一种服务向用户出售。
它的云计算服务主要包括:弹性计算云 EC2、简单存储服务 S3、简单数据库服务 Simple DB、简单队列服务SQS、弹性MapReduce 服务、内容推送服务CloudFront、电子商务服务 DevPay和 FPS 等。
其中 Amazon EC2 平台是多种工具的集合,这些工具大部分位于整个系统平台的底层,涉及底层的操作系统、文件系统以及硬件基础等一些具体环境,因此要求开发人员具备较强的开发能力。
(3) IBM 云计算IBM 公司在传统超级计算机领域和商业数据计算领域处于全球领先地位,它在 2007 年11 月,推出了自己的云计算项目“蓝云”计划。
“蓝云”是多个云计算产品的总和,该计划通过构建一个分布式的可以全球访问的资源系统让数据中心可以在互联网的环境下进行计算,使得计算不再局限与本地机器和远端服务器。
目前公司发布的云服务有:Lotus SametimeUnyte, 等。
(4)Microsoft 云计算2008 年 10 月,微软的首席架构师 Ray Ozie 在全球开发者大会上发布 Azure Services Platform标志着 Microsoft 的云计算项目开始启动。
Azure Services Platform 是一个Internet 云端服务平台它是基于微软自己的数据中心的,能够为用户提供安全的实时操作系统和完善的开发服务。
当时,它是基于 Windows 架构,只允许其运行在.NET 框架下构建的应用程序。
在 2009 年召开的 Microsoft MIX09 大会上,Microsoft 发布了 Windows Azure 的最新版本,称为 March 2009 CTP(社区技术预览版)。
Microsoft 的云计算服务平台属于 PaaS 云计算模式。
目前该平台主要包括四个组件,如图 1.3 所示,各个组件都能为应用程序开发者提供一系列特定的服务和功能。
其中各个组件的介绍如下:Windows Azure:该组件是微软公司云计算技术的核心,位于整个云平台的最底层。
它其实就是一个Windows操作系统为用户提供了一个能在数据中心服务器上存储数据和运行应用程序的环境。
服务:该组件是一个基础功能模块,通过其可以为处于不同位置的应用程序提供常用的基础功能调用服务,主要是访问控制、服务总线和工作流(workflow)三种类型服务。
Microsoft SQL 服务:可以为所有的应用程序包括云端和本地应用程序提供微软自己研发的数据库 SQL Server 服务。
Live 服务:Windows Azure 上集成了 Windows Live,该组件使得用户可以在云平台上使用 Live 提供的服务。
云计算架构中国科学院软件研究所的冯登国等人畅想了未来云计算服务,认为未来云计算将形成一个以云基础设施为核心、涵盖云基础软件与平台服务与云应用服务等多个层次的巨型全球化IT 服务化网络,如图 1.5 所示6.云计算环境下任务调度策略研究现状云计算是建立在计算机界长期技术积累基础上。