4.开源云计算系统简介
--开源云管理软件,可以创建管理资源并且可以按需扩展 。该工具能够以快速、简单和可扩展的方式创建和管理大 型、复杂的IT基础设施(包括虚拟服务器、网络、应用和 存储设备等)。
优势:
--强大的Web管理界面
版本:
--社区版、企业版、ISP版
29
abiCloud的基本架构
30
MongoDB
目标:
子服务器管理模式差异
• GFS:Chunk Server在Chubby中获取独占锁表示其生存状态 ,Master通过轮询这些独占锁获知Chunk Server的生存状态 • HDFS:DataNode通过心跳的方式告知NameNode其生存状 态 • GFS中,Master损坏时,替补服务器可以快速获知Chunk Server的状态 • HDFS中,NameNode损坏后,NameNode恢复时需要花费一 段时间获知DataNode的状态 • 在添加数据存储节点时,GFS的伸缩性较HDFS要好 • 原因:Hadoop缺乏分布式锁服务
Google云计算
MapRedu ce
BigTable Chub by
3
GFS
Hadoop项目简介
HDFS为了做到可靠性(reliability)创建了多份数据块( data blocks)的复制(replicas),并将它们放置在服务器 群的计算节点中(compute nodes),MapReduce就可以在它 们所在的节点上处理这些数据了。
9
Hadoop VS. Google
HDFS与GFS比较 中心服务器模式的差异
• GFS:多台物理服务器,选择一台对外服务,损坏 时可选择另外一台提供服务 • HDFS:单一中心服务器模式,存在单点故障 • 原因:Hadoop缺少分布式锁服务
10
Hadoop VS. Google
HDFS与GFS比较
对应的商用云计算系统 Google GFS
Google MapReduce Google Bigtable Google Chubby Amazon EC2 Amazon S3 无直接对应系统 无直接对应系统 无直接对应系统
2
Hadoop项目简介
Apache的解决方案 GFS-->HDFS MapReduce-->Hadoop BigTable-->HBase
--构建一个基于分布式文件存储系统的数据库
实现语言:C++ 平台:Linux
31
MongoDB的基本架构
数据中心A 服务器 服务器 服务器 服务器 服务器 服务器 数据分片1 数据分片2 复制
数据中心B 服务器 服务器 服务器 服务器 服务器 服务器 数据分片1 数据分片2
32
MongoDB的优势
22
Nimbus基本概念
标准客户端(reference client):
--以命令行的方式访问服务,全面支持WSRF前台的各种特 性
WSRF(Web Services Resource Framework):
--即Web服务资源框架
RM API(Resource Management API):
--虚拟网络接口:公共接口,私有接口 --通信隔离:用虚拟局域网(VLAN)给属于特定用户的实 例集打上网络标签
21
Nimbus
Nimbus: --基于网格中间件Globus,从最早的Virtual Workspace
演化而来,提供与EC2类似的功能和接口
--Nimbus是一个开源的工具集,它可以把集群部署到IaaS 云中
安全服务器 SSL
主服务器 SSL
客户端
数据
从服务器
26
Sphere数据处理流程
当主服务器接收到Sphere数据处理的客户端请求, 主服务器向客户端发送一个可用的从节点列表 客户端选择一些或者所有从节点,让SPE在其上运 行 客户端与SPE建立UDT连接 流处理函数被发送给每个SPE,并储存在从节点上 SPE打开动态库并获得各种处理函数
开源云计算系统简介
主讲:李建伟 E-mail: jwli321@
1
现有开源云计算系统
开源云计算系统 Hadoop HDFS
Hadoop MapReduce Hadoop HBase Hadoop ZooKeeper Eucalyptus、Enomaly ECP、 Nimbus Eucalyptus Sector and Sphere abiquo MongoDB
4
HDFS体系结构
NameNodeMaster DataNodeChunksever
5
HDFS关键运行机制 --保障可靠性的措施
一个名字节点和多个数据节点 数据复制(冗余机制)
--存放的位置(机架感知策略)
故障检测
--数据节点 心跳包(检测是否宕机) 块报告(安全模式下检测) 数据完整性检测(校验和比较) --名字节点(日志文件,镜像文件)
功能: --帮助用户完成对各种基于物理设施的虚拟设备的全局
性掌控,完成对整个集群的计算能力进行动态配置。
15
Eucalyptus的设计背景
• 开发目的:
--为研究者提供模块化的试验平台
• 设计原则
--Eucalyptus必须能够在不受其设计者操控的软硬件环境中 进行部署和执行。 --Eucalyptus 必须是模块化的,以便不同的研究者进行升 级、改造和替换,同时能够实现最大程度的可扩展性。
8
Hadoop VS. Google
技术架构的比较 数据结构化管理组件:Hbase→BigTable 并行计算模型:MapReduce→MapReduce 分布式文件系统:HDFS→GFS Hadoop缺少分布式锁服务Chubby
Hadoop云计算应用 HBase MapRedu ce HDFS Google云计算应用 BigTabl e MapRedu ce GFS Chubb y
27
Sphere数据处理模型
具体应用 Sphere客户端 数据分割 n+m SPE定位 及调度 结果汇总
...
n+3 n+2 n+1
n 输入流
SPE SPE SPE SPE
n+3 n+2 n+1
n
...
n-k 输出流
28
abiquo
三部分: abiCloud、abiNtense和abiData abiCloud
--即资源管理接口
工作区(workspace):
--实际上就是一个计算节点
23
Nimbus基本架构
相关客户端
相关代理
工作区 资源管理器 工作区服务 工作区 控制器 工作区 指示器 1aaS 网关 EC2 其它
云客户端 WSRF 标准客户端 EC2客户端 EC2 WSDL
RM API
24
Sector and Sphere
均衡性
memcached 键/值 存储 可扩展性及 性能 RDBMS MongoDB
功能
33
内容回顾
几套开源方案:
--Hadoop、Eucalyptus、Nimbus、Sector and Sphere、 abiquo、MongoDB
主要内容:
--目标、平台、实现语言、基本架构
34
结束
35
空间回收机制
6
HDFS关键运行机制 --写文件流程
客户端缓存 流水线复制 并发写控制 流程:
1.客户端把数据缓存到本地临时文件夹 2.临时文件夹数据超过64M,客户端联系NameNode, NameNode分配 DataNode,DataNode依照客户端的位置被排列成一个有着最近物理距 离和最小的序列 3.与序列的第一个数据服务器建立Socket连接,发送请求头,然后等待 回应,依次下传,客户端得到回包,流水线建立成功, 4. 正式发送数据,以4K为大小传送
节点 控制器 节点 控制器 节点 控制器
节点 控制器 节点 控制器 节点 控制器
节点 控制器 节点 控制器 节点 控制器
节点 控制器 节点 控制器 节点 控制器
节点 控制器 节点 控制器 节点 控制器
18
主要构件
云控制器
--系统的中枢神经,它是用户的可见入口点和做出全局决 定的组件。负责处理由用户或系统管理员发出的请求,做 出高层的虚拟机实例调度决定
7
HDFS关键运行机制 --读文件流程
客户端联系NameNode,得到所有数据块信息,以及 数据块对应的所有数据服务器的位置信息 尝试从某个数据块对应的一组数据服务器中选出 一个,进行连接(选取算法未加入相对位置的考 虑) 数据被一个包一个包发送回客户端,等到整个数 据块的数据都被读取完了,就会断开此链接,尝 试连接下一个数据块对应的数据服务器,整个流 程,依次如此反复,直到所有想读的都读取完了 为止
集群控制器
--负责收集节点的状态信息、调度虚拟机实例执行请求、 配置实例网络。运行在集群的头节点或服务器上。
节点控制器
--负责管理一个物理节点,运行在虚拟机寄宿的物理资源 上,负责启动、检查、关闭和清除虚拟机实例等工作。
19
访问接口
客户端接口
--实质上是Eucalyptus内部系统接口和外部定义的客户端 接口之间的转换器。
11
Hadoop VS. Google
HDFS与GFS比较 HDFS具备安全模式
• 获知数据块副本状态,若副本不足,则拷贝副本至 安全数目(如3个)
GFS不具备安全模式
• 副本损坏处理:API读取副本失败时,Master负责 发起拷贝任务
12
Hadoop VS. Google
HDFS与GFS比较 HDFS具备空间回收机制