从整体来看,Google的云计算平台包括了如下的技术层次。
●网络系统:包括外部网络(Exterior Network) ,这个外部网络并不是指运营商自己的骨干网,也是指在Google 云计算服务器中心以外,由Google 自己搭建的由于不同地区/国家,不同应用之间的负载平衡的数据交换网络。
内部网络(Interior Network),连接各个Google自建的数据中心之间的网络系统。
●硬件系统:从层次上来看,包括单个服务器、整合了多服务器机架和存放、连接各个服务器机架的数据中心(IDC)。
●软件系统:包括每个服务器上面的安装的单机的操作系统经过修改过的Redhat Linux。
Google 云计算底层软件系统(文件系统GFS、并行计算处理算法Mapreduce、并行数据库Bigtable,并行锁服务Chubby Lock,云计算消息队列GWQ)●Google 内部使用的软件开发工具Python、Java、C++ 等●Google 自己开发的应用软件Google Search 、Google Email 、Google Earth外部网络系统介绍当一个互联网用户输入的时候,这个URL请求就会发到Google DNS 解析服务器当中去,Google 的DNS 服务器会根据用户自身的IP 地址来判断,这个用户请求是来自哪个国家、哪个地区。
根据不同用户的IP地址信息,解析到不同的Google的数据中心。
进入第一道防火墙,这次防火墙主要是根据不同端口来判断应用,过滤相应的流量。
如果仅仅接受浏览器应用的访问,一般只会开放80 端口http,和443 端口https (通过SSL加密)。
将其他的来自互联网上的非Ipv4 /V6 非80/443 端口的请求都放弃,避免遭受互联网上大量的DOS 攻击。
在大量的web 应用服务器群(Web Server Farm)前,Google使用反向代理(Reverse Proxy)的技术。
反向代理(Reverse Proxy)方式是指以代理服务器来接受internet 上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给Internet 上请求连接的客户端,此时代理服务器对外就表现为一个服务器。
Google 使用的是Squid Cache的软件方式来实现反向代理应用的,Squid Cache是一个流行的自由软件(GNU 通用公共许可证)的代理服务器和Web 缓存服务器。
Squid 有广泛的用途,从作为网页服务器的前置cache服务器缓存相关请求来提高Web 服务器的速度。
在Google web 应用服务器需要调用Google内部存储的信息和资源的时候,在通过一个防火墙进入内部的网络,来访问其他的基于自身GFS II 系统的应用服务和数据库。
内部网络架构介绍Google 自己已经建设了跨国的光纤网络,连接跨地区、跨国家的高速光纤网络。
内部网络已经都是IPv6 的协议在运行。
网络中的路由交换设备主要还是来自Juniper、Cisco、Foundry、HP这四家公司。
内部网关协议(IRP)是基于OSPF(开放式最短路径优先)进行修改的。
在每个服务器机架内部连接每台服务器之间网络是100M以太网,在服务器机架之间连接的网络是1000M以太网。
在每个服务器机架内,通过IP虚拟服务器(IP Virtual Server)的方式实现传输层负载Linux内核内的平衡,这个就是所谓四层LAN 交换。
IPVS使一个服务器机架中的众多服务成为基于Linux 内核虚拟服务器。
这就像在一堆服务器前安装一个负载均衡的服务器一样。
当TCP/UDP 的请求过来后,使一群服务器可以使用一个单一的IP 地址来对外提供相关的服务支撑。
大规模IDC部署战略Google 应该是目前世界上存储信息最多的企业了。
而且还在一直不断的致力于将传统信息尽可能地数字化。
将这样海量的信息进行存储、进行处理。
就需要大量的计算机服务器。
为了满足不断增长的计算需求。
Google 很早就进行了全球的数据中心的布局。
由于数据中心运行后,面临的几个关键问题的就是充足电力供应、大量服务器运行后的降温排热和足够的网络带宽支持。
所以Google 在进行数据中心布局的时候,就是根据互联网骨干带宽和电力网的核心节点进行部署的,尽快考虑在河边和海边,想办法通过引入自然水流的方式来降低降温排热的成本。
Dalles是美国俄勒冈州北部哥伦比亚河( Columbia River)岸上的一个城市,Google在Dalles 的边上拥有的30英亩土地,他们在这里建立了几乎是世界上最大,性能最好的数据中心。
四个装备有巨大空调设施的仓库内,放置着数万台Internet 服务器,这些服务器每天处理着数十亿条Google网站传递给世界各个角落的用户的数据。
图表 1 Google在Dalles的数据中心这个数据中心占用了附近一个180万千瓦水力发电站的大部分电力输出。
对比来看目前中国长江三峡水电站的额定功率是1820万千瓦。
目前 Google 已经在全球运行了38 个大型的IDC 中心,超过300 多个GFSII 服务器集群,超过80万台计算机。
从服务器集群部署的数量来看美国本地的数量第一,欧洲地区第二,亚洲地区第三,在南美地区和俄罗斯各有一个IDC 数据中心。
在中国的北京和香港,Google也建设了自己的IDC中心,并部署了自己的服务器农场。
其中目前还在进行建设的第38 个IDC 是在奥地利的林茨市(Linz)附近的Kronstorf 村。
未来,Google 还准备在中国台湾地区、马来西亚、立陶宛等地区来进行部署。
从目前的Google 数据中心部署的情况来看,中东和非洲地区目前Google还没有建设计划。
图表 2 Google 的IDC 中心/服务器农场(Google Server Farm)的全球分布图Google 自己设计了创新的集装箱服务器,数据中心以货柜为单位,标准Google模块化集装箱装有30个的机架,1160台服务器,每台服务器的功耗是250KW。
(Google 2009 年公布的信息)。
这种标准的集装箱式的服务器部署和安装策略可以使Google非常快速地部署一个超大型的数据中心。
大大降低了对于机房基建的需求。
图表 3 Google 模块化集装箱的设计示意图。
自己设计的服务器机架架构Google 的服务器机架有两种规格40U/80U的。
这主要是因为原来每个服务器刀片是1U高,新的服务器刀片都是2U高的。
据说Google后期使用的服务器主板是台湾技嘉,服务器主板可以直接插入到服务器机架中。
图表 4 Google 服务器机架及主板自己设计的PC服务器刀片绝大部分企业都会跟诸如戴尔、惠普、IBM 或Sun 购买服务器。
不过Google 所拥有的八十万台服务器都是自己设计打造来的,Google 认为这是公司的核心技术之一。
Google 的硬件设计人员都是直接和芯片厂商和主板厂商协作工作的。
2009年,Google开始大量使用2U高的低成本解决方案。
标准配置是双核双通道CPU,据说有Intel 的,也有AMD 的在使用。
8 个2GB 的DDR3,支持ECC 容错的高速内存,采用RAID 1 的磁盘镜像,来提升I/O 效率。
磁盘采用SATA,单机存储容量可以达到1-2TB。
每个服务器刀片自带12V 的电池来保证在短期没有外部电源的时候可以保持服务器刀片正常运行。
Google 的硬件设计人员认为,这个自带电池的方式,要比传统的使用UPS 的方式效率更高。
一般数据中心多倚赖称为不间断电源系统(UPS)的大型中控机型,这基本上算是大电池,会在主电力失效而发电机还来不及启动时,暂时协助供电。
Google 的硬件设计人员表示,直接把电力内建到服务器比较便宜,而且成本能直接跟服务器数量相符合。
“这种作法比使用大型UPS 节省得多,如此也不会浪费多余的容量。
”效率也是另一个财务考量因素。
大型UPS 可达92-95%的效率,这意味着许多电力还是被浪费掉了。
但Google采用的内建电池作法却好很多,Google相关人员表示,“我们测量的结果是效率超过99.9% 。
图表 5内建电池的服务器刀片操作系统与云计算文件系统GFS/GFSIIGoogle服务器使用的操作系统是基于Redhat Linux2.6 的内核,并做了大量修改。
修改了GNU C 函数库(glibc),远程过程调用(RPC),开发了自己的Ipvs,自己修改了文件系统,形成了自己的GFSII,修改了linux 内核和相关的子系统,使其支持IPV6。
采用了Python 来作为主要的脚本语言。
Google文件系统中最基础的模块是GFSII cell。
任何文件和数据都可以利用这种底层模块。
GFSII 通过基于Linux 分布存储的方式,对于服务器来说,分成了主服务器(Master Servers)和块存储服务器(Chunk Servers),GFS上的块存储服务器上的存储空间以64MB为单位,分成很多的存储块,由主服务器来进行存储内容的调度和分配。
每一份数据都是一式三份的方式,将同样的数据分布存储在不同的服务器集群中,以保证数据的安全性和吞吐的效率提高。
当需要对于文件、数据进行存储的时候,应用程序之间将需求发给主服务器,主服务器根据所管理的块存储服务器的情况,将需要存储的内容进行分配,并将可以存储的消息(使用那些块存储服务器,那些地址空间),由应用程序下面的GFS 接口在对文件和数据直接存储到相应的块存储服务器当中。
图表 6 GFS架构块存储服务器要定时通过心跳信号的方式告知主服务器,目前自己的状况,一旦心跳信号出了问题,主服务器会自动将有问题的块存储服务器的相关内容进行复制。
以保证数据的安全性。
数据被存储时是经过压缩的。
采用的BMDiff 和Zippy 算法。
BMDiff 使用最长公共子序列进行压缩, 压缩100MB/s, 解压缩约1000MB/s.类似的有IBM Hash Suffix Array DeltaCompression.Zippy 是LZW 的改进版本, 压缩比不如LZW, 但是速度更快。
并行计算架构–Mapreduce有了强大的分布式文件系统,Google 遇到的问题就是怎么才能让公司所有的程序员都学会些分布式计算的程序呢?于是,那些Google 工程师们从lisp 和其他函数式编程语言中的映射和化简操作中得到灵感,搞出了Map/Reduce 这一套并行计算的框架。
Map/Reduce被Google 拿来重新了Google Search Engine的整个索引系统。
而Doug Cutting同样用Java 将这一套实现和HDFS 合在一起成为Hadoop 的Core。