云计算平台详细方案设计第1章数据中心云平台设计1.1云平台总体架构设计基于当前IT基础架构的现状,未来云平台架构必将朝着开放、融合的方向演进,因此,云平台建议采用开放架构的产品。
目前,越来越多的云服务提供商开始引入Openstack,并投入大量的人力研发自己的openstack版本,如VMware、华三等,各厂商基于Openstack架构的云平台其逻辑架构都基本相同,具体参考如下:图2-1:云平台逻辑架构图从上面的云平台的逻辑架构图中可以看出,云平台大概分为三层,即物理资源池、虚拟抽象层、云服务层。
1、物理资源层物理层包括运行云所需的云数据中心机房运行环境,以及计算、存储、网络、安全等设备。
2、虚拟抽象层资源抽象与控制层通过虚拟化技术,负责对底层硬件资源进行抽象,对底层硬件故障进行屏蔽,统一调度计算、存储、网络、安全资源池。
3、云服务层云服务层是通过云平台Portal提供IAAS服务的逻辑层,用户可以按需申请相关的资源,包括:云主机、云存储、云网络、云防火墙与云负载均衡等。
基于未来云平台的发展趋势及华北油田数据中心云平台的需求,华北油田的云平台应具备异构管理能力,能够对多种虚拟化平台进行统一的管理、统一监控、统一运维,同时,云平台能够基于业务的安全需要进行安全防护,满足监控部门提出的安全等级要求。
下面是本次云平台架构的初步设计,如下图所示:图2-2:云平台总体架构图1.2资源池总体设计从云平台的总体架构可以看出,资源池是云平台的基础。
因此,在构建云平台的过程中,资源的池化迈向云的是第一步。
目前,计算资源的池化主要包括两种,一种是X86架构的虚拟化,主要的虚拟化平台包括VMware、KVM、Hyper-V等;另一种是小型机架构的虚拟化,主要的虚拟化平台为PowerVM,这里主要关注基于X86架构的虚拟化。
存储资源的池化也包括两种,一种是当前流行的基于X86服务本地磁盘实现的分布式存储技术,如VMware VSAN、华为FusionStorage、华三vStor等;另一种是基于SAN 存储实现的资源池化,实现的方式是利用存储虚拟化技术,如EMC VPLEX、华为VIS(虚拟化存储网关型)和HDS VSG1000(存储型)等。
这两种方式分别适用于不同的场景,对于普通的数据存储可以尝试使用分布式存储架构,如虚拟机文件、OLAP类数据库等,而对于关键的OLTP类数据库则建议采用基于SAN存储的架构。
网络资源池化也包括两种,一种是基于硬件一虚多技术实现的网络资源池,如华为和华三的新型的负载均衡、交换机、防火墙等设备;另一种是基于NFV技术实现的网络资源池。
这两种方式分别适用于不同的场景,对于南北向流量的网络服务建议采用基于硬件方式实现的网络资源池化,而对于东西向流量的网络服务建议采用基于NFV技术实现的网络资源池化。
图2-2-1:华北油田资源池总体设计示例1.2.1X86计算资源池设计1.2.1.1计算资源池设计服务器是云计算平台的核心之一,其承担着云计算平台的“计算”功能。
对于云计算平台上的服务器,通常都是将相同或者相似类型的服务器组合在一起,作为资源分配的母体,即所谓的服务器资源池。
在这个服务器资源池上,再通过安装虚拟化软件,使得其计算资源能以一种虚拟服务器的方式被不同的应用使用。
这里所提到的虚拟服务器,是一种逻辑概念。
对不同处理器架构的服务器以及不同的虚拟化平台软件,其实现的具体方式不同。
在x86系列的芯片上,其主要是以常规意义上的VMware虚拟机或者H3Cloud虚拟机的形式存在。
后续的方案描述中,都以H3C 虚拟化软件进行描述。
•CVK:Cloud Virtualization Kernel,虚拟化内核平台运行在基础设施层和上层操作系统之间的“元”操作系统,用于协调上层操作系统对底层硬件资源的访问,减轻软件对硬件设备以及驱动的依赖性,同时对虚拟化运行环境中的硬件兼容性、高可靠性、高可用性、可扩展性、性能优化等问题进行加固处理。
•CVM:Cloud Virtualization Manager,虚拟化管理系统主要实现对数据中心内的计算、网络和存储等硬件资源的软件虚拟化,形成虚拟资源池,对上层应用提供自动化服务。
其业务范围包括:虚拟计算、虚拟网络、虚拟存储、高可靠性(HA)、动态资源调度(DRS)、虚拟机容灾与备份、虚拟机模板管理、集群文件系统、虚拟交换机策略等。
采用购置的虚拟化软件对多台PC服务器虚拟化后,连接到共享存储,构建成虚拟化资源池,通过网络按需为用户提供计算资源服务。
同一个资源池内的虚拟机可以共享资源池内物理服务器的CPU、内存、存储、网络等资源,并可在资源池内的物理服务器上动态漂移,实现资源动态调配。
计算资源池逻辑组网架构图如下所示:计算资源池逻辑组网架构建成后的虚拟化系统,虚拟机之间安全隔离;虚拟机可以实现物理机的全部功能;兼容主要服务器厂商的主流X86服务器、主流存储阵列产品、运行在X86服务器上的主流操作系统,并支持主流应用软件的运行。
1.2.1.2资源池主机容量规划设计单台服务器所能支持虚机数量的决定因素主要取决与两方面:⏹服务器的硬件配置♦CPU性能---多核高主频技术使得CPU成为性能瓶颈的可能性越来越低♦内存大小---做为硬指标的内存,配置越高,所能支持的虚机数量越多♦网络端口---千兆网环境已很普遍,网络带宽大多有保证,更多从管理角度来考虑♦HBA卡---磁盘访问性能对虚机数量有一定影响,建议采用10G以太网或者8GbpsFC以减少链路影响♦本地磁盘---内置磁盘的可用性及IO吞吐能力均较弱,不建议在其上存放虚拟机,推荐使用外置高性能磁盘阵列⏹应用负载大小♦由于物理服务器资源自身的最大限制,应用负载越大,所能同时运行的虚机数量越少♦建议将不同应用访问特性的应用混合部署在同一物理服务器上♦灵活运用DRS和VMotion技术可将物理机与虚机的比率关系调到最优♦考虑到HA及DRS所要求的资源冗余,所有运行虚机在正常负载下,总体资源使用率不超过三分之二会比较合适在部署虚拟化时,对物理服务器的硬件配置需要考虑以下因素:♦可用的CPU目标数量尽可能多,单台服务器建议配置6个以上的CPU核。
♦超线程技术并不能提供等同于多核处理器的好处;建议关闭CPU的超线程功能♦使用具有EM64T能力的Intel VT 或AMD V 技术的CPU可以同时支持运行32位和64位的虚拟机♦采用同一厂商、同一产品家族和同一代处理器的服务器组成的集群,可以获得最好的虚拟机迁移兼容能力♦内存资源往往比CPU资源更会成为潜在的瓶颈,尽可能采用最大容量的内存条(单条8GB效果优于两条4GB)。
下表给出了部署虚拟化时的服务器建议配置:⏹虚拟机资源分配设计1.虚拟机CPU分配原则:♦尽量使用最少的vCPUs,如果是单线程应用,无需多线程处理。
♦虚拟CPU数量不要等于或超过物理CPU核数,如双路双核的服务器配置,虚机最多使用两个虚拟CPU2.内存分配原则:♦内存总量为在资源评估后,计算虚拟机评估结果所需实际内存尽量避免大于物理内存的总和。
因为应用程序而产生的更多内存需要用磁盘内存来解决,会导致系统性能下降。
如需要P2V迁移,在进行虚拟化迁移之前,应对每个应用系统虚拟化迁移后所需的虚拟计算进行合理的评估和计算,以确保迁移后应用系统的可用性、可靠性和各项性能指标可满足业务目标。
虚拟资源计算的原则是,如果客户希望业务系统迁移后,业务系统能够保持与原系统一致的体验,我们建议虚拟机的计算能力与原物理服务器的计算能力保持一致;如果客户希望通过P2V的迁移,提高资源的利用率,我们建议虚拟机的计算能力可以相比原先进行一定程度的压缩,具体的压缩计算方式如下图所示。
1.2.1.3高可用保障主机高可用H3C CAS虚拟化平台HA功能会监控该集群下所有的主机和物理主机内运行的虚拟主机。
当物理主机发生故障,出现宕机时,HA功能组件会立即响应并在集群内另一台主机上重启该物理主机内运行的虚拟机。
当某一虚拟服务器发生故障时,HA功能也会自动的将该虚拟机重新启动来恢复中断的业务。
除了对集群中的物理服务器节点进行持续检测之外,H3C CAS HA软件模块还对运行于物理服务器节点之上的虚拟机进行持续检测。
在每台服务器节点上都运行了一个LRMd(Local Resource Manager daemon,本地资源管理器守护进程),它是HA软件模块中直接操作所管理的各种资源的一个子模块,负责对本地的虚拟化资源进行状态检测,并通过shell脚本调用方式实现对资源的各种操作。
当LRMd守护进程检测到本机的某台虚拟机出现通信故障时,首先将事件通知给DC,由DC统一将该虚拟机状态告知集群内所有的物理服务器节点,并按照一定的策略算法,为该故障的虚拟机选择一个空闲的服务器节点,在该节点上重启该虚拟机。
操作系统蓝屏高可用蓝屏又称之为蓝屏死机(Blue Screen of Death,BSoD),是微软Windows操作系统无法从一个系统错误中恢复时,为保护计算机数据文件不被破坏而强制显示的屏幕图像。
从专业的角度来讲,蓝屏被定义为“当微软Windows操作系统由于出现灾难性错误或者内部条件阻止系统继续运行而显示的蓝色屏幕”。
Linux类型操作系统没有蓝屏的概念,与之对应的称之为内核崩溃(Kernel Panic),此时,可能会在终端输出内核栈,如果Linux操作系统开启了Core Dump选项,则会产生Core 文件。
H3C CAS CVK虚拟化内核系统支持虚拟机蓝屏(Windows)和崩溃(Linux)的故障检测及HA处理,前提条件是在虚拟机操作系统上必须安装CAStools工具,该工具的目的是通过虚拟串口通道保持与H3C CAS CVK虚拟化内核系统的实时通信,判定虚拟机的存活状态,如果在3个时间周期(一个周期为30秒)内没有接收到操作系统CAStools的应答,则通过探测虚拟机磁盘I/O读写来进一步判定虚拟机的存活状态,如果在6个时间周期(一个周期为30秒)内没有探测到虚拟机磁盘I/O读写活动,则判定虚拟机操作系统蓝屏。
当确定虚拟机出现蓝屏之后,有三种HA处理方式,可由系统管理员在H3C CAS CVM虚拟化管理平台上配置:(1)不处理:即使检测到虚拟机蓝屏故障,也不会做任何处理(默认配置)。
(2)故障重启:将蓝屏后的虚拟机在本地物理主机上重新启动。
(3)故障迁移:将蓝屏后的虚拟机迁移到集群内其它正常工作的物理主机上。
应用高可用应用HA是指运行于虚拟机操作系统内的业务系统的高可靠性,当业务系统由于自身原因导致无法对外正常提供服务时,可以借助应用HA功能,以最短的时间自动恢复业务。
企业级业务系统一般都以进程服务的方式驻留在操作系统内,H3C CAS CVM虚拟化管理平台利用CAStools工具来监控业务服务进程的状态,该工具安装在虚拟机操作系统上,通过虚拟串口通道保持与H3C CAS CVM虚拟化管理平台的实时通信,判定业务的存活状态。