1总体要求工业领域企业数据中心业务分为生产执行管控与企业经营管理,因此IT基础架构云平台承担两部分功能。
企业经营管理接入到集团公司网络,并设有因特网出口,与因特网设置隔离。
办公网的用户除了日常办公、管理业务外,还需要掌握生产执行情况,因此,生产执行管控与企业经营管理需要网络互联。
为了实现生产执行管控与企业经营管理的信息共享,需要将生产执行管控与企业经营管理进行物理或逻辑隔离,通过生产执行管控向企业经营管理单向推送信息的方式实现信息共享。
企业私有云架构数据中心方案包括云计算平台软件,虚拟化软件,容错服务器,云计算服务器,分布式存储服务器,集中式存储系统,网络与安全系统、数据灾备系统等。
2XX企业私有云数据中心方案设计:海得控制indusCloud云平台是以国际主流基础架构即服务(IaaS)技术为标准,以最具影响力的数据中心云计算软件Openstack开放源代码为核心,基于它提供的计算资源管理、存储管理、网络管理、镜像管理、认证管理、计量管理和其他模块进行一定的二次开发和功能优化而形成的。
indusCloud兼容异构虚拟化软件、服务器设备、存储设备和网络设备,同时结合存储计算融合的架构,基于分布式存储,构建一个符合主流技术的、易于扩展的、高可用的、具备国产自主可控的云计算虚拟化软件方案。
indusCloud云平台系统的总体架构将由服务器、交换机、防火墙、存储、核心的云计算管理模块、云计算服务管理模块和云计算前台组成,总体设计图如下:数据库、关键应用云计算/虚拟化管理平台云计算数据中心用户可以分为三类:a) 企业用户:从内部网络或者外网访问系统,需要提供业务的交互界面,并设置相应的网络规则和安全措施。
云平台将通过公网浮动IP 或者VLAN 子网的分配来限定内外网隔离和访问规则,同时结合防火墙规则做好防护工作。
b) 业务系统管理员:业务系统管理员需要对业务系统所需资源进行配置和操作,根据云计算的多租户原则,通过Keystone 结合已有的企业网AD 域控制器实现逻辑隔离和权限控制。
c) 云管理员:云计算平台超级管理员,负责云计算平台整体架构、用户管理、资源分配和系统运维工作,保障系统的稳定性,处理系统出现的各类问题。
2.1 云计算平台交互层:a) 二次开发接口:indusCloud 提供丰富的API 供和现有以及未来系统调用使用。
b) 自助式用户访问界面:云计算企业用户可以访问自己的应用底层操作系统,同时可以管理计算、存储和网络资源。
c)云管理员界面:提供界面和命令行两种方式供管理员进行整体云平台的资源调配、监控、用户配置、模板配置和其他操作选项。
2.2云计算平台核心层:1)indusCloud核心模块:组建软件定义数据中心的核心框架,包含经过一定优化的源Openstack云计算软件的KeyStone认证模块、Nova计算(虚拟化)、Horizon管理模块、Cinder存储管理模块、Neutron网络管理模块、Glance镜像管理模块和Heat自动化运维模块等。
2)审批流程引擎、资源监控、认证集成、安全策略,计量管理等辅助模块3)和存储集成的存储插件,整合异构存储4)和网络集成的网络驱动,整合异构网络2.3云计算平台硬件基础架构:1)服务器和虚拟化:每个物理机节点上将部署虚拟化软件,实现统一计算资源池。
2)万兆网络:组建万兆网络环境,满足分布式存储网络、计算网络和虚拟机网络需求。
3)存储虚拟化:分布式存储软件模块可以抽象底层X86服务器的硬盘资源,组成一个分布式的存储资源池,提供镜像存储和文件存储。
3系统设计方案3.1云计算管理平台设计云计算管理平台,配置经过一定优化的Openstack云计算管理软件,代号为indusCloud。
部署虚拟化管理、分布式存储管理、软件定义网络管理、数据库存储集成和资源调度等功能模块。
主要功能包括对外提供镜像服务、计算服务、存储服务、网络服务、认证用户管理服务、计量管理服务、数据库服务、消息服务等所需的云平台服务。
支持计算节点物理服务器,分布式存储服务器的部署将通过云平台的自动化功能实现;云平台集成基本的硬件监控模块。
云平台的高可用采用硬件容错服务器系统结构实现,保障所有功能模块高可靠零中断运行。
3.2虚拟化方案KVM是全球最具影响力的开放虚拟化技术,它是基于内核的虚拟化,是Linux 内核的一部分。
这个轻量级的虚拟化管理程序模块能直接与物理硬件交互,不需要修改客户虚拟机操作系统,因此性能表现更好。
升级补丁包能够和Linux内核兼容,轻松控制虚拟化进程,同时减轻管理负担。
由全球几百家IT巨头厂商组成的虚拟化联盟(OVA)一直致力于促进基于内核的虚拟机(KVM)等开放虚拟化技术的应用,因此,他是企业选择虚拟化产品方案的最佳选择。
3.3服务器设计在计算节点配置方面,主要包括如下:a) 构建统一服务器计算资源池,提升资源整合度和利用率。
用户以虚拟机操作系统获得物理资源,后台自动实现计算高可用,智能调度,管理简单。
通用X86服务器资源池搭建。
b) 为保障关键业务系统连续可用性,计算资源池中增加1-2套高可靠性的硬件容错服务器,专门用于部署具备零秒中断要求的客户机系统和核心应用。
所有的服务器需具有智能平台管理接口(IPMI)。
IPMI是一种开放标准的硬件管理接口规格,管理员可以通过通用的接口实现方便的裸机管理。
c) 合理搭配CPU/内存配比,服务器体积和功耗的平衡,推荐采用2U的机架式服务器,体积和功耗比较适合,能够适应数据中心的布局,方便后续系统扩容。
d) 充足的网络接口和带宽,配备冗余的万兆网络网卡(10Gb/s),保证平台的横向扩展性。
计算节点需要和后端集中式存储(磁盘阵列)和分布式存储连接,通过万兆以太网可以获得更高的带宽,为虚拟机和文件系统存储的I/O请求提供保证。
3.4存储系统设计整个系统将根据不同业务的特点,考虑经济性、性能可扩展性等多个方面,配备不同类型的存储:a) 虚拟机和文件系统通过分布式存储提供,采用GlusterFS存储软件技术实现高可用性、易扩展的统一存储资源池。
每个文件可以设置单个、两个或以上的副本(Replica),依据客户虚拟机和文件系统的重要性做设计,非常灵活。
b) 备份存储也采用分布式存储提供,基于X86服务器设计的分布式存储系统将提供更为良好的经济性,同时在数据可靠性也具有极高的保证。
c) 对于集中式存储(磁盘阵列)系统,将通过Cinder 驱动方式,通过万兆网络环境链接3.5高可用性方案高可用的设计要点包含云计算管理平台高可用、计算节点高可用、存储系统的高可用和网络的高可用等,最终实现虚拟机系统与客户应用的高可用性。
云计算管理平台采用硬件级容错服务器设计,集成处理器内存同步处理技术(Lock-Step)确保任何故障(甚至于瞬时故障)都能被准确检测到,包括CPU、内存,主板、磁盘、网络及电源在内的任何故障发生,系统零秒中断,无任何数据状态丢失。
从而保障云计算管理平台永远持续在线运行,系统可靠性99.999%以上。
内置Automated Uptime Laye系统软件,用于检测潜在问题,并预防中断。
持续监控500 多个系统组件和传感器状态,从而在故障对系统造成影响之前对其进行识别、处理和报告。
提供单一系统管理视图,并结合广泛的状态LED 指示灯,从而消除管理复杂性。
无论是计算还是存储系统,在发生故障的时候可以自动快速恢复。
这种分布式计算系统和存储系统设计,很容易扩展,新节点只需要简单配置,便能自动开始承载负荷,实现资源池的横向扩展。
云计算管理平台还可以根据负载进行智能分析调度,实现统一资源池中节点负载均衡,更好的利用资源。
对于大多数数据中心应用系统,通过VM HA热迁移高可用性技术,可以避免因物理机故障而导致业务中断。
通过监控主机IPMI数据,在物理机出现故障预警时动态迁移该节点上的虚拟机至健康的主机节点上。
即使是物理机奔溃,运行在上面的虚拟机迁移恢复时间也可以控制在几分钟以内,保障业务连续运行。
针对数据中心数据库系统,关键的业务应用系统。
提供最高可靠性,具备零秒切换的容错系统设计方案,可选硬件容错服务器系统或者软件定义容错系统方案。
其中软件定义的容错系统设计特征是,基于Checkpointing内存镜像技术和IO多路径转移技术,实现客户虚拟机系统在冗余的物理机节点中双活同步运行,包括芯片、内存、主板、电源在内的任何物理节点故障,虚拟机系统连续不中断运行。
可靠性99.9999%以上。
分布式存储可以实现文件的多副本保存,同一份数据在多个物理节点分散存储,单物理节点上的硬盘也通过硬件RAID做磁盘级别的防护,避免单点失效,同时分布式存储拥有智能恢复和均衡技术,在遇到故障时能够实现自动容错和负载协同。
集中式存储(磁盘阵列柜)采用双活控制器容错设计,Mirror-Cache高速缓存镜像技术,实现故障零秒切换功能。
全冗余及模块化设计,无单点故障。
所有部件如电源、风扇、控制器和硬盘支持在线不停机更换。
99.999%以上可靠性。
网络层面的高可用主要保证所有连接冗余,每个服务器配备双物理卡网络层面的高可用主要保证所有连接冗余,交换机和防火墙也配备了双活冗余,避免单点失效。
3.6安全设计要点管理平台安全、虚拟机安全、网络安全和存储安全设计如下:a) 云平台安全云平台安全将依赖OpenStack本身的安全机制。
所有的操作需要通过云平台的认证模块(Keystone)强制认证,任何API接口或者命令操作,必须通过用户本身的用户名和密码向Keystone获取安全令牌(Token)之后才能执行,Keystone 通过租户(Tenant)的隔离实现资源层面的访问隔离,通过基于角色的认证控制(RBAC)控制每个用户可以访问的资源权限。
每个计算节点的调度通过Nova Conductor协调,通过消息队列rpc.call的方式实现对控制节点信息的获取,从设计上实现了“无需直连数据库的计算节点(no-db-compute)”,nova-compute 是nova 里最不被信任的服务,避免直接访问数据库可以规避的潜在风险。
同时横向扩展更加容易,提高性能。
解耦计算节点和数据库,方便管理和升级,也便于跨计算节点的操作(如迁移等)b) 虚拟机安全虚拟镜像限定只能通过私有证书方式访问;在虚拟化层,对于存储镜像进行加密传输,保证在传输过程中的存储安全。
对于镜像文件和用户生成的数据,进行权限认证和加密,从而保障数据加密安全;对于虚拟机的网络安全方面,采用支持虚拟防火墙的设备对各个租户进行访问隔离。
并且可以在虚拟防火墙内部定义租户的规则和访问策略。
能细粒度的控制一个租户内部虚拟机的访问策略。
另外,管理员可以通过外部接入控制,有效的保证整个内部网络的安全。