集团云数据中心运维规划设计目录1前言 (2)1.1背景 (2)1.2文档目的 (2)1.3适用范围 (2)1.4参考文档 (2)2运维 (3)2.1运维现状及运维建设目标 (3)2.2集团运维整体框架 (5)2.3通过平台架构提升SLA (6)2.4集团运维岗位及运维人员建议 (7)2.5集团运维工具建设规划 (10)2.6集团运维流程建设规划 (20)2.7集团运维建设路径 (25)1前言1.1背景集团信息中心中心引入日趋成熟的云计算技术,建设面向全院及国网相关单位提供云计算服务的电力科研云,支撑全院各个单位的资源供给、数据共享、技术创新等需求。
实现云计算中心资源的统一管理及云计算服务统一提供;完成云计算中心的模块化设计,逐渐完善云运营、云管理、云运维及云安全等模块的标准化、流程化、可视化的建设;是本次咨询规划的主要考虑。
1.2文档目的本文档为集团云计算咨询项目的咨询设计方案,将作为集团信息中心云计算建设的指导性文件和依据。
1.3适用范围本文档资料主要面向负责集团信息中心云计算建设的负责人、项目经理、设计人员、维护人员、工程师等,以便通过参考本文档资料指导集团云计算数据中心的具体建设。
1.4参考文档《集团云计算咨询项目访谈纪要》《信息安全技术信息系统安全等级保护基本要求》(GB/T 22239-2008)《信息系统灾难恢复规范》(GB/T20988-2007)《OpenStack Administrator Guide》(/)《OpenStack High Availability Guide》(/)《OpenStack Operations Guide》(/)《OpenStack Architecture Design Guide》(/)2运维2.1运维现状及运维建设目标随着自动化、云计算和大数据技术逐渐推进,运维支撑应逐渐向运维一体化、操作规范化、进而往运维自动化发展、最终向运维智能化演进。
通过对集团云计算现状及各院所业务现状调研,认为集团需要建立全院统一的运维模式,分担各研究所面临的信息运维工作压力,能够将更多人力资源投入到科研工作中。
从运维常见的人员、流程、工具三个方面进行运维现状调研,并进行了分析和汇总,如下图所示:集团运维现状分析图通过调研结果分析,集团目前运维管理体系成熟度不高,需要建立科学有效的运维体系,院领导已对运维管理的规划性和流程体系的建设非常重视,并希望通过此项目在运维体系建设方面有所成果。
参考业界IT运维发展经历的四个阶段,根据集团的运维现状调研信息与运维每个阶段的特性对比,集团运维当前位于第二阶段的中级层次,即:具备有部分ITIL流程和部分系统的监控工具。
目前已具备有服务请求、问题、变更等流程,并正在使用中,相关流程的配套文档也在逐步完善。
通过与集团信息中心的沟通,将本期项目的运维目标设立为:理清云平台运维与传统运维之间的关系,建立统一的运维体系和运维标准,完善运维工具建设,通过运维提升云服务的可用性和各院所满意度。
集团运维关注焦点如下:运维方式转变:⚫由当前的被动服务方式逐步转化位未来主动防范的运维方式;运维工具建设:⚫建立统一的监控平台,实现数据中心所有资源统一监控,运维与云服务统一,运营信息和运维信息统一大屏显示;⚫构建监控告警和告警分级,运维团队能够及时掌握告警信息;⚫完成运维流程工具建设,实现核心流程电子化和自动化;运维流程梳理:⚫梳理现有流程,将云运维与现有运维流程整合,并补充和完善各种运维文档;⚫实现自助资源申请,资源开通自动化,核心运维流程电子化;运维团队建设:⚫提供运维人员岗位及技能建议,提供运维流程中的角色及职责建议。
2.2集团运维整体框架集团运维整体架构如下图所示:集团运维整体架构图集团运维整体架构采用一门户四中心加运维工具的结构,分别是:1.集团云服务门户:对普通用户而言,云服务门户提供云资源申请、运维服务请求运行状态查看等功能;对运维人员而言,云服务门户提供运维统一工作界面,查看和跟踪各种问题。
集团云服务门户是集团云计算服务的统一入口。
2.监控中心:监控中心通过与监控工具的对接和定制开发,实现监控信息汇聚,提供可视化展示、监控策略管理、统一性能管理、统一事件平台等功能。
3.运维管理中心:运维管理中心通过运维流程引擎实现运维流程管理,如:事件管理、问题管理、变更管理、知识库等功能。
4.运营管理中心:运营管理中心由云平台逐步发展而来,提供集团云服务的运营管理功能,包括:服务目录、自助服务、容量管理、计费管理等功能。
5.计量分析中心:计量分析中心获取监控中心、运维管理中心和运营管理中心的信息,进行业务运行分析、资源使用分析、容量管理分析和运行分析,产生信息中心综合报表/报告。
6.监控及配置管理工具:集团云运维底层工具包括动环监控工具、网络监控工具、云监控工具、应用监控工具和业务监控工具,所有监控工具都需要与监控中心进行对接,同时,还需要建设配置管理库(CMDB),为自动化运维构建基础。
集团运维建设工作同时从提升平台架构可靠性、运维团队建设、运维工具建设以及运维流程建设四个方面着手。
2.3通过平台架构提升SLA集团云服务工作中最紧迫的问题是将云服务达到可运营的级别,对于云服务的运营非常重要的一个指标是服务级别协议(SLA),一个稳定、可靠的云服务平台是基本的保障。
在集团云平台的架构设计中,可靠性放在首要位置,通过设计一个稳定、可靠的云服务平台实现业务的高可靠性,降低运维的难度。
平台可靠性设计请参考本文云网络、计算、存储、云平台章节内容。
2.4集团运维岗位及运维人员建议建设云平台后,与传统业务平台的维护主要差别在于多了平台层的维护,而在云硬件和云平台上承载的业务平台的维护与传统意义上的业务平台维护基本一致,因此章节重点介绍云平台层面的岗位设置及其职责分工。
在云平台运营与维护的工作主要内容包括:云资源管理、云服务管理、云统计分析、云安全管理等,详细工作内容如下图所示:云运维工作内容结构图根据上述云平台运维管理功能需求,结合我们实际工作情况,可以把这些工作归纳成如下几种维护岗位:云平台服务管理员、云平台资源管理员、云平台统计分析员、基础软件维护员、基础硬件维护员、云平台安全管理员和云平台监控管理员。
信息中心目前运维人员分布如下:应用管理处具备3名专职运维人员,负责服务器、存储、云平台的软硬件运维,信息安全处具备2名专职运维人员,负责机房、信息安全、网络的运维,另外,还有2名夜班值班人员分布在清河和昌平两个数据中心。
集团运维人员的主要瓶颈体现在以下几个方面:⚫云计算发展迅速,运维人员缺少技能提升规划⚫运维人员重复劳动多,缺少自动化工具支撑⚫夜班人员工作时间长,技术能力较低,出现问题无法及时处理,部分问题甚至还无法发现⚫信息孤岛,个别运维人员休假后无法获取信息⚫运维人员不足,工作强度大⚫运维人员缺乏相应的管理考核机制云计算运维是综合运维,涉及到基础设施、网络、云计算、虚拟化、存储、操作系统、数据库、安全、大数据等各方面,且在不断更新中,对于运维人员能力要求非常高,针对集团运维团队现状,建议集团关注运维人员能力提升,从专业技术能力、沟通与协作能力以及运维服务意识三个方面进行提升。
集团运维人员能力技能需求云计算专职运维人员建议由现在的3人增加到5人,按不同领域进行分工,并采用互备机制,同时对运维人员定制能力提升路线和考核要求,增加后人员负责工作和关系如下图所示:网络运维专职运维人员建议由现在的2人增加到4人,按不同领域进行分工,并采用互备机制,同时对运维人员定制能力提升路线和考核要求,增加后人员负责工作和关系如下图所示:集团目前的2786服务台主要用于应用服务统一接口,无法对云计算各种问题进行分流及建单工作,因此,建议增加一名云计算运维坐席;此外,夜班值班人员2人,分布在清河和昌平两个数据中心,周一至周五值夜班,周六周日值全天,已大大超出正常的工作量,因此,至少增加2名夜班值班人员交替值班,降低值班人员工作压力,使其有足够时间提升自身专业能力同时,针对运维人员能力进行分级管理,制定运维人员能力建设路线,能力分级分为:普通工程师、技术骨干、技术专家,根据运维岗位的需求指定对应级别的运维人员集团运维人员能力分级2.5集团运维工具建设规划集团在运维工具建设方面分别从监控工具、运维流程工具、运营管理工具、计量分析工具及配置管理库几个方面着手,其中监控工具是初期建设重中之重,其实是运维流程工具和运营工具,最后是计量分析工具。
监控工具建设考量:集团云平台的监控重点在资源的监控与主动故障告警,并针对网络、计算、存储、虚拟层、数据库、中间件等各系统的不同特点,制定详细完整的监控告警计划,确保云平台的高可用性。
集团云资源管理平台需要对各资源的监控将通过使用多种方式采集数据如传统的采集、SNMP采集、日志采集、Agent采集、Nagios采集等方式实现实现对服务器、中间件、数据库、应用系统的各项性能指标的监控及告警。
云计算管理平台与运维监控工具整合工作架构图如下图所示:云计算管理平台与运维监控工具整合工作架构图监控内容包括:1、平台资源及网络监控集团云资源管理平台应能够监测支撑网络全部物理设备及虚拟设备的当前实时流量、资源使用率、链路状态;对于异常情况,可以根据告警管理当中设定的监控原则及标准,进行主动告警,主要监控内容如下:1)设备管理:监控在网交换机、路由器、安全设备及虚拟设备等的设备数量、设备状态、设备标签、型号、IP地址、设备类型及资产投入使用时间;2)拓扑管理:监控网络拓扑及异常变化;3)性能管理:监控网络设备的通断、CPU、内存等性能指标4)告警监控:监控网络设备的故障,及时产生告警,包括主动轮询、设备trap上报、设备syslog上报等多种方式;5)告警可以通过邮件、短信等方式通知维护人员;2、应用监控应用层监控能够主动监测各项云应用、数据库系统运行情况,根据告警管理当中设定的监控原则及标准,进行主动告警,主要监控内容如下:1)Windows服务器监控:可监控到Windows服务器的可用性、健康状况、CPU、内存利用率等基本指标;监控磁盘利用率、网络接口、进程等扩展指标;2)Linux服务器监控:监控到Linux服务器的可用性、健康状况、CPU、内存利用率等基本指标;监控到ping测试、系统负载、文件系统利用率、进程等扩展指标;3)数据库监控:监控到数据库应用的可用性、健康状况等基本信息;监控表空间、会话等分类下的多种指标信息;4)中间件服务监控:监控到中间件服务的可用性、健康状况、性能等指标。
3、机房监控1)机房环境监控系统应达到:温度、湿度、漏水检测、氢气监控、闭路监控等测量准确,数量显示稳定;2)动力环境监控系统应达到:交流、直流等被测量准确,数据显示稳定;3)火灾自动报警系统应达到:无误告警出现,烟感告警反应时间满足要求;4)门禁监控系统应达到:门禁出现异常及时通知相应的维护人员,进行故障的判断及维修。