当前位置:
文档之家› HCIE-云计算运维-云计算运维概述
HCIE-云计算运维-云计算运维概述
运维场景 - 故障处理
系统管理员 监控人员
配置告警机制
收到告警通知、 监控发现异常、 客户反馈问题
配置告警机制 检查告警列表
查看拓扑
解决问题
未解决问题 处理简单告警
派发工单 查看异常对象的
告警或性能 完成初步定位
检查告警 是否自动清除
维护人员
查看待办
查看异常 对象详情
处理告警
处理完毕 关闭工单
运维场景 - 实时监控
应用 资源池
通信 资源池
存储资源
网络资源
安全资源
云运维架构
运 维 层
服 务 域
系统资源管理 容量管理
计算 服务
存储 服务
OperationCenter 云运维管理Portal
租户资源管理
告警管理
仪表管理
运维安全
网络 服务
安全 服务
数据分析 &AI服务
性能管理 敏捷报表
辅助工具
FusionCare
ELK
运维工作内容 (3) - 设备巡检
设备类型 状态指示灯是否正常
检查项目
1、定期进行Fusion Server Tools检查健康,了解系统的运行状况; 服务器设备 2、对检查出的结果进行分析,对不合格项进行处理;同时对于所列出指标要特别关注;
3、导出检查结果,进行综合对比分析,了解指标走势,提前识别风险; 4、推荐和邮件服务器系统对接,将检查结果自动邮件发送。
每周
灾备
检查灾备平台运行状态
每周
运维工作内容 (5) - 日志和告警处理
告警等级: 一级问题:(Critical)立即处理 二级问题:(Warning)立即处理 三级问题:(Major)三天内完成 四级问题:(Information)七天内完成并清理 日志收集: VRM、CNA FusionSphere OpenStack ManageOne eSight
业务管理粗放 • 业务上线时间长达30天以上 • 无法精确匹配客户的组织和流程模型
管理成本高 • 70%的数据中心采用了3种以上的管理工具 • ቤተ መጻሕፍቲ ባይዱ理费用巨大,减缓了数据中心的建设
资源利用不合理 • 资源利用率低,存在能耗的浪费 • 无法及时识别扩容需求
运维工作的重要性
云计算是IT产业的第三次变革,带来了降本增效、弹性扩展等技 术层面的价值,所有用户的应用都运行在云计算的基础之上, 运维工作保证了用户的业务有稳定的运行环境。
状态指示灯是否正常并且呈绿色 检查网路设备的运行情况,链路状态。 1、征得客户同意后在业务量低的时候操作; 2、参照完成网络巡检,并输出巡检报告; 3、提交报告给客户,向客户提出改进建议。 UPS、市电倒换测试是否成功 负载不大于85% 查看运行日志是否有异常 输出、输入电压是否正常 电压范围是否正常 配电柜状态是否正常 环境监控采样数据是否正常 机房温度湿度是否正常 查看运行日志是否有异常 1. 备件库房环境,符合储存环境要求; 2. 备件数量,满足设备维护的需要。
G-ray
FusionNetDoctor
eSight
UpdateTool
数据库 服务
应用 服务
管理部 署服务
云通信
资
源
虚拟
池
资源池
物理 资源池
基
础
设
施
计算资源
块存储 资源池
网络 资源池
对象存储 资源池
安全 资源池
关系型 数据库
应用 资源池
通信 资源池
存储资源
网络资源
安全资源
运维对象
运维对象
基础设施
运维工作内容 (2) - 系统升级
系统升级可分为设计阶段和实施阶段。 设计阶段内容包括:升级需求分析、制定升级方案(信息收集、 Checklist编写、升级时长评估、升级方式确定、升级影响和风险 评估、详细升级步骤、升级验证方案、升级失败应急方案、升 级失败回退方案)、升级方案评审。 实施阶段内容包括:验证信息、准备升级包、Checklist验证、备 份、创建升级工程、执行升级任务、检查升级进度、提交升级 工程、清理升级数据、保存升级报告、检查升级效果、更新局 点档案信息
网络资源池 Neutron+、SDN
计算、存储、 网络、安全等
例如ECS、EVS、VPC、HWAF、RDS等
例如 CES实例、CCS实例等
OS、DB、中间件等
1. 运维背景 2. 运维角色 3. 运维工作内容 4. 故障处理
运维场景 - 角色及其职责
系统管理员
工作目标 做为超级管理员,配置系统 管理系统
深度巡检(手工执行,并在CNA或管理节点有变动时更新巡检列表)(选择收集时间段 为业务低峰进行收集)
每周
升级前检查(手工执行,可对VM的热迁移前提条件等进行检查)
事件触发
信息收集(选择收集时间段为业务低峰进行收集)
每季度
ManageOne Service Center
健康检查(手工执行)
ManageOne Operation Center
运维工作内容 (6) - 性能与容量
类别
检查项目
频率
注释
网络需求 性能基线
访问ManageOne ManageOne与下层组件及其
各组件内部通讯 eSight服务端与客户端带宽
处理器使用率 处理器队列
磁盘I/O 内存
换页空间 网络
每年复查
每年复查
每年复查
实时监控,使用OC 检查告警信息
实时监控,使用OC 检查告警信息
运维工作内容 (8) - 安全管理
检查项目
账户角色权限 定义
密码安全设置 密码存储与修
改原则 云平台接入安
全
共享账户检查
日志 入侵检测、漏
洞扫描
安全补丁更新
具体描述
必须使用最下权限使用原则,严禁对 非管理账户赋予管理员权限
检查所有密码策略设置
首次登陆系统需要修改密码;定时修 改密码
严禁将云平台管理网段地址映射至公 网,避免受到攻击
关注内容
日常监控
故障发现
风险告警
故障定界
工单派发
关注内容
故障处理
历史性能/报 表分析
风险预测
优化分析
资产管理 日常维护
运维场景 - 日常运维
每日
系统管理员 日常维护
每周
运维报表分析
监控人员
检查告警
简单问题
处理简单告警 未解决问题
派发工单
验证告警自动清除
性能/容量查看
报表导出
维护人员 查看待办 处理告警
前期准备工作
账户信息 账户管理 环境信息 维护资料准备 系统/网络信息维护 人力矩阵 健康检查 远程环境维护 备件盘点
运维工作内容 (1) - 运维工具部署
运维工具包括: 第三方工具,如:Putty、WinSCP、TeamView等 华为自研工具,如:FusionCare、ManageOne等
监控人员/维护 人员
配置实时监控视图
查看结果
导出数据
对于重要的设备或服务器,可以采用实时监控的方式以获取更及时的性能信息 使用人员也可以导出性能数据以进一步分析
运维场景 - 报表查看
监控人员 /管理员
管理员
创建周期性报表 创建一次性报表
配置报表Log 配置报表Log
选择报表类型、报表 资源、统计指标等
实时监控,使用OC 检查告警信息
实时监控,使用OC 检查告警信息
实时监控,使用OC 检查告警信息
实时监控,使用OC 检查告警信息
建议最低带宽100M,网络延时在100ms内 建议最低带宽100M,网络延时在100ms内 eSight服务器与客户端间带宽最低2M,建议10M
以上 适用于Guest OS、Host OS、Dom0/DomU 适用于Guest OS、Host OS、Dom0/DomU 适用于Guest OS、Host OS、Dom0/DomU 适用于Guest OS、Host OS、Dom0/DomU 适用于Guest OS、Host OS、Dom0/DomU 适用于Guest OS、Host OS、Dom0/DomU
系统定时生成报表 并发送到邮箱
选择报表类型、报表 资源、统计指标等
生成报表
分析数据中心整体 运行情况
运维场景 - 日志审计
安全管理员 运维主管
查看日志
正常
查看日志详情
确认问题并汇报
处理并记录和 归档相关结果
完成任务
异常
处理决策
1. 运维背景 2. 运维角色 3. 日常运维工作内容 4. 故障处理
频率 两小时
每月
两小时
每月
两小时
每月
每月 两小时 两小时 两小时 两小时 两小时 两小时 两小时 两小时
每月
运维工作内容 (4) - 云平台巡检
巡检工具
检查项目
频率
FusionCare
日常巡检(设置为定期自动执行,并在CNA或管理节点有变动时更新巡检列表)(选择 收集时间段为业务低峰进行收集)
每天
合最小权限原则 原则上不允许修改默认密码策略 禁止使用最近4次使用的密码作为新密码
发现入侵立刻处理;发现漏洞及时修复
运维工作内容 (9) - 重大活动保障
1. 运维背景 2. 运维角色 3. 日常运维工作内容 4. 故障处理
故障处理
故障处理是运维工作之一,是最重要的工作,云数据中心故 障处理具有以下特点:
健康检查(手工执行)
ManageOne Operation Center
告警检查(手工执行)
FusionSphere
OpenStack CPS 日常巡检(设置为定期自动执行,并在CNA或管理节点有变动时更新巡检列表)