当前位置:文档之家› 华为云HCIP-第七章 云数据中心运维及故障处理

华为云HCIP-第七章 云数据中心运维及故障处理

权限管理
▪ 单点登录 ▪ 分权分域管理 ▪ 角色管理 ▪ 密码复杂度管理 ▪ 用户管理
运维管理(2)
FusionSphere SOI
▪ 资源管理
FC
▪ FusionCompute (FC) 维护Portal
FusionCare
▪ 健康检查 ▪ 信息收集
3
2
4
系统正常运行
1
5
UpdateTool
▪ 升级 ▪ 打补丁
VNC登录正常, 但用户无法登录?


VNC登录正常,用户虚拟机无 响应
在Portal查看虚拟机IP是否分 配正常
是否上报主机存 储链路中断告警?


业务接入交换机异常? 业务接入交换机故障点
按照告警帮助处理
是否存储接入 交换机故障?


存储接入交换机故障点
存储设备故障?
存储SAN设备故障点
大面积用户虚拟机无法访问(4)
影响:恢复过程中会停止VRM进程 ,将无法登录操作 FC。但客户虚拟机正常运行
日志管理
操作日志 运行日志
目的:审计 在FM和FC上分别操作各自的日志 过滤查询 导出 日志级别:高危、危险、一般、提示 目的:系统问题定位。故障定位时收集。 收集的节点:FM(UHM), VRM, CNA 收集工具:FusionCare
权限管理
添加用户到域
用户属于某个角色
分域管理
角色管理
密码配置
创建域 删除域 添加用户到域 移除用户 配置权限
创建角色 修改角色 删除角色
配置密码策略
用户管理
创建用户 修改用户 删除用户 锁定/解锁用户 重置密码
基于角色、分权分域的用户集中访问控制
1. 运维管理 2. 运维工具
常见原因一 存储故障,虚拟机卡死无法访问 判断
步骤 1登录FC Portal,检查虚拟机状态是否为“运行”。如果是运行态通过VNC登录,部分故障无 法访问的用户虚拟机,查看是否处于卡死状态(无法操作或操作无反应等)
步骤 2检查FC是否有存储相关的告警 步骤 3检查SAN设备的运维系统是否有状态异常告警 步骤 4检测存储接入交换机状态是否正常(包括主机侧和存储SAN设备侧) 步骤 5通过告警处理恢复(如果IP SAN设备掉电则对IP SAN设备上电) ,恢复成功后观察虚拟机
FM
▪ 集中管理
FusionManager(FM):主要维护入口,提供运维功能。集中管理 FusionSphere的 所有产品 FM/FC
系统监控(1)
性能监控:监控FusionSphere的硬件和软件性能,例如CPU使用率 历史数据查询:按周、月、年及自定义时段查询性能监控结果 统计:进行TOP统计 报表:系统报表、自定义报表、下载报表、启用和禁用报表
故障分析
影响范围、程度:业务完全中断,严重。属于重大故障 预期恢复时长:30分钟 日志收集要求:立即开始收集日志,如果10分钟不能收集全,则立即启动
恢复操作
大面积用户虚拟机无法访问(2)
故障处理思路
故障恢复中
判断虚拟机状态? 运行中
主机心跳异常? 管理接入交换机异常? 大面积主机状态异常故障点▪ 告警查看 ▪ 告警处理源自机帮助 ▪ 告警阈值配置 ▪ 告警通知
系统监控
▪ 设备指标监控 ▪ 虚拟机监控 ▪ 性能统计
备份恢复
▪ 自动备份 ▪ 手动备份 ▪ 手动恢复
3
2
4
高效运维
1
5
▪ 集中统一管理 ▪ 快速定位问题 ▪ 快速恢复业务
日志管理
▪ 日志查看 ▪ 日志导出 ▪ 日志安全审计 ▪ 日志定位
1. 运维管理 2. 运维工具 3. 故障处理
3.1 故障处理流程 3.2 应急预案 3.3 故障处理案例
重大事故界定
重大事故
指发生突然、影响面广、涉及范围大、并可对网络的安全运行与服务质 量造成严重后果的设备或网络事故
包括双节点故障、机柜异常掉电等
应急预案
在系统或设备发生紧急事故的情况下,为迅速排除故障、恢复系统或设 备的正常运行,从而尽量挽回或减少事故损失而对设备进行的一种故障 处理行为
告警管理
备份与恢复(1)
备份对象 FM 对各部件的管理节点数据进行备份:FM、FC和VSAM,需要配置 FTP 服务器,若无FTP, 则仅做本地备份
自动备份 备份时间:每天凌晨02:00 默认保留7个备份(包括自动和手工备份)
手工备份 场景:对系统进行重大操作前,例如升级、重大数据调整等,通过FusionManager备份管 理节点数据 目的:保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响 降到最低 备份时间:建议在业务量小的时间段执行备份数据操作 备份数据保存到:本地和FTP 操作入口:FusionManager:系统->备份设定
三条军规: 第一时间恢复业务 问题未定位清楚前,不改动现网配置 避免处理不当导致问题扩大(对于关键操作要谨慎,知会客户)
1. 运维管理 2. 运维工具 3. 故障处理
3.1 故障处理流程 3.2 应急预案 3.3 故障处理案例
大面积用户虚拟机无法访问(1)
故障现象
大面积用户虚拟机无法访问
导出工具日志
UpdateTool(1)
对系统要求: 操作系统要求:Windows XP、Windows 7、Windows 2003、Windows 2008和
Windows 2012的32位或者64位操作系统 软件要求:winrar解压软件;IE8+、Chrome18.0及以上、火狐8.0及以上版本浏览器 端口限制:工具安装的客户机端口7173、7184、7195、7236未被占用 权限要求:安装升级工具的用户需要在Windows系统下具有安装服务、启动服务、
升级准备
软件包和参考文档 局点信息收集
UpdateTool(3)
新建工程 分发软件包 升级检查
升级 提交工程
回退
升级报告 日志导出
为当前升级工作创建一个工程,保存当前系统节点升级配置信息
分发升级/补丁软件包至待升级节点
检查各个节点是否满足升级条件 执行升级操作 提交的节点将执行清理操作,例如删除软件包、释放资源 本操作执行后,提交成功的节点不能执行回退操作 如果节点升级失败,可以对节点进行“回退”操作 回退成功,排除升级失败原因后,可以重新发起“升级” 升级完成后导出升级报告 用于升级失败时的问题定位,含升级工具和管理节点的日志
信息收集
收集日志,包括操作系统、模块、脚本等 需要配置Ftp服务
FusionCare(2)
安装
配置 健康检查 信息收集
其他
支持 OS:Win7、Windows2003、windows2008的32/64位、Linux Windows 下,本工具为绿色安装 建议工具安装目录剩余空间不少于5G 所使用端口不能被占用或禁用 添加环境:FM, FC, OpenStack 添加节点:主机节点通过VRM节点自动获取,无需添加 导出/导入配置信息 选择节点,选择检查项,邮件配置,并执行检查 查看结果: 故障详情、节点详情、处理建议 导出健康检查报告 FTP密码修改 选择节点,选择收集项,并执行收集 查看结果:节点、节点类型、收集项和收集结果
FC手工恢复 在FC上执行命令:
restoreGeData -t DATA -f /home/GalaX8800/YYYY-MM-DD_sn/DATA/ [备份文件名] 高斯DB: restoreGeData -t DB -f /home/GalaX8800/YYYY-MM-DD_sn/DB/ [备份文件名]
2.1 FusionSphere SOI(仅配套FusionCompute) 2.2 FusionCare 2.3 UpdateTool
3. 故障处理
FusionSphere SOI(1)
FusionSphere SOI(System Operation Insight系统运行洞察)对FusionSphere 资源情况进行全面可视化和动态分析,是 FM/FC 的增强
业务是否能够访问
恢复操作
步骤 1根据相关存储告警处理 步骤 2存储产品掉电问题,上电后并观察业务是否恢复 步骤 3存储硬件设备故障,请更换故障设备
大面积用户虚拟机无法访问(4)
1. 运维管理 2. 运维工具 3. 故障处理
3.1 故障处理流程 3.2 应急预案 3.3 故障处理案例
故障处理流程
信息收集
使用 FM/FC/FusionCare收集信息
故障判断 故障定位
故障排除
根据收集的信息对故障范围和类型进行判断
查看告警、配置、日志,进行故障定位
通过查询设备状态、查看设备指示灯和告警等 方法确认系统已正常运行
应急处理原则
快速恢复原则:应综合考虑相应操作恢复业务成功的可能性和时间代价。参考的操作排序如下 :耗时短,成功性大 -> 耗时短,成功性小 -> 耗时长,成功性大
重大事故处理原则 以快速恢复设备的正常运行与业务的提供为核心 以客户业务尽快恢复,对客户影响最低为原则 维护人员在上岗前必须接受必要的应急处理培训 在重大事故的处理过程中,维护人员应及时联系华为公司客户服务中心或华为公司驻当地 办事处 当维护人员完成重大事故的处理以后,应及时采集与本次事故有关的设备故障告警信息, 并将相关的事故处理报告、设备告警文件、日志文件等发送给华为公司进行分析与定位
SOI 支持部署在虚拟机上 健康:负载是否正常,包括CPU、内存、磁盘和网络IO 风险:系统资源是否充裕 效率:是否存在优化机会
FusionSphere SOI(2)
全局监控:系统首页呈现全局环境运行状态 查看详情:健康得分、节点规格、历史分析 失衡详情:工作负载详情,支持导出 趋势预测:未来的资源需求和使用情况 资源合规:快速找到容量不足和容量过剩的节点 热点统计:TOP对象的情况和数据,例如哪些主机CPU负载最高 导出批量数据:1分钟粒度一周,包括CPU/内存/存储IO/磁盘IO 设置分析阈值:对分析的各种选项和阈值灵活修改定制
相关主题