当前位置:
文档之家› FusionCompute运维故障处理指南
FusionCompute运维故障处理指南
第11页
主机故障案例-添加主机失败
收集 • 在FusionCompute界面上添加主机失败 信息
定位 故障
• VRM与CNA节点网络链路不通
• 添加主机失败后,主机上可能残留网络配置数据,导致再次添加主机 失败
排除
• 检查VRM与故障CNA节点网络连接 • 删除故障CNA节点残留网络数据
故障
检查
• 告警消失 • 业务正常
收集 • FusionCompute服务异常,无法重新启动VRM虚拟机 信息
定位 故障
• 在FusionCompute中对VRM虚拟机执行关机操作 • 在VRM虚拟机上执行关机命令 • VRM操作系统异常引发VRM自动关机
排除 故障
• 使用“PuTTY”,登录VRM节点所在主机 • 切换至“root”用户: su - root • 查找VRM虚拟机id: ll /etc/galax/eucalyptus • 启动虚拟机: /opt/galax/NCclient ncStartInstances 虚拟机ID
确认
第12页
系统接口管理
⚫ FusionCompute管理如下几类系统接口:
绑定网口
◼ 绑定主机的网口,以提高网络的可靠性。
存储接口
◼ 在主机中添加存储接口,实现主机与存储设备对接。 ◼ 添加多个存储接口,可以实现存储的多路径传输。
业务管理接口
◼ 承载一些特殊业务流量的系统接口,这些特殊业务包括热迁移虚拟 机、虚拟机主机容灾、虚拟化SAN存储心跳检测等。
添加主机存储接口
第7页
主机和集群故障点
站点故障
不能使用 FusionCompute
不能配置级联
集群故障
不能创建、修 改、移除集群
集群配置故障
主机故障
不能添加、修 改、移除主机
主机配置故障
系统接口故障
网口绑定异常 业务管理接口
异常 存储接口异常
第8页
站点、集群故障点分析
• 不能使用FusionCompute • 不能配置级联 • 不能创建、修改、移除集
系统管理
• FusionCompute的权限、任务与日志、系统配置等系统管理。
第4页
FusionCompute故障概览
存储池故障
网络池故障
虚拟机和模板故 障
主机和集群故障
FusionCompute 故障
日常操作维护故 障
第5页
目录
1. FusionCompute故障简介 2. FusionCompute主机和集群故障处理 3. FusionCompute存储故障处理 4. FusionCompute网络故障处理 5. FusionCompute虚拟机和模板故障处理 6. FusionCompute日常操作维护故障处理 7. FusionCompute高危操作一览表 8. 典型案例
第3页
FusionCompute功能简介
计算池
• 提供站点下集群与主机资源的监控、管理和维护功能。
存储池
• 提供站点下存储资源、数据存储与磁盘管理功能,并可为系统增添共 享存储设备。
网络池
• 提供分布式交换机和网络资源的维护和管理。
虚拟机和模板
• 提供虚拟机资源的监控、管理、维护和模板属性规格管理的功能。
第13页
系统接口故障点分析
• 网口绑定异常 • 业务管理接口异常 • 存储接口异常
故障点
可能的故障原 因
• 网络异常 • 主机异常 • VRM异常
• 排除网络故障 • 修复主机 • 修复VRM
排除故障
系统接口涉及到底层网络硬件,主机和VRM节点,排除故障时可自顶 向下快速定位故障层次,然后再自底向上逐步排除故障点。
检查
• 告警消失 • 业务正常
确认
第10页
主机故障点分析
• 不能添加、修 改、移除主机
• 主机配置故障
故障点
可能的故障原因
• 网络异常 • 代理服务异常 • 系统异常
• 排除网络故障 • 修复代理服务 • 重装系统
排除故障
主机上的计算资源经过虚拟化后,形成计算资源池,并分配给虚拟机 使用。如果主机出现故障,将影响上层的虚拟机和业务。
FusionCompute运维故障处理指南
技术创新,变革未来
前言
⚫ FusionCompute是华为云计算解决方案的基石,了解和掌握 FusionCompute的故障处理方法,可以更好的部署和维护企业 云计算环境。
第1页
目标
⚫ 学完本课程,您将能够:
了解FusionCompute故障分类 熟悉FusionCompute主机和集群故障处理 熟悉FusionCompute存储故障处理 熟悉FusionCompute网络故障处理 熟悉FusionCompute虚拟机和模板故障处理 熟悉FusionCompute日常操作维护故障处理 熟悉FusionCompute高危操作
群 • 集群配置故障
故障点
可能的故障原因
• 网络异常 • VRM节点异常 • 站点配置异常 • 集群配置异常
• 排除网络故障 • 排除VRM节点故障 • 修复站点配置 • 修复集群配置
排除故障
FusionCompute使用VRM节点对资源统一调度管理,站点、 集群故障和VRM节点强相关。
第9页
站点、集群故障案例-VRM虚拟机关机后 无法启动
第2页
目录
1. FusionCompute故障简介 2. FusionCompute主机和集群故障处理 3. FusionCompute存储故障处理 4. FusionCompute网络故障处理 5. FusionCompute虚拟机和模板故障处理 6. FusionCompute日常操作维护故障处理 7. FusionCompute高危操作一览表 8. 典型案例
第14页
系统接口故障案例-删除存储接口路由,导 致存储链路断开
收集 • 删除存储接口路由后,提示存储链路中断,关联虚拟机不能使用 信息
定位
• 主机与存储设备通过三层网络连接,主机的存储接口和存储设备的存 储IP地址不在同一网段,需要设置静态路由,使存储平面能够互通
故障
排除
• 登录主机 • 为主机存储接集群
向集群添加主机
设置主机时钟同步
否
存储类型 为SAN?
是
存储设备 厂商
其他
华为
修改主机存储多路径
⚫ FusionCompute主机和集群的故障处理,可 以参考该流程顺序进行检查。
⚫ 主机和集群的故障可能会涉及到如下关键 故障点:
站点故障
集群故障 主机故障 系统接口故障