AWstack云管理平台运维手册一、云平台故障定位思路1:介绍云平台定位思路介绍云平台的故障原因、处理流程和详细的故障处理步骤。
2:常见原因本类故障的常见原因主要包括:云平台操作类故障云平台服务类故障云平台存储类故障云平台其它类故障3:故障诊断流程针对各类故障的定位思路如下:参考用户手册,对操作的步骤进行确认;检查后台各种服务nova 、 neutron、cinder等的状态;坚持后台存储命令行和前端存储监控界面,坚持存储的状态;根据故障类库的文档和典型问题的思路过程进行排查。
4.详细处理流程二、云平台部署类1.正确刻录部署 U 盘1.1 下载正确的正式发行版镜像wget http://192.168.246.1/awstack2/awstack-installer/awstack-installer.img1.2 将镜像放置一台linux 机器,执行以下操作# 以下命令非常危险,会抹除sdb 的所有数据,请先用lsblk等命令确认sdb 是 U 盘dd if=awstack-installer.img of=/dev/sdb bs=4M conv=sparse oflag=direct,sync验证U盘mount /dev/sdb1 /mnt/cd /mnt/var/lib/awstacksha256sum -c awstack-init.tar.gz.sha256sumawstack-init.tar.gz: OK2.部署单节点 SAAS2.1 准备一台物理机并安装虚拟化环境2.2 下载发布的SAAS 虚拟机镜像2.3 基于此镜像起一台虚拟机,并通过控制台登陆此虚拟机招待如下操作第一步创建eth0 的配置文件vi/etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0NAME=eth0BOOTPROTO=dhcpONBOOT=yesTYPE=Ethernet2.3 保存后执行systemctl resart network2.4 然后执行bash /opt/awstack/files/modify_ip.sh 2.5 打开云管: http://SAAS_IP/register3.单节点无法部署企业版问题描述:只有一个节点无法部署企业版,在部署前的CEPH 副本数输入 1 后提示“必须在2-1 之间”处理过程:vi /opt/awstack/awstack-web/built/js/register.js,,找关键字completefour然后如下图屏蔽掉红框部分代码即可。
友情提示:以防修改出问题,修改前记得备份4.部署高可用失败问题描述:观察部署日志发现在部署computeha时失败处理过程:租户网不通在页面上不会有任何影响,页面仍然会提示部署成功,但是bob的日志会在部署计算高可用的时候报错;这种情况下可以用租户网互ping一下,一般是vlan号写错,或者交换机trunk有问题导致5.部署 SAAS 下沉时虚拟机被关机问题描述:在观察部署日志发现SAAS 在部署过程中无法连接处理过程:正常现象。
这个过程中会将SAAS 从本地迁移至CEPH ,一般等等10 分钟左右就会自愈6.注册码错误问题描述:在观察部署日志发现注册码错误处理过程:一般是由于人为失误,或者某些字母或数据长得类似;下面提供易发生误解的注册码三、云平台操作类1.上传模板将镜像CP 任意一个节点的/var/lib/awstack/images/下,平台会自动上传;然后用管理员登陆将这个编辑这个镜像,填写相关属性,并将”公有“打勾,就可以了2.意外设置白名单问题描述:意外设置了白名单将自己拒绝了处理方法:1 :登陆云管:例ssh 1.1.1.1 65522admin Awcloud123[admin@saas ~]$ mysql -uroot -pAwcloud123MariaDB [(none)]>use awstack-user-db;MariaDB [awstack-user-db]>select * from tb_wblist_ip;+----+----------------------------------+-----------+---------+---------+--------+----+---------------------+-------------+---------+---------+---------| id | enterprise_uid| list_name | wb_type | bgn_ip| end_ip | description| enabled | create_time| update_time | ip_type |+----+----------------------------------+-----------+---------+---------+--------+----+---------------------+-------------+---------+---------+---------| 1 |66666666666666666666666666666666| liufu|0 | 1.1.1.1 ||| 1 | 2016-12-29 08:26:42 | NULL| 1 |+----+----------------------------------+-----------+---------+---------+--------+----+---------------------+-------------+---------+---------+---------1 row in set (0.00 sec)MariaDB [awstack-user-db]>delete from tb_wblist_ip where id=1;Query OK, 1 row affected (0.03 sec)2:这时候就可以正常登陆了3.绑定浮动 IP 提示“无子网路由”问题描述:用户创建了一个部门以及其下的一个项目,项目内已创建虚拟路由器,一共只剩两个公网IP,也已申请了这两个公网IP,其中一个公网IP 已绑定一台云主机,剩余另一个公网IP 在绑定部分云主机时报错,提示信息为“无子网路由”处理方法:DVR 模式下,每个虚拟路由器qrouter-xxx会占用一个公网IP,同时该路由器会在每个计算节点创建, ID 、 IP 及其他信息完全一致,因此并不会重复占用公网IP ,主要处理东西向流量。
但是和集中式路由不同的是,每个计算节点还会有一个专门处理浮动IP 流量的虚拟路由器 qfloat-yyy,用来处理带有浮动IP 的南北向流量,这个虚拟路由器是计算节点唯一的,是所有租户和网络公用的。
但是,这个qfloat-yyy虚拟路由器并不会马上创建,而是当计算节点有浮动IP 流量时创建。
因此当虚拟机所在计算节点有过浮动IP 流量时,此计算节点已经创建过qfloat-yyy,所以可以继续绑定公网IP 给新虚拟机。
而如果虚拟机所在计算节点之前并没有过浮动IP 流量时,便尚未创建过qfloat-yyy,这就导致当所有可用公网IP 已被申请后,无可用公网IP 创建 qfloat-yyy ,出现错误提示“无子网路由”1、除去每个虚拟路由器的公网IP,有多少个计算节点,就需要提前预留好多少个公网IP。
2、当出现类似错误或者公网IP 不足时,可手动增加公网IP ,命令参考如下“neutron subnet-update--allocation-poolstart=1.1.1.2,end=1.1.1.26--allocation-poolstart=1.1.1.50,end=1.1.1.70cd2659b2-18e1-4df8-a6a7-7b8bcb99e475”,注意输入该命令时必须带上原有公网IP 地址段,否则会被覆盖4. 对接 IBM v5000方法:consul-cli kv keys / | grep cinder# 可以找到cinder配置文件相应的路径consul-cli kv read templates/cinder/cinder.conf.ctmpl>/home/cinder.conf.ctmpl# 把 cinder的配置文件弄到本地的home目录下vim /home/cinder.conf.ctmpl# 修改本地的cinder配置文件# 修改 cinder示例配置文件[DEFAULT]enabled_volume_backend = rbd_1, IBMv5000 #在原有的基础上添加一项新增section 的名称[rbd_1]volume_backend_name = rbd_1# 新增加,必须指[IBMv5000]# 新建下面这些volume_driver= cinder.volume.drivers.ibm.storwize_svc.storwize_svc_fc.StorwizeSVCFCDriversan_ip = 10.131.198.48# 控制器 IP 1storwize_san_secondary_ip = 10.131.198.49# 控制器 IP 2san_login = superuser# 存储登陆用户名san_password = passw0rd# 密码storwize_svc_volpool_name = Pool0# 存储内池的名称,注意不用存储上划lun volume_backend_name = IBMv5000# 必加volume_name_template=volume-%sconsul-cli kv write templates/cinder/cinder.conf.ctmpl"$(cat /home/cinder.conf.ctmpl)"# 将本地配置文件写到集群环境中nomad stop cinder-service# 手动停掉cinder服务,然后nomad run /etc/kolla/nomad/cinder-service.hcl创建对应的volume-typecinder type-create <type-name>比如IBM-typecinder type-key IBM-type set volume_backend_name=IBM_backend #绑定tpe和后端指定 type创建卷cinder create --name "IBM volume" --volume-type IBMv500015.常用命令查看 bob-leader节点:awbob-leader查看部署状态:consul-cli kv read cluster/state删除状态: consul-cli kv delete cluster/state重启部署: systemctl restart awbob进入 kolla_toolbox容器docker exec -it kolla_toolbox bash进入 cinder-volume容器docker exec -u root -it cinder-volume-529609c8-c950-6e80-542a-888df2cffe63bash。