n e t a p p设备用户日常维护手册Company number:【0089WT-8898YT-W8CCB-BUUT-202108】GTI PROFESSIONAL SERVICESNETAPP 存储日常维护手册目录目标_____________________________________________________3设备硬件说明_____________________________________________4指示灯说明______________________________________________ 6设备管理________________________________________________11巡检及巡检方法__________________________________________17设备故障应急预案 _______________________________________181.0目标NetApp 解决方案能够助客户有效地简化运作,同时最大限度地降低风险,为那些不断经历变化的企业提供更高的性能和可扩展性。
借助于产品、技术和合作伙伴的良好组合,NetApp 解决方案有助于解决最为迫切的 IT 和业务问题,同时最大限度地提高投资回报率。
本指南是为使用NetApp存储系统的维护人员编写的基本管理知识,目标是指导维护人员如何进行每天的健康检查。
详细的存储系统和命令管理参见随机手册。
在线帮助2.0设备硬件说明FAS3140硬件视图前视图 后视图disk shelf – DS14mk4视图 前视图 后视图 3E S H 4ESH43.0 指示灯说明controller 指示灯指示灯说明(Power ) (fault ) (controller A ) (controller B )Fault LED 故障灯无故出现为橘色时请查看系统日志信息,联系服务技术支持GTIDISK SHELF 指示灯说明 ESH4模块指示灯说明电源指示灯说明(指示描述信息见ESH4模块卡片) disk 指示灯说明4.0 设备管理Filerview 图形管理接口Filerview 是 NetApp 提供的图形管理接口,可以方便地实现对 NetApp 的存储设备的管理。
启动浏览器访问 IP 地址\na_admin 。
你需要:使用 Microsoft IE 或 Netscape Navigator (version 4以上) 如果有错误,可能和你的DNS 有关,你可以用:filer/na_admin,然后点击Filerview 进入管理界面,通过filerview 你可以完成几乎所有的管理任务点击 FILER VIEW 图标进入 FILER VIEW 管理界面,输入用户名和密码电源 电源 控制器 控制器ESH4模块A可以完成存储设备、卷、设备、网络、安全、LUN、NDMP、SNMP、SnapMirror等配置。
你可以用 CONSOLE口 (将 PC机的串口与 NetApp随机带的 console线连在 filer的CONSOLE口, 打开windows里的hyperterminal或其它仿真终端,波特率设置为default: 9600波特率, 8位,无校验,1位停止位)和 telnet 登入 filer的命令行窗口.输入或者 help可以看到全部命令halt nfs snapvaultaggr help nfsstat snmparp hostname nis softwareackup httpstat options sourcecf ifconfig orouted statscifs ifstat partner storageconfig igroup passwd sysconfig........命令的详细使用方法可以通过 help得到,例如:> help voldisplay or change characteristics of volumesThe following commands are available; for more informationtype "help vol <command>"add destroy online sizeclone lang options splitcontainer media_scrub rename statuscopy mirror restrict verifycreate offline scrub巡检及巡检方法目测现场首先进行指示灯和 LCD 面板检查,判断是否有异常情况发生。
硬件状态检查>sysconfig –r 检查磁盘情况正常情况:发现所有磁盘,每个机头都有一个或多个 spare disk。
非正常情况:任何一个机头没有一个 spare disk,或有failed disk>sysconfig –v 检查所有硬件以上显示结果应该没有failed,error,warning等字样.检查网络是否正常使用 ping 存储设备 IP 地址,输入:>ping FILERNAME\IP正常情况:有相应,无丢包。
非正常情况:ping不通或者丢包严重。
>ifconfig –a 主要网口状态应为up>vif status VIF所有端口是否正常检查 Cluster 状态是否正常>cf status正常情况:2个节点状态应该为enable非正常情况:任何一个机头显示非如上所示,就属于非正常情况检查卷容量是否正常使用 df检查空间使用状况。
正常情况:capacity 低于或等于 90%。
非正常情况:capacity 高于 90%。
性能检查> sysstat –x 1 CPU利用率应该在80%以下日志文件检查>rdfile /etc/messages仔细检查是否有failed,error,warning等字样.如有,则记录下来收集 autosupport 信息Options 触发最新autosupport信息’如获得更多可信息请访问附件:存储设备紧急情况应急预案存储问题定位于排查(Power) (fault) (controller A) (controller B)Fault LED故障灯无故出现为橘色时请查看系统日志信息,联系服务技术支持GTIFilerVIew检测打开IE窗口输入 filer/na_admin,然后点击Filerview进入管理界面其中: Filer 显示设备名Model 显示设备型号SystemID 设备的ID号码(不是SN)Version 显示设备使用系统的版本Volumes 显示设备的卷信息,如有问题会有报错Aggregates 显示设备AGGR信息,如有问题会有报错Disks 显示设备磁盘使用情况,如有磁盘损坏,会有报错Status 绿色代表正常橙色代表有错误发生红色系统有紧急事件,或可导致紧急事件的隐患,并能显示相应的报错部件的信息错误定位步骤首先通过设备的物理状态,和网页显示情况可以初步诊断是否是由硬件问题引起例如:若磁盘随坏会有如下症状1:存储系统的面板上会有橙色的灯亮起2:仔细查看磁盘的扩展柜能发现损坏的磁盘上会有橙色的灯亮起3:从WEB的管理界面上看见橙色的灯亮起,并在DISK的后面显示是具体那块磁盘出现问题6.3信息收集通过WEB界面来抓取messages进入WEB管理界面,选择Filer 点击syslog messages 即可看见系统的log信息,有助于我们错误的排查和诊断在系统命令行中执行:>rdfile /etc/messages 查看messages信息例如:>aggr status –r 查看raid组信息,会看到failed的disk例如:Broken disksRAID Disk Device HA SHELF BAY CHAN Pool Type RPM Used (MB/blks) Phys (MB/blks)--------- ------ ------------- ---- ---- ---- ----- -------------- --------------failedOptions 触发最新autosupport信息并使用log记录的功能手动记录设备的全部信息。
6.4信息提交6.4.1autosupport设置通过对autosupport的功能进行设置能对系统的安全进行全面的保护需要设置 mailhost 和发邮件报告发送和接收人以及发送方式1:每周会产生设备的周报(weekly report),统计设备运行状态2:在设备运行情况发生问题是,例如硬件损坏,或软件告警等消息时会及时出发autosupport给收件人3:若有备件损坏时,会第一时间发送给收件人和netapp技术中心,会自动生成备件,并主动与用户联系,第一时间发送出备件。
6.4.2GTI技术支持我们建议在设备的autosupport的接受人里面添加GTI的存储技术团队邮件,当问题发生时,我们会第一时间得到消息,会主动与您联系,第一时间为您排查和解决问题6.4.3NETAPP800技术支持中心NETAPP的全球技术支持中心电话每天早8点至晚8点,由大连的中文技术支持,其余时间由国外技术支持,24*7小时保障您的安全。
示例磁盘更换步骤1、关于磁盘所有权的概念介绍➢磁盘所有权:在存储系统中每个磁盘必须被分派到一个控制器系统中,每个磁盘也要分派到一个池中(让单机或集群中一个机头所识别到磁盘)➢基于硬件的所有权:磁盘所有权是机头HBA卡和shelfHBA卡的连接位置决定的,插入新盘时系统会自动识别磁盘,使其成为一个热备盘加入到POOL0中(在SYNCMIRROR没有开启时候)。
➢基于软件的所有权:磁盘所有权是管理员决定的(可以利用命令管理),HBA卡插槽位置将不影响磁盘所有权。
当添加磁盘时候需要分派所有权,否则系统不能马上识别新盘Netapp filer系列对磁盘所有权的支持如下:FAS2050支持 FAS3020 FAS3050 支持 支持 FAS3140 支持 FAS3070 支持 FAS6000支持2、磁盘ID ,BAY ,shelf ID 概念一、 更换原因: 磁盘更换原因会有很多种可能,以下列出了一些常见的问题和错误的messages: 1. 磁盘failed ,被放进Broken pool 中 > aggr status –f Broken disksRAID Disk Device HA SHELF BAY CHAN Pool Type RPM Used (MB/blks) Phys (MB/blks) --------- ------ ------------- ---- ---- ---- ----- -------------- -------------- failed>rdfile /etc/messages >bypass 错误,messages 中没有错误信息 >sysconfig –aShelf ID可以在后面改变Drive bay 0-13 以DSMK2 AT -FC /-FCX为例子: Shelf ID 为1的shelf 第一个BAY (0)的磁盘ID 为16,如果连接到控制器的0a 口,则磁盘ID 为.其他磁盘以此类推Shelf 1: ESH2 Firmware rev. ESH A: 14 ESH B: 14Disk in Shelf: 1 Bay 5 is bypassed三、更换造作之前确定磁盘的位置的方法 1. 首先在系统中确认,利用命令>sysconfig –r 或者 aggr status –r (查看raid 组中所有磁盘的状态,其中会包括failed 磁盘的磁盘ID )以此来定位磁盘的位置如:RAID Disk Device HA SHELF BAY CHAN Pool Type RPM Used (MB/blks) Phys (MB/blks) --------- ------ ------------- ---- ---- ---- ----- -------------- --------------fialed2.物理上查看0a 为 路径ID :为连接机头0a 口的LOOP 的shelf四、 操作步骤: 1 确认failed 磁盘,热备磁盘,以及当前没有RAID 重建操作 >aggr status –r>rdfile /etc/messages确认磁盘的failed 在Broken 池中2 根据查找出的磁盘ID ,进行磁盘位置的定位3 拔出定位的损坏磁盘 之后步骤随时查看CLI 即时弹出的messages 信息4 之后插入新的RMA 磁盘5 如果是 hardware ownership 则磁盘插入会立即成为热备磁盘如果是 software ownership则磁盘插入需要指派 ,看options 选项options物理上,failed 磁盘前面的LED2指示灯为常亮橘灯状态定位出shelf1 第2个磁盘 failed设置为开启的,磁盘会自动被本地的连接的机头加入到热备磁盘中设置为关闭需要手工指派:>disk show –n (查看插入的没有所有权指派的磁盘)>disk assign 磁盘ID (加入到本地的机头)6 验证磁盘状态>aggr status –r (确认磁盘已经指派到热备磁盘池中,Broken池为空,RAID组状态正常)7 如果是多路连接可以通过一下命令验证是否多路看到更换磁盘>sysconfig –a | -v8 整个过程需要记录LOG信息五、操作过程中的以外处理:在更换磁盘过程中可能会有一些意外情况,情按下步骤操作1 如果插入新的磁盘提示报错,不能识别或者识别错误的信息执行>aggr status –r (保证RAID组状态正常,并查看插入出错的磁盘当前的状态) 如果当前RAID组状态正常,取下磁盘2 联系GTI存储的支持工程师,进行进行进一步支持。