数据备份服务项目作者:日期:版本:保密范围/等级:签字批准SAT项目经理TJHQ项目经理EMC项目经理ADIC项目经理IBM项目经理目录1前言 (1)2TSM巡检操作手册 (2)2.1查看TSM服务器 (2)2.2查看TSM MANAGE CONSOLE (2)2.3在TSM服务器上登录到管理界面 (3)2.4在TSM CLIENT端检查 (4)3TSM常见问题的处理 (4)3.1TSM S ERVER的故障处理 (4)3.1.1所有的备份和恢复操作都无法进行 (4)3.1.2如何获得TSM错误描述 (5)3.1.3系统出现无法读写磁带或磁盘的故障 (5)3.1.4处理带库故障后TSM工作不正常。
(6)3.1.5 a tape in library does not display in q libv (6)3.1.6reclaim process not run (6)3.1.7how to delete archive log files after backup (6)3.1.8windows device manager, found a drive mark as yellow (7)3.2TSM C LIENT的故障处理 (7)3.2.1TSM Client无法连接TSM Server (7)3.2.2TSM Client备份大文件时经常不成功 (7)3.2.3ANS1312E error in dsmerror.log (8)3.2.4when backup data, error: media can not mount (8)3.2.5ANR8779E Unable to open drive mt0.3.0.3, error number=170 (8)4日常维护 (8)4.1启动和停止TSM服务器 (8)4.2进入管理员界面 (9)4.3进入TSM CLIENT文件备份/恢复界面 (9)4.4管理数据库和日志 (9)4.5管理磁带库 (10)4.5.1查看带库中磁带驱动器状态: (10)4.5.2磁带的分配: (10)4.5.3检查活动日志,有可能要求作出回应, (11)4.5.4查看磁带上的备份内容: (11)4.5.5从磁带库中取出已使用的磁带放到异地保存: (11)4.5.6将取出的磁带重新放入磁带库中: (11)4.5.7向磁带库中增加新的供TSM使用的磁带: (11)4.5.8将新磁带添加到storage pool 中(可选) (11)4.5.9重复利用磁带库中的磁带 (11)4.6管理磁带库存储池 (12)4.7管理客户端节点 (12)4.7.1删除一个客户端节点 (12)4.7.2修改节点密码 (12)4.8定时备份维护 (12)4.8.1TSM Clien/TDP节点定时备份守候进程 (12)4.8.2客户端停止定时备份 (13)4.8.3查看定时备份日志 (13)4.9建立策略域(P OLICY D OMAIN) (13)4.10监控TSM S ERVER运行情况 (13)4.11其它维护 (14)4.12扩展配置 (15)5电话支持流程 (16)5.1IBM客户支持服务流程 (16)6日常监控表 (17)1前言本文档是TSM巡检操作手册,常见问题的处理和日常维护。
2TSM巡检操作手册2.1 查看TSM服务器查看TSM服务器和ADIC带库的连接状态,如下图为正常:主要为其它设备可以看到ADIC的SNC,介质变换器,磁带驱动器都有设备显示。
2.2 查看TSM manage console在"开始"菜单--〉"程序"--〉"Tivoli Storage Manager"中选择运行"Management Console":可以看到带库和驱动器的信息。
2.3 在TSM服务器上登录到管理界面在cmd的窗口里进入到TSM的安装目录baclient下运行dsmadmc,输入口令/密码admin/admin进入管理员界面2.4 在TSM client端检查检查lanfree的进程,使用命令:#ps –ef|grep dsmsta如果进程没有启动,需要启动这个进程,方法:IBM服务器的路径/usr/tivoli/tsm/StorageAgent/bin#nohup ./dsmsta &HP 服务器的路径/opt/tivoli/tsm/StorageAgent/bin#nohup ./dsmsta &3TSM常见问题的处理在解决问题的过程中,需要具体问题具体分析,首先需要检查各种错误日志,定位问题,然后参考以下解决问题的办法,同时也可直接联系800技术支持热线,寻求专业的技术支持。
3.1 TSM Server的故障处理3.1.1所有的备份和恢复操作都无法进行问题描述TSM Server启动正常,但所有的备份和恢复操作都无法进行。
问题处理建议检查TSM本身的数据库是否已满?> query database3.1.2如何获得TSM错误描述问题描述在TSM的日志中发现有类似ANR7800I 的错误信息,如何得到该错误号的详细描述。
问题处理建议使用TSM的文档查找错误描述,或直接使用命令查找:> help 78003.1.3系统出现无法读写磁带或磁盘的故障问题描述在日常备份过程中或TSM日志中出现无法读写磁带或磁盘的故障。
问题处理建议检查磁带库是否正常?TSM>q library;查看是否Online状态;检查驱动器是否正常?TSM>q drive;查看是否Online状态;检查磁带是否正常?TSM> q libvolume;查看磁带状态;看是否是读写状态。
TSM> q vol f=d ;查看磁带状态;看是否是读写状态。
检查Path 是否正常?TSM> q path;看online是否为yes ?检查详细的TSM活动日志TSM> QUERY ACTLOG BEGINTIME=NOW-30 ENDTIME=NOW检查操作系统下关于设备的日志。
在操作系统下检查设备状态;AIX : lsdev –Cc tape3.1.4处理带库故障后TSM工作不正常。
问题描述当带库出现故障后,如更换driver后,TSM工作不正常。
问题处理建议按照配置步骤重新检查path,drive 的定义、状态检查磁带机的s/n 号。
3.1.5 a tape in library does not display in q libv问题描述a tape in library does not display in q libv。
问题处理建议checkin libv libname search=yes checkl=b status=scr3.1.6reclaim process not run问题描述reclaim process not run, check stgpool reclaim threashold, the value was 100 问题处理建议modify threashold less than 1003.1.7how to delete archive log files after backup问题描述how to delete archive log files after backup问题处理建议using rman delete input all option3.1.8windows device manager, found a drive mark as yellow问题描述In windows device manager , found a drive mark as yellow , so many operations is not successful .问题处理建议重起TSM 服务器?重新安装 library driver ?重起 Tape Library ?3.2 TSM Client的故障处理3.2.1TSM Client无法连接TSM Server问题描述TSM Client 无法连接TSM Server。
问题处理建议检查服务器配置文件,并检查服务器是否绑定配置文件中规定的端口?查看服务器的状态(Query Status)确保设置好了"Availability: Enabled";检查客户端配置文件中端口号和IP地址是否与服务器端一致;检查节点是否被服务器端锁定(LOCK);系统管理员检查网络状况和服务器的内存利用状况,如果内存不够用了,则新的连接肯定无法建立。
3.2.2TSM Client备份大文件时经常不成功问题描述TSM Client在备份大文件时经常报如下错误,但备份小文件没有问题:2006-03-13 11:50:37 ANS1005E 在套接字 = 636处 TCP/IP 读取错误,错误号 = 10035,原因:无法立即完成一个非阻挡性套接字操作。
2006-03-13 11:50:37 ANS1809W 会话丢失;正在初始化会话的再打开过程。
2006-03-13 11:50:53 ANS1811S TSM 会话无法重建。
问题处理建议检查服务器端dsmserv.opt中有一项IDLETimeout、Commtimeout设置,调大后进行测试。
( 注:要求TSM Server和 storage agent端设置一致)。
3.2.3ANS1312E error in dsmerror.log问题描述ANS1312E error in dsmerror.log问题处理建议delete old path re-define3.2.4when backup data, error: media can not mount问题描述when backup data, error: media can not mount问题处理建议re-define drive path, audit library3.2.5ANR8779E Unable to open drive mt0.3.0.3, error number=170问题描述On Windows ,actlog , ANR8779E Unable to open drive mt0.3.0.3, error number=170.问题处理建议检查 library 状态。
检查 path ,发现path offline,无法online。
在操作系统下删除设备,重新识别?重新定义path 。
4日常维护4.1 启动和停止TSM服务器启动TSM服务器系统中,TSM Server作为一项系统服务已设置为在系统启动时自动启动。