数据仓库生产环境操作手册一.运维概述“数据仓库生产系统”的运行维护责任在于保障系统运行,运维方式主要是操作员通过工作机远程登陆到系统中的相关主机,对主机进行操作,包括automation调度系统、数据库、磁盘、软件环境、数据情况等,查看批出理的运行情况,一旦运行出现问题作相应的记录并通知相关的技术人员,作出相应的处理。
所有运维项目成员严格按照《数据仓库系统运维守则.doc》文档来进行运维检查工作,否则出现事故由值班人员和当日值班负责人承担事故责任。
二.运维内容1.每日维护1.1数据检查每日批处理运行前运行完成后都需要对源头的数据和生产出的数据进行检查,确保当日批处理程序正常从事生产。
检查工作在每日9:00-9:30之间完成,且必须在启动程序(批处理程序)前执行。
具体规定如下:1.1.1 转定长数据的检查每天上午9:00--9:45之间,运维值班人员进行这项工作具体执行步骤如下:1.在本地工作机上使用telnet远程登录工具登录到168.7.6.163服务器上,输入用户名sjtq,密码:cib2009edw,2.输入命令cd EDW/sh/log3.输入命令more yyyymmdd当天的日志,是否有错误信息,最后数据是否都上传结束。
4.以下错误属于正常情况:03:00:03 : 1.检查20091031标志文件失败~~~~~~~~~03:00:03 : 1.数据标志检查失败,等待5分钟(06001/dta_varied)正常等待情况5.检查点如下:1)每个大任务开始的初始化操作03:00:00 : ================ 0.环境变量设置完毕================2)数据装载,卸载,上传,整个模块处理结束的情况。
05:41:50 : ================ 2.装载Unl数据完毕================05:41:50 : ---------------- 2.开始装载BAK数据----------------05:41:50 : ================ 2.装载BAK数据完毕================05:41:50 : ---------------- 3.开始卸载fix数据----------------06:26:11 : ================ 3.卸载fix数据完毕================06:26:11 : ---------------- 4.开始向批量数据交换平台送fix数据----------------06001 send ok06001 send ok06002 send ok06002 send ok07002 send ok07002 send ok06027 send ok06027 send ok06:28:56 : ================ 4.向批量数据交换平台送fix数据完毕================06:28:58 : END6.查找是否存在“错误“,”出错“字样。
7.检查的模块有06001,input,06002,07002,06027几个模块的转定长情况,都要看到正常END结束。
8.检查日志中是否存在跑到一半或一部分就终止的现象。
如果没有转换成功或数据晚到,时间顺延检查,并将异常情况汇报给当日值班负责人和客户,并记录异常到《异常情况登记及处理单_YYYYMMDD.doc》中。
1.1.2 源数据是否全部到达数据仓库每日06:00定时触发加载。
在正常情况下,数据仓库项目组要求各系统源数据抽取必须在每日05:00之前完成,并传送到上海数据交换平台。
如果数据抽取或传送出现错误,请源系统接口负责人在06:00前完成数据补导操作。
加载触发之后,可以看到每台etlserver上都启动了和getall两个作业,其中脚本负责从数据交互平台获取源系统文件,getall脚本负责对源系统文件进行解压、格式检查,并将检查结果存放在DQC日志表中。
处理方法:如果超过这个时间检查顺延,如果超过10:30源数据还没到etl服务器上则通知值班负责人和客户,联系方式见《客户和值班负责人联系清单.doc》,并记录异常到《异常情况登记及处理单_YYYYMMDD.doc》中。
1.1.3下游系统数据是否全部给出每天上午9:00-9:30,检查给下游系统的数据是否全部给出,这项工作非常重要,仓库目前有很多应用,而导数及上传脚本并非都有时时报错机制,特别是上传脚本,本项工作为检查上一日给下游供数情况。
具体操作如下:1.执行以下SQL如果返回结果为0,表示所有下游脚本运行正常select * from etlauto.etl_jobwhere etl_system in ('SUB','ARM','AML','TSR','EBM','RPA','CS3','ICR','PMS') and Last_JobStatus <> 'DONE'and enable = '1'and Last_txDate = 数据日期2.查询所有给下游的数据个数,表示所有下游脚本运行正常select count(*) from etlauto.etl_jobwhere etl_system in ('SUB','ARM','AML','TSR','EBM','RPA','CS3','ICR','PMS') and Last_JobStatus = 'DONE'and enable = '1'and runningscript like'%0110%'and Last_txDate = '2009-11-05'3. 到168.7.6.94服务器E:\zhangliang\每日值班\下游数据统计软件目录下运行程序,将运行结果和步骤2的结果进行比对。
4.如果发现有未给出的数据,则查找原因,找到原因后通知值班负责人和客户,并记录异常到《异常情况登记及处理单_YYYYMMDD.doc》中.1.2 数据库1.2.1 STAGE区库空间检查值班人员每天早上9:00必须看数据库STAGE各子库的空间情况,MaxPerm是否比CurrPerm多20%的空间,若没有,需通知通知值班负责人即时处理。
具体操作步骤如下:1. 到168.7.6.94服务器上E:\zhangliang\每日值班\统计库空间软件目录下双击dbspcount.bat软件。
2. 查看DatabaseSpace.log日志最近一次的统计结果,如果发现对应的库的per有超过90%的使用率的就需要增加空间了。
处理方法:如果空间不足需通知通知值班负责人分配库空间。
1.2.2 APP_SPACE库空间是否足够值班人员每天早上10:30必须看数据库APP下面各子库的空间情况,MaxPerm是否比CurrPerm多20%的空间,若没有,需通知通知值班负责人即时处理。
具体操作步骤如下:1. 到168.7.6.94服务器上E:\zhangliang\每日值班\统计库空间软件目录下双击dbspcount.bat软件。
2. 查看DatabaseSpace.log日志最近一次的统计结果,如果发现对应的库的per有超过90%的使用率的就需要增加空间了。
处理方法:如果空间不足需通知通知值班负责人分配库空间。
1.2.3 PDM库空间是否足够值班人员每天早上9:20必须看PMD下面各子库的空间情况,MaxPerm是否比CurrPerm 多20%的空间,若没有,需通知通知值班负责人即时处理。
具体操作步骤如下:1. 到168.7.6.94服务器上E:\zhangliang\每日值班\统计库空间软件目录下双击dbspcount.bat软件。
2. 查看DatabaseSpace.log日志最近一次的统计结果,如果发现对应的库的per有超过90%的使用率的就需要增加空间了。
处理方法:如果空间不足需通知通知值班负责人分配库空间。
1.2.4 94、95磁盘空间是否足够值班人员每天早上9:10必须看168.7.6.94、168.7.6.95服务器d盘、e盘空间情况检查方法:1.打开“我的电脑”,观察D盘,E盘磁盘空间,必须有30GB以上的剩余空间处理方法:2.如果没有30G的存储空间,需通知通知值班负责人及时清理垃圾文件。
3.如果清理以后磁盘空间仍然不足,必须通知相关环境保障人员增加磁盘空间。
1.3ETL批处理1.3.1 AWS是否有报警显示硬件维护目前由客户方管理,因此节点硬件方面的巡检由客户方负责。
1.3.2 ETL AUTOMATION监控窗口是否存在异常作业值班人员每个工作日9:00-17:00必须每隔一段时间(10-15分钟之内)看下ETL MONITOR监控窗口是否有failed的脚本错误提示或其它异常提示。
具体操作如下:1.打开桌面上的Shortcut to ETLMonitor.jar程序,datasource输入etldb,用户名密码输入etlauto,etlauto。
2.查看是否有failed的脚本错误提示或其它异常提示。
若有发现,通知值班负责人,找到原因后通知客户,并记录异常到《异常情况登记及处理单_YYYYMMDD.doc》中。
1.3.3 Job状态是否正常值班人员每个工作日9:00-17:00必须每隔一段时间(10-15分钟之内)看下ETL MONITOR监控窗口是否有failed的脚本错误提示或其它异常提示。
具体操作如下:1打开桌面上的Shortcut to ETLMonitor.jar程序,datasource输入etldb,用户名密码输入etlauto,etlauto。
2查看是否有failed的脚本错误提示或其它异常提示。
3若有发现,通知值班负责人,找到原因后通知客户,并记录异常到《异常情况登记及处理单_YYYYMMDD.doc》中。
1.3.4数据日期的转换作业完成时间(CTLALL的时间)值班人员必须每个工作日下午13:30之前看下etljob ctlall是否完成,记录完成时间。
具体操作步骤如下:1. 到168.7.6.94 服务器E:\ETL\LOG\CTL\目录下查看当日日期的ctlall的日志时间。
如果在13:30还未完成,通知值班负责人并一同查找原因,通知客户,并记录异常到《异常情况登记及处理单_YYYYMMDD.doc》中。