中联集团CSP系统维护人员手册目录一、手册概述 (3)二、系统启动关闭 (4)2.1系统启动 (4)2.2系统关闭 (4)2.3其他命令 (4)三、系统进程 (6)3.1、CSP系统的进程 (6)3.2、查看进程状态 (6)3.2.1 进程是否存在 (6)3.2.2 进程状态是否正确 (7)四、系统配置文件 (8)4.1系统配置文件定义 (8)4.2应用系统配置文件定义 (9)4.3网络配置文件定义 (9)五、故障及其排除方法 (11)5.1、CSP系统启动失败 (11)5.2、CSP系统不允许终端建立TCP/IP连接 (12)5.3、CSP系统不处理终端的请求 (12)5.4、CSP系统的交易处理进程不响应路由进程 (13)六、系统运行日志查看 (14)6.1、通信层日志 (14)6.2、路由层日志 (16)6.3、应用层日志 (16)6.4、平台层日志 (17)一、手册概述本手册的主要阅读对象是CSP系统运行日常维护人员。
本手册介绍了CSP系统系统日常维护过程中使用的管理命令,维护方法等。
本手册的主要内容为:✓CSP系统系统运行操作包括CSP系统系统的启动和终止、进程启动参数的配置和修改、进程运行状态的检查、CSP系统系统资源及网络状态的检查、故障现象描述及故障排除等。
✓CSP系统系统运行日志查看方法包括系统日志的命名方法、系统日志关键字的检查方法等。
维护人员可以根据日志中的信息及时判断系统进程的处理状态和异常情况,并及时排除故障。
二、系统启动关闭2.1 系统启动命令为:$>cspstart若启动正常则在启动屏幕上显示‚The System is Ready”。
若系统启动失败则需要查看系统的运行日志文件($HOME/cspsys/runtime/trace/cspsys.log)以确定系统启动失败的原因。
系统启动失败的常见原因为:✓数据库未启动✓系统基本配置数据(包括数据库和配置文件)有误✓系统启动时间设置较短✓IPC KEY 已被使用✓与主机的通讯线路连接失败对以上各种问题的解决方法请参考第五章的详细描述。
2.2 系统关闭命令为:$>cspstop命令执行后,应立即退出到接收行命令状态。
若关闭成功,屏幕上会出现被杀掉的进程和被释放的资源的有关信息,关闭信息的结束语句为:‚System down completed‛。
若命令执行后,没有退出到接收行命令状态,而是进入了一种没有任何响应的状态,即:无论从界面输入任何命令,都没有响应。
这时唯一的原因是:当前环境的某个队列堵塞,导致外部命令不能写入主控进程的消息队列中。
解决方法:清空被堵塞的队列,然后再尝试关闭系统。
2.3 其他命令三、系统进程3.1、CSP系统的进程3.2、查看进程状态3.2.1 进程是否存在使用下列命令可以查看CSP系统的进程是否存在。
查看CSP系统平台进程:$> ps –ef | grep csp系统查看CSP系统应用进程:$> ps –ef | grep tran (包括tranp等)$> ps –ef | grep monitorp (监控进程)$> ps –ef | grep dayoffp (日终进程)3.2.2 进程状态是否正确使用下列命令查看主控进程直接控制的所有子进程的状态。
$> cspshm主控进程把所有被它控制的子进程的信息写入共享内存中,因而该命令实际上是对共享内存中的内容进行查看。
执行命令后,屏幕上首先显示一个进程的状态信息,维护人员可以使用‚回车键‛继续查看其他进程的状态,退出该命令的方法为:键入‘q’。
每个进程的状态的信息如下:pid[15646] pname[/home/card/runtime//exe/tranp] pstatus[0] pnn[0] ptype[7] pcntltype[00]其中各项的含义如下:pid 进程号pstatus 进程的状态-1 :退出0:正常2 :启动中3:异常4:停止5:暂停6:启动7:暂停中8 :停止中pnn 未响应主控进程的次数ptype 进程类型2 :通信进程的监控进程3 :路由(入、出)进程6 :计时进程7 :交易进程10 :自动冲正进程如果出现下列信息:pid[0] pname[] pstatus[0] pnn[0] ptype[0] pcntltype[]则表示已经显示了所有有效的进程的信息,此时应键入‘q’结束查看。
如果需要重新查看,请重复使用cspshm命令。
四、系统配置文件CSP系统系统配置文件包括对IPC资源、通讯端口、启动进程的名称及其个数的定义。
CSP系统使用的系统IPC资源包括:shared memory,semphore,queue。
其中semphore和queue的键值在CSP系统的配置文件中定义。
4.1 系统配置文件定义系统进程/资源配置文件($CSPDIR/runtime/etc/sys.cfg)[Common][]INQUERYTIME ** 进程定时查询时间SHUTDOWNTIME ** 系统关闭等待时间INQUERYCOUNT ** 进程未响应次数限制LOGONTIMELIMIT ** 系统启动等待时间MSGQUEUECOUNT ** 消息队列数SEMPHORECOUNT ** 信号量数SHAREMEMCOUNT ** 共享内存个数PROCNAMECOUNT ** 进程名个数[][QRESOURCE]QE2P ** **队列名队列标识值队列KEY…….[][SEMRESOURCE]SR2P ** ** **信号量名信号量标识值信号量KEY 初始值…….[][SHMRESOURCE]SHMI1 ** ** **共享内存名共享内存标识共享内存KEY值共享内存大小…….[][PROCESS]** ** ** ** **进程名进程类型进程个数进程控制方式进程启动参数……[]4.2 应用系统配置文件定义应用系统进程配置文件($CSPAPPDIR/etc/app.cfg)[Common][]PROCNAMECOUNT ** 进程名个数[][PROCESS]** ** ** ** **进程名进程类型进程个数进程控制方式进程启动参数……[]4.3 网络配置文件定义路由节点网络信息文件($CSPDIR/runtime/etc/net.cfg)[SESSION]SessionName=**** 会晤名[PROTOCOL]Platform_Type=**** 操作系统平台Protocol_Type=**** 通讯协议[RESOURCE]Open_Mode=[Server][Client] 呼叫方式Remote_Addr=***** 对方地址Local_Addr=***** 本地地址Connect_Mode= [SVC][PVC][Block][NoBlock] 连接方式IO_Mode= [IO][InComing][OutComing] 工作方式[OPTIONS]QUEUE_KEY= 和IPC队列连接KEYQUEUE_MTYPE= IPC队列报文类型[]通讯运行日志命名规范配置文件($CSPDIR/runtime/etc/trc.cfg)[TRCCFG ZERO]** ** ** ** **路由节点名命名规则分组进程数进程计数器进程组数#routeid flg proccount counter numR_02 0 003 000 001……其中R_02表示:ROUTEID=02flg 表示:按照进程PID还是分组记录TRACE。
(0—分组,1—PID)proccount 表示:多少进程作为一组coutner 表示:进程组进程计数器num 表示:组计数器五、故障及其排除方法5.1、CSP系统启动失败[现象1]以命令行方式执行cspstart后很快在屏幕上出现‚The Server is downing….‛的提示,然后CSP系统关闭所有已经建立的进程及资源,全部退出。
[可能的原因]初始化CSP系统的队列、信号量或共享内存失败。
[故障排除](1)如果是初始化共享内存失败,则将机器重新启动。
(2)如果是队列或信号量初始化失败,使用SHELL命令ipcs –q查看队列情况,若存在KEY值为0x00002711-0x0000271c的队列,则使用ipcrm –q命令清除该队列,然后重新启动CSP系统。
若以上措施未起作用,则修改CSP 系统系统配置文件:$HOME/ cspsys/runtime/etc/sys.cfg修改队列或信号量的KEY值,然后重新启动CSP系统。
[现象2]以命令行方式执行cspstart后很快在屏幕上出现‚execl… error[6]‛或‚execl… error[13]‛的提示,然后CSP系统关闭所有已经建立的进程及资源,全部退出。
[可能的原因]系统错误6的含义为:设备或地址不存在。
系统错误13的含义为:权限受到限制。
在这种情况下说明需要被CSP系统的父进程PMonitorP创建的某个子进程的执行程序不存在,或者该执行程序的权限有误,导致PMonitorP不能创建它(们)。
[故障排除](1)如果是平台进程,则查看目录:$HOME/cspsys/runtime/exe判断相应的执行程序名称是否存在及其权限是否正确等。
(2)如果是应用进程,则查看目录:$HOME/runtime/exe判断相应的执行程序名称是否存在及其权限是否正确等。
[现象3]以命令行方式执行cspstart后等待了很长一段时间后,屏幕上出现‚The Server is downing….‛的提示,然后CSP系统就关闭了所有已经建立的进程及资源,全部退出。
[可能的原因3.1]数据库系统尚未启动[故障排除3.1]启动数据库后再尝试。
[可能的原因3.2]由于连接数据库的时间太长,某个进程登录失败。
[故障排除3.2]修改系统配置文件:$HOME/cspsys/runtime/etc/sys.cfg,将LOGONTIMELIMIT 和COMLOGONTIMELIMIT参数相应改大一些(注意COMLOGONTIMELIMIT 的值应小于LOGONTIMELIMIT,不可相等),然后重新执行cspstart。
5.2、CSP系统不允许终端建立TCP/IP连接[可能的原因]终端不正常地关闭TCP连接,导致系统TCP资源耗尽。
[查看方法]在任意目录下,键入下列命令:$> netstat –n | more显示的内容的数据项为下述内容:Proto Recv-Q Send-Q Local Address Foreign Address (state)tcp 0 4 10.2.88.242.23 10.2.88.73.1029 ESTABLISHED查看CSP系统相应端口(Local Address)与外部设备之间的tcp连接的状态,如果处于FIN_WAIT_2的时间很长,则说明终端设备以非正常方式关闭了与CSP 系统的tcp连接,导致CSP系统所在机器处于等待该tcp连接退出的状态,占用了系统的tcp资源。