本文通过一个实例讲解了在DB2版本9以后,如何使用db2pd命令捕获死锁信息死锁经常会存在于我们的应用系统中,如何捕获死锁信息并解决死锁问题,是一个比较复杂的问题。
DB2提供了死锁事件监控器来获取死锁信息,可以非常方便地获取死锁信息。
从DB2版本8.2.2开始,DB2也可以使用db2pd命令和db2cos脚本来获取死锁信息,提供了一种新的途径来获取死锁信息。
从DB2版本9开始,我们可以使用db2pd -catch 命令来捕获错误信息,然后调用一个sqllib/db2cos 的脚本收集出错时的现场信息。
该命令的使用语法如下:Usage:-catch clear | status | <errorCode> [<action>] [count=<count>]Sets catchFlag to catch error or warning.Error Codes:<sqlCode>[,<reasonCode>] / sqlcode=<sqlCode>[,<reasonCode>]ZRC (hex or integer)ECF (hex or integer)"deadlock" or "locktimeout"Actions:[db2cos] (default) Run sqllib/db2cos callout script[lockname=<lockname>] Lockname for catching specific lock(lockname=000200030000001F0000000052)[locktype=<locktype>] Locktype for catching specific lock(locktype=R or locktype=52)下面我们通过一个实例来讲解如何使用db2pd -catch命令获取死锁信息。
如无特殊说明,命令均使用DB2实例用户执行。
1、将$HOME/sqllib/cfg/db2cos例子脚本拷贝到$HOME/sqllib下,并改变属性为实例用户添加执行权限:cp $HOME/sqllib/cfg/db2cos $HOME/sqllibchmodu+x $HOME/sqllib/db2cos2、设置db2pd -catch捕获死锁信息,当死锁出现的时候调用db2cos命令。
可以使用如下命令之一:1)db2pd -catch deadlock2)db2pd -catch -911,2例子输出如下:$ db2pd -catch deadlockError Catch #1Sqlcode: 0ReasonCode: 0ZRC: -2146435070ECF: 0Component ID: 0LockName: Not SetLockType: Not SetCurrent Count: 0Max Count: 255Bitmap: 0xA1Action: Error code catch flag enabledAction: Execute sqllib/db2cos callout script此时查看db2diag.log的输出,可以看到类似信息:2006-03-30-17.23.01.128996+480 I25427C274 LEVEL: EventPID : 1773620 TID : 1 PROC : db2pdINSTANCE: db2fp9i1 NODE : 000FUNCTION: DB2 UDB, RAS/PD component, pdErrorCatch, probe:30 START : Error catch set for ZRC -2146435070我们可以看到错误捕获机制已经启动。
3、新开一个命令窗口,我们称之为窗口1,输入如下命令:$db2 +cdb2 => connect to sampleDatabase Connection InformationDatabase server = DB2/6000 8.2.2SQL authorization ID = DB2FP9I1Local database alias = SAMPLEdb2 => create table tstdlock1 (id int, name char(10))DB20000I The SQL command completed successfully.db2 => commitDB20000I The SQL command completed successfully.db2 => insert into tstdlock1 values(1,'test1')DB20000I The SQL command completed successfully.4、再新开一个命令窗口,我们称之为窗口2,输入如下命令:$db2 +cdb2 => connect to sampleDatabase Connection InformationDatabase server = DB2/6000 8.2.2SQL authorization ID = DB2FP9I1Local database alias = SAMPLEdb2 => create table tstdlock2 (id int, name char(10))DB20000I The SQL command completed successfully.db2 => commitDB20000I The SQL command completed successfully.db2 => insert into tstdlock2 values(2,'test2')DB20000I The SQL command completed successfully.db2 => select * from tstdlock1此时该命令会挂起,处于锁等待状态,等待窗口1中的insert语句完成后才能继续进行。
5、切换到窗口1,输入如下命令:db2 => select * from tstdlock2此时该命令也会挂起,处于锁等待状态,等待窗口2中的insert语句完成后才能继续进行。
6、等待一段时间,取决于数据库的配置参数DLCHKTIME的设置,默认为10秒。
就会发现窗口2中的事务因为死锁回滚:SQL0911N The current transaction has been rolled back because of a deadlockor timeout. Reason code "2". SQLSTATE=40001而窗口1中的命令执行成功:db2 => select * from tstdlock2ID NAME----------- ----------0 record(s) selected.注意:在实际的测试中,也可能是窗口1中的事务回滚。
此时查看db2diag.log文件,会看到如下信息:2006-03-30-17.29.05.273286+480 I28093C411 LEVEL: EventPID : 1597606 TID : 1 PROC : db2agent (SAMPLE) 0INSTANCE: db2fp9i1 NODE : 000 DB : SAMPLEAPPHDL : 0-8 APPID: *LOCAL.db2fp9i1.060330092553FUNCTION: DB2 UDB, trace services, pdInvokeCalloutScript, probe:10START : Invoking sqllib/db2cos script from global services sqlzeMapZrc2006-03-30-17.29.05.868458+480 I28505C388 LEVEL: EventPID : 1597606 TID : 1 PROC : db2agent (SAMPLE) 0INSTANCE: db2fp9i1 NODE : 000 DB : SAMPLEAPPHDL : 0-8 APPID: *LOCAL.db2fp9i1.060330092553FUNCTION: DB2 UDB, trace services, pdInvokeCalloutScript, probe:20STOP : Completed invoking sqllib/db2cos script说明我们的错误捕获机制已经成功捕获到死锁信息,并且调用了db2cos脚本。
此时查看$HOME/sqllib/db2dump目录,会看到db2cos.rpt文件。
注意,对于出现死锁的情况,我们的错误捕获机制会两次调用db2cos脚本,第一次是在事务回滚前,第二此则是事务回滚后。
查看死锁的信息,我们应该关注第一次调用db2cos脚本的输出。
现在我们看一下db2cos例子脚本的内容,可以看到出现死锁时我们的处理机之:"DEADLOCK")echo "Lock Deadlock Caught" >> $HOME/sqllib/db2dump/db2cos.rptdate>> $HOME/sqllib/db2dump/db2cos.rptecho "Instance " $instance >> $HOME/sqllib/db2dump/db2cos.rptecho "Datbase: " $database >> $HOME/sqllib/db2dump/db2cos.rptecho "Partition Number:" $dbpart>> $HOME/sqllib/db2dump/db2cos.rptecho "PID: " $pid>> $HOME/sqllib/db2dump/db2cos.rptecho "TID: " $tid>> $HOME/sqllib/db2dump/db2cos.rptecho "Function: " $function >> $HOME/sqllib/db2dump/db2cos.rptecho "Component: " $component >> $HOME/sqllib/db2dump/db2cos.rptecho "Probe: " $probe >> $HOME/sqllib/db2dump/db2cos.rptecho "Timestamp: " $timestamp >> $HOME/sqllib/db2dump/db2cos.rptecho "AppID: " $appid>> $HOME/sqllib/db2dump/db2cos.rptecho "AppHdl: " $apphld>> $HOME/sqllib/db2dump/db2cos.rptdb2pd -db $database >> $HOME/sqllib/db2dump/db2cos.rpt;;我们看到,如果捕获到的错误是死锁(DEADLOCK)的话,我们将执行db2pd -db $database获取数据库的所有db2pd输出。