当前位置:文档之家› 浅议商业银行违约概率的测算方法

浅议商业银行违约概率的测算方法

数学之美 2006年7月第1期

浅议商业银行违约概率的测算方法

经济学院 国际经济与贸易系 谢 虹 0311995 提 要:违约概率是计算贷款预期损失、贷款定价以及信贷组合管理的基础,因此如何准确、有效地计算违约概率对商业银行信用风险管理十分重要。本文根据我国商业银行的现状,分析了建立违约概率估计模型的理论和方法,提出了我国商业银行建立违约概率模型的一些建议,希望对指导建立内部评级体系和信用风险管理有些许借鉴意义。 关键词:商业银行,虚因变量模型,Logistic模型,违约概率

国际银行业监管的统一标准——《巴塞尔新资本协议》在2004年6月正式定稿。与1998年的协议相比,新协议的最大创新之处是提出IRB法,即允许银行采用内部数据估计风险计量参数,包括违约概率PD,违约损失率LGD违约风险暴露EAD和有效期限M等。其中,无论是初级法还是高级法都要求银行自行估计客户的违约概率PD。因此,违约概率是银行信用风险计量的基础,准确测算违约概率对银行防范和控制信用风险十分重要。但是由于我国商业银行的风险管理水平普遍落后于国外先进银行,尤其表现在风险量化方面,因此把《新资本协议》实施作为银行监管和提升风险管理水平的手段对我国商业银行来说既是挑战也是机遇。下面本文将在可供商业银行选择的概率计算方法中结合我国商业银行的实际,对违约概率测算中相关问题进行研究。 一、数据采集 对一个客户信用状况的分析包括两方面:一是定量分析,主要是财务数据的分析;二是定性分析,包括管理水平、市场竞争力和领导者素质等。因此我们测算客户违约概率时采集的数据也必须包括定性数据和定量数据两部分。建模数据的质量很关键,其好坏直接关系到模型结果正确与否。建模所需要的数据有两类,一类是违约客户(坏客户),另一类是非违约客户(好客户)。根据经验,建立相关的企业客户违约概率模型至少需要1000个以上客户样本,所建立的违约概率模型才可能具有较好的稳定性。样本越多,其结果的精确性也越高。由于国内大部分银行一般从2000年以后才开始注意收集并保存完整的客户数据,所以违约客数学之美 2006年7月第1期

户的数量相对较少。基于以上两个原因考虑,多数情况下建立模型时一般建议采集所有违约客户的数据。 巴塞尔新资本协议只给出了一个普遍的违约定义,因此在收集数据之前首要任务是明确银行自己的违约定义。根据我国商业银行的实际情况和参考新协议,本文建议违约定义考虑以下两点:一是贷款的本金和利息逾期20天以上;二是贷款五级分类的后两类。对第二点需要说明的是贷款五级分类把后三类统称为不良贷款,对可疑和损失类贷款通常都给银行造成损失,而次级类贷款有时没有鲜明的违约特征,可能是人为错误判断而导致错误分类。为提高模型结果的准确性,所选用的样本应是确定的违约/非违约样本,所以本文只把五级分类的后两类作为违约样本之一。 非违约客户数量与违约客户的数量比例至少要达到1:1以上。考虑到非违约客户的数量较多,收集数据有缺失的可能,因此本文建议非违约客户采集的数量最好达到违约客户数量的1.2倍以上。由于对公客户评级通常可分为制造业、批发零售业、房地产业和建筑业等,因此对非违约客户数量的抽样本文建议根据这种分类方式采用分层抽样的方法,这样可以增加抽样样本的代表性和模型的准确性。 二、违约概率的估计方法 巴塞尔新资本协议指出:对客户违约概率的估计需反应长期的平均水平。从这个角度上来看,对建模样本数据的时间长度也提出了要求:数据源的历史观察期一般为五年以上。在估计违约概率的技术上,新资本协议要求必须使用相关信息和适当地考虑长期经验的技术,并给出三种具体的技术:内部违约经验、映射外部数据和统计违约模型,并对这三种方法给出了一些指导性意见。 内部违约经验方法主要依靠银行内部一些专家的经验判断。这种方法在目前中国商业银行缺乏有效客户数据的情况下可操作性强,但准确与否取决于这些专家的经验和水平,具有较大的主观性。映射外部数据方法要求映射评级必须建立在内部评级标准与外部机构评级标准可相互比较,并且对同样的借款人内部评级和外部评级可相互比较的基础上。使用这种方法银行必须避免映射方法或基础数据上的偏差与不一致,以量化风险的数据为基础的外部评级其标准必须是针对借款人的风险(即客户评级),而不是反映交易特征(债项评级)。同时还需要注意的是银行必须分析内部和外部评级使用的违约定义是否一致。在满足这些要求的情况下该方法的准确性相对较高。 统计违约模型由于是以银行内部的数据为基础建立起来的,所以模型结果能反映出银行违约概率大小的真实情况,准确性更高,但统计模型要求银行有一定的数据积累,并且由于宏观经济环境的变化,银行的客户池是一个动态池,这个数学之美 2006年7月第1期

动态表现在两个方面:一方面每年都有新的客户进入和原有的客户退出客户池,另一方面原有客户可能在违约和非违约之间转换。这要求银行必须周期性校验统计违约模型,确保模型结果的正确性。 由于我国商业银行缺乏有效的建立模型的客户数据,本文将从基于历史数据构建虚因变量模型出发,讨论信贷违约概率的估计问题。 基于历史数据构建虚因变量模型 所谓虚因变量模型,即因变量是虚拟变量,只限定于取0和1两个值这样的回归模型。在商业银行的信贷业务中,一项贷款的违约概率受众多因素的影响,比如对公司法人的借款来说,评定其信用等级的的指标有盈利能力、成长性、行业前景、竞争性优势、管理和股东控制力,以及一整套财务和非财务比率等等,这些因素或多或少影响企业的违约可能性。通常我们认为,违约的发生是一个随机事件,该事件的发生与这些因素有紧密的关系。我们可设二值随机变量Y,只取0和1两个值,等于1时表示违约,等于0时表示不违约。对一项贷款来说,我们可把前述指标认为是其固有属性,具有相似属性的贷款其违约概率也就大致相当。因此我们可以以Y为因变量,评价标准作为自变量建立虚因变量回归模型。由于非线性模型的计算费用相当大,本文暂且讨论线性模型,实际上线性模型的效果往往还比较好。首先不妨利用线性概率模型(LPM),该模型的基本形式如下:

kjiijjixY1 (1)

其中,ijx是第i个企业的第j项指标,设共有k项指标;是模型常数项;j 是第j项指标的回归系数;如果违约iY=1,如果没违约iY=0;i为相互独立且均值为零的随机扰动项。 应用该模型需要历史数据足够的多,即样本量尽量大,一般要几年以上的数据。影响违约率的指标的分析方面,如果这些因素中的某些因素之间存在明显的相关性,可以通过主成分分析构造一系列不相关的新变量,然后用回归方法估计回归系数。要注意的是,不同的银行的不同数据会导致在估计过程中会遇到不同的问题,需要相应的计量经济手段处理,这里就不再详述了。为简化起见,假设最终估计的模型为:

kjijjixY1ˆˆˆ (2)

这时,如果将一贷款企业的各项指标输入到该模型中,相应的预测值就是该企业可能违约的概率了。同时根据回归系数的大小,可以判断哪些因素较强的影响违约的产生。 数学之美 2006年7月第1期

该模型估计中容易出现一些问题,如随机扰动项的非正态性,这在大样本情况下可以避免,因此我们需要足够多的历史数据。可能还会出现不太理想的2R

值,即拟合系数的可信度不是太高,实际中大多数情况下可以不予考虑。另外,容易产生异方差性,及预测时预测值有可能落在(0,1)之外。如果笼统的将这样的异常值修正为1或0,显然不太合适。所以有时我们可以考虑利用线性 Logistic 回归模型,该模型的基本形式为:

kjijjixP1exp11 (3)

其中,iP为一贷款企业违约的概率,ijx为第j项指标,ex为自然对数的底,其它同方程(1)。该模型确保iP的值落在区间(0,1)之间。将该模型对数化即为如下线性方程: ikjijjiixPP1)1ln( (4)

对于该方程的估计,首先要将原始数据进行一些处理,可以对历史数据采用合适的距离公式,应用Q型聚类方法将样本分成合适数目的类数(要结合指标的数目考虑,以使后面估计时能顺利利用最小二乘法)。假设分成N类,分类后同一类中的企业其大多数指标值较接近,假设每一类中企业数目为mn,发生违约

的企业为mr个。其次,以每一类企业中违约频率mmnr作为此类企业违约概率mP的估计值,记为mPˆ。最后,对每一类中的每一指标的样本数值取其均值mjx,则方程式可表述为 mkjmjjmmxPP1)ˆ1ˆln(,Nm,,2,1 (5) 对此方程式可用最小二乘法进行估计。 另外,该 Logistic 模型有时需要采用最大似然估计对参数进行估计。同样有必要进行聚类分析,仍设每一类数目为mn,违约频数为mr,违约事件的发生

服从参数为mn和mP的二项分布,列出似然函数,再用迭代解法估出参数。由于计算较复杂本文就不再详述了,。 数学之美 2006年7月第1期

用 Logistic 模型进行预测违约概率时,将贷款企业的各项指标值代入估计方程式中,得出的是对数值,若记为 Z ,即有)1(lnPPZ,则该企业的违约

概率ZPexp11。实际上,若由贷款企业的指标数据进行多总体距离判别分析,判别其应属于N类中的哪一类,然后用该类中以往所有企业的违约频率作为其违约概率估计值也是可行的,这应该符合我们通常的做法,这样的话就不需要估计Logistic 模型。但我们注意到这样做忽略了概率分布的连续性,即每类型企业均给定了一个概率值,使得概率分布呈现离散型。而用Logistic 模型由于线性连续性,亦可使得概率分布连续性在一定程度上得到保障。 三、回归变量的选取方法 从以上对违约概率估计方法分析中可以看出,使用统计违约模型的一个关键性因素是回归变量的确定,这直接关系到模型的解释能力(贡献力)。选择回归变量的方法通常采用因子分析的方法,在实际建设模型的过程中,为保证模型的效果最佳,本文建议采用对每个变量采用逐一分析的方法。例如,建模初期首先考虑60个可能对模型有解释力的变量,并分别对这60个变量进行逐一选取,具体过程可采用以下方法:首先,对这60个变量分别建立违约概率回归模型,找出贡献力最大的变量,再对这个变量进行与违约概率的单调性分析,如果不符合单调性,则退而求其次,找出解释能力次大的变量,并做相同的单调性分析,使用该方法找出符合要求的第一个解释变量。接着再找第二个解释变量:并把剩下的解释变量分别与第一个解释变量配对求出两个变量的回归模型,找出贡献力最大的模型,并对另一个变量进行单调性分析,找出满足单调性的并具有最大解释能力的变量。以此类推,找出更多的变量,直到加入新变量后模型的效果没有显著改进为止。经验表明,回归变量达到15个左右效果就基本达到最大。确定解释变量后还须对所有变量进行相关性分析,应将相关性较高的两个变量中解释能力相对较小的变量从模型中删除。这样所得到的模型即为需要的统计违约回归模型。 变量的选择须注意数据的可利用性和解释性的问题。通常为消除不同资产规模对模型变量的影响,回归的变量一般采用比率指标。这时必须注意,如果分子分母都是负值时,有可能产生一个错误的信息。例如,一个公司有很大的负净收入和小的负权益,则“收益/权益”就是一个很大的正值,预测结果有可能是违约概率很小,但实际上这样的公司其违约概率可能很大。为消除这个问题,本文建议尽量把分母为负值的比率指标排除在外,对一些解释能力强但又是负值的指标必须仔细分析,以免出现错误的信息。 四、模型的校验和维护

相关主题