当前位置：文档之家› 因子分析+logistic回归度量信用风险违约概率

因子分析+logistic回归度量信用风险违约概率

基于因子分析的logistic违约概率模型的实证研究作者：葛钊本文针对一般商业银行等单位采用Logistic回归估计PD的模型中多重共线性、没有考虑时间因素等问题，构建和验证了基于因子分析的logistic违约概率测算模型的效果和可行性，并对财务指标进行了时间加权化处理的模型改进工作，在最后对模型的进一步优化提出了新的思考和方向。

本文样本数据获取渠道为中国证券市场公开信息，选取6家在2005-2006年和2010年发生过银行贷款违约的制造业上市公司（违约笔数8笔），和31家同行业同期贷款未发生违约且非ST类的上市公司，并且总资产与销售规模与违约公司相似（考虑到建模样本数量过少，加入此约定为提高模型精度），组成39个建模数据，进行模型构造。

其中，财务数据均取自违约/非违约公司对应违约年份前一年末或前二年末的数据，此是模型具有预测功能的必要条件。

6家违约上市公司8条违约记录（其中3条违约记录来自同一公司）如下：6家上市公司发生逾期的贷款类型均为短期流贷，全部归属于公司风险暴露中一般公司风险暴露。

另外，之所以将上海宽频科技股份有限公司的三次逾期数据全部纳入建模，是由于一方面可供建模的违约数据过少，将其加入不影响模型的建立和使用，另一方面数据量的增加增强了模型的预测能力。

31家非违约上市公司信息如下（合并报表数据）：*其中四川大通燃气开发股份有限公司在2006年由医药、生物制品类转为批发和零售贸易类；浙江钱江生物化学股份有限公司在2006年由医药、生物制品转为石油、化学、塑胶、塑料类。

特此说明。

以下对从网络公开信息获取的数据，进行数据手机、业务定义、数据清洗、模型分组、模型分析、变量构造、变量分析和变量选择等步骤。

选取如下14个财务指标，作为建模数据估计模型参数。

选取数据的原则主要是从数据的易获得性、完整性考虑的，同时为了免去单因素初步筛选等较为简单的过程，直接按现有资料综合选取了显著性较高的财务指标。

所选指标全部是以百分比度量的财务比率，这样的好处是将企业规模等因素在模型系统中的影响最小化，提高模型的预测精度。

提取指标列表：对于违约上市公司，做因子分析和Logistic回归时采用违约当年和前一年经时间加权计算的财务数据，对于非违约上市公司，由于违约公司违约发生年份大多集中于2005年和2006年，故对非违约公司财务数据以2005年和2006年为基础做时间加权平均处理。

采取此方法的目的主要是由于企业各种指标会随着时间变化而变化，如果仅仅考虑最近一年的指标，可能会由于经济周期或偶然因素造成财务指标失真，最终影响违约概率测算的准确性。

为解决这一问题，我采取了基于2年时间加权的方法计算模型的输入变量。

公式为：其中，T取2，代表2年；X i代表按时间加权平均后的结果；X it表示指标i第t年的数值。

据此可知时间越晚的年份所占权重越大。

将违约和非违约公司数据经过时间加权方法进行调整，得到8个违约和31个非违约共计39个样本，用SPSS软件进行因素分析（抽取共同因素时选用主成分分析法）。

这里特别指出的是，诸多文献指出在进行此类问题的因素分析时，需先将数据按如下Z-score公式进行标准化处理：其中，x ij为第i个样本的第j个指标值，x j为样本第j个指标的平均值，s j为样本第j 个指标标准差，z ij为第i个样本第j个指标值标准后化的得分。

进行该标准化的目的主要为了消除各项财务指标由于量纲单位不同或正、逆性指标不同带来的不可比拟性，但经现有数据进行标准化前后的因子分析结果来看，分析所得数据和结论在标准化前后无丝毫不同，故本文未采取先将数据标准化，再进行分析，而是直接将数据进行了因子分析，过程和结论如下：KMO and Bartlett's TestKaiser-Meyer-Olkin Measure of Sampling Adequacy. .685Bartlett's Test of Sphericity Approx. Chi-Square 584.771 df 91 Sig. .000从上表看到，KMO值为0.685，当其数值越大时，表示变量间的共同因素越多，越适合进行因素分析。

一般大于0.5时，均适合进行因素分析。

此外，从Bartlett’s球形检验达显著，代表母群体间有共同因素存在，同样表明适合进行因素分析。

选取特征值大于0.6的抽取共同因素，共抽取6了个共同因素，可以解释的总变异量为91.701%。

另外，可以看到采用最大方差法转轴后每个因素的特征值和方差贡献率都发生了变化，但累计方差贡献率未发生变化，均为91.701%，而且转轴缩小了各因素方差贡献率之间的差距，使各因素解释原变量的能力更加平衡。

详见下表：以下是陡坡图，可以看到从第6个点后坡度线比较平滑，故可以侧面告诉我们选取6个因素是较为适宜的。

以下是未转轴的因素矩阵（因素负荷量小于0.1的未予显示）。

以下是经过转轴后的因素矩阵（因素负荷量小于0.1的未予显示），转轴方法为最大方差法，属正交转轴方法之一，也叫直交转轴法，其特点是因素间没有相关。

我们正是想利用这一特性避免在后面的Logistic回归中出现多重共线性。

另外，由下表可看出，转轴前共同因素1包含VAR12、VAR11、VAR10，共同因素2包含VAR5、VAR4，共同因素3包含VAR8、VAR6，共同因素4包含VAR13、VAR14、VAR17、VAR9，共同因素5包含VAR16、VAR15，共同因素6包含VAR7。

另外，从下面的因素得分协方差矩阵也可以看出6个公共因素是不相关的，从而达到了既简化财务指标数目，又防止出现多重共线性的目的。

下图是最终的得到的因素得分系数矩阵。

VAR00006 -.050 -.046 .502 -.062 .011 -.145VAR00007 -.069 -.131 -.093 -.030 -.026 .971VAR00008 -.033 .251 -.614 .073 .064 .047VAR00009 .019 .104 -.111 .230 .035 .038VAR00010 .255 -.073 .235 -.131 -.248 .120VAR00011 .480 -.067 -.055 -.153 -.022 -.096VAR00012 .564 -.093 .032 -.352 .056 -.030VAR00013 -.089 -.122 -.039 .609 -.132 -.206VAR00014 -.358 -.094 .019 .606 -.022 .253VAR00015 .146 -.131 .023 -.145 .471 -.054VAR00016 -.126 .210 -.111 -.084 .565 -.020VAR00017 .072 .033 -.064 .237 -.003 -.025由因素得分系数矩阵即可得到公共因素（F1-F6）被表示成14个财务指标线性组合的形式，如F1的线性组合如下：F1=-0.1VAR4-0.056VAR5-0.05VAR6-0.069VAR7-0.033VAR8+0.019VAR9+0.255VAR10+0.48VAR11+0.564VAR12-0.089VAR13-0.358VAR14+0.146VAR15-0.126VAR16+0.072VAR17所得到的用于下一步Logistic回归的原始数据从SPSS软件中已给出，即：*这里特别需要说明的是，此表中的FAC1_1与上面F1的计算公式略有不同，是由于SPSS将数据自动进行了标准化操作，即FAC1_1等于因素得分系数矩阵（a ij）和原始变量的标准化值的乘积之和，公式为：FAC1_1=a11*（VAR1-u）/σ+a21*（VAR2-u）/σ+...，其中u所有样本的均值，σ为所有样本的标准差。

*FAC1_1-FAC6_1可直接用于logistic回归，作为其自变量估计参数使用。

下面是所有数据准备完毕后，使用SAS软件的Logistic回归函数进行回归分析。

程序代码如下：ods graphics on; /*为绘制ROC曲线做准备*/proc logistic data=dr_logis.defaultrisk_logistic descendingplots=roc(id=prob);/*调用Logistic；指定绘制ROC曲线；descending用来指定按照选项order指定顺序的倒序排列，目的是为得到针对违约概率p的模型参数*/model y=FAC1_1 fac2_1 fac3_1 fac4_1 fac5_1 fac6_1/selection=stepwiseslstay=0.15slentry=0.15details lackfit stb;/*指定y为因变量，fac1_1到fac6_1为自变量；采用逐步筛选法，变量被选进和剔除模型的显著水平均为15%；details为输出选择方法的详细信息；lackfit为进行对模型进行拟合失真检验(Hosmer and Lemeshow Test)；stb指定输出标准化数据模型选项*/ run;ods graphics off;以下为SAS软件执行以上程序输出的结果和相应的解释：Probability modeled is Y='1.00'.以上主要显示的是要建模的数据集信息，数据集为DR_LOGIS.DEFAULTRISK_LOGISTIC；响应变量为Y，0代表未违约，1代表违约；响应水平数为2；连接函数为binary logit；最优化方法为费雪得分算法；读入和使用的观测数均为39，其中违约观测数为8，未违约观测数为31；最后一行代表计算用的分析响应变量的概率模型值为1事件的发生概率以下是采用逐步筛选法对变量进行筛选的过程：Stepwise Selection Procedure从上表可以看出此模型时是收敛的，和变量无关，说明模型拟合达到收敛标准。

下表说明的是下一步可能进入模型筛选的变量信息。

其中第2、5、6号变量不符合我们制定的显著性水平达15%的标准。

第一个变量进入模型。

Step 1. Effect FAC1_1 entered:以上三个指标值均为越小越好。

以下三个指标值的p值均小于0.01，说明有显著统计意义，建模效果比较显著。

从上表可以看出，fac1_1前的系数显著。

Standardized Estimate是在模型代码中加入stb语句才出现的。

以上表格主要注意c统计量，它反映了实际观测值和模型预测的事件概率的关联强度，越高越好。

另外Percent Concordant代表ROC曲线所围面积。

e商务文档

因子分析+logistic回归度量信用风险违约概率

相关文档推荐：