当前位置:文档之家› 无违约样本下银行个人消费信贷预授信风险控制模型

无违约样本下银行个人消费信贷预授信风险控制模型

无违约样本下银行个人消费信贷预授信风险控制模型2河北经贸大学金融工程系河北石家庄0500673北京开普瑞曦科技有限公司北京1000004西南财经大学工商管理学院四川成都611130摘要:基于我国个人消费信贷的增长需求环境下,构建了一个无违约样本情形下银行个人消费信贷风险评估及预授信模型。

模型综合了专家评分系统和基于数据驱动的决策系统的优点,提出个人消费信贷预授信风险控制模型;然后,通过Logistic全监督学习和Label Spreading半监督学习拟合因子与违约概率的非线性关系,得到客户的违约概率;并提出基于违约概率测度的预授信额度分配模型,划分银行客户档次和给出客户预授信额度。

最后,通过某城市商业银行客户数据检验发现,该模型识别了银行传统评分系统识别不了的高风险客户,有效识别了客户风险类型和程度,极大减少了银行成本,提高了客户体验。

关键词:消费信贷;风险控制;大数据0 前言随着我国人民收入增长和消费水平的提高以及互联网的发展,消费形式和观念得到了巨大的转变,消费需求呈多样化且快速发展趋势。

自2009年以来,国务院、央行等部门先后出台《关于加大对新消费领域金融支持的指导意见》等政策加大对消费信贷的支持力度,促进消费信贷市场发展。

易观发布的《2017年中国消费信贷市场专题分析》中显示,2017年我国传统金融机构消费信贷当年增加3.89万亿元,截至年末余额达到9.8万亿元,占GDP 比例为12.32%。

消费金融服务及业务不断创新,满足人们对新消费模式的需求,逐渐完善国家消费体制机制,促进了社会金融和经济的发展。

但与此同时,金融风险防范也成为当前消费信贷面临的挑战和问题。

以信用卡为代表的银行消费信贷业务,在其授信规模快速增长的同时,授信不良资产也逐年增加。

人民银行8月发布的《2018年第二季度支付体系运行总体情况》显示,信用卡逾期半年未偿信贷总额达到756.67亿元,与2010年相比,8年增长近10倍。

李克强在2017年第十二届全国人民代表大会第五次会议中表示,当前系统性风险总体可控,但对不良资产、债券违约、影子银行、互联网金融等累积风险要高度警惕。

对于商业银行而言,如何全面和准确地评估个人信用风险状况,并在此基础上开展个性化的授信金融服务,成为商业银行在个人消费信贷风险控制的核心环节。

随着大数据和机器学习方法在金融风险控制中的运用越来越成熟,银行针对在线消费贷款不断上涨的趋势,如何利用其存储的大量用户数据,通过大数据技术有效的自动识别和防控消费信贷风险具有重要意义。

在此背景下,本文采用基于机器学习的大数据分析方法来辅助专家决策,有助于多维度刻画用户特征,提高风险用户识别精准度,降低银行消费贷款业务的潜在风险。

1文献综述银行授信是指向非金融机构客户提供资金支持,或对客户在有关经济活动中的信用向第三方作出保证,如贷款、贸易融资、垫款等。

授信额度通常为银行承诺在一定时期内按约定条件提供贷款给借款人的最高贷款金额。

银行授信往往是基于对客户信用风险评估,根据客户资质和银行资金情况确定。

从授信对象来看,由于企业为商业银行主要贷款客户,所以企业的授信大多集中在企业信用风险评估和风险管理方面,这主要依赖于管理者经验积累[1]。

相较于企业,个人消费贷款具有金额、用户数量大、贷款期限灵活等特点。

因此,在个人消费信贷流程中,如何以较低成本、高效准确评估个人信用风险是关键。

个人信用评分通常是指信用评估机构通过定量方法建立信用评分模型对个人信用信息进行量化分析,用于预测贷款申请者或现存借款人将发生违约或拖欠的概率。

其中,信用卡作为个人消费信贷的主要途径之一,Einav等[2]认为信用评分最广泛和最成功的应用于个人信用卡消费信贷。

目前,国内外个人信用风险评估模型的方法主要包含Logistic回归模型、支持向量机、神经网络模型、决策树模型等。

此外,国内外学者也尝试在单一信用模型的基础上进行拓展,如Kruppa等[3]提出了一个估计个人消费信贷风险机器学习方法的总体框架;石庆焱[4]将神经网络模型和Logistic回归模型进行组合建立个人信用评分模型;Bequé和Lessmann[5]分析了超限学习机(ELM)在消费信贷风险评估中的效果;Sousaa等[6]在历史数据静态设置上的主流信用评分模型上进行扩展,提出了一种新的信用风险评估的动态建模框架。

关于客户授信额度,大量文献从不同角度研究了相关问题,如授信额度定价问题[7-9],影响授信额度的因素[10],授信额度对企业的影响[10; 11],企业基于银行授信额度的项目调度[12; 13]等。

至于授信额度的确定,相关研究相对较少,Stanhouse等[14]假定客户在不同时刻的资金需求服从布朗运动,从客户资金需求的角度出发构建了商业银行的授信额度确定模型;陈林和周宗放[15]基于对违约风险控制和贷款收益管理的多目标决策,构建了企业集团成员企业授信额度优化配置模型;刘燕霞等[16]介绍了内蒙古农村信用社个人客户授信限额模型及其验证;沈利生和王恒[1]利用人工神经网络模型检验银行的授信风险限额;Sohn等[17]针对信用卡消费授信额度与客户违约概率等因素之间的关系,并为客户寻找最优调整的信用额度,等。

与前期研究不同,本文构建了一个完整的个人授信风险评估以及授信额度确定的银行个人消费信贷风险控制模型;其次是针对无违约样本情况下,结合专家评分系统、数据驱动评分系统的优点得到个人授信风险得分,并采用Logistic全监督学习和Label Spreading半监督学习拟合因子与违约概率的非线性关系得到客户的违约概率;最后,根据个人客户的违约概率、客户资质和银行预授信规模,将用户划分为多个档次并确定了每个档次的预授信额度。

2消费信贷预授信风险控制模型的构建尽管个人消费信贷在违约率在近几年增长较快,但对于大多商业银行而言,违约样本仍然非常小,特别是中小商业银行,往往面临着没有违约样本数据的情况。

在没有违约客户数据的前提下,并不知道违约客户的用户特征,因此难以根据样本筛选出影响违约概率的重要指标,从而刻画违约客户的画像。

但实践表明,大部分申请客户具有较低的违约概率,因此信贷违约风险控制在于识别与大多数申请者不同的用户。

对此,本模型综合专家评分系统和基于数据驱动的决策系统的优点,提出基于专家评分的数据决策预授信风险控制模型,如图1所示。

图1 预授信风险控制模型流程图首先,邀请相关领域的专家根据自身业务经验提出影响贷款违约的因子,并通过对因子进行打分;然后对打分的因子进行基于数据驱动的决策支持系统对用户聚类;最后,综合专家评分和基于数据驱动的决策评分得到每位用户的综合风险得分。

综合风险得分体现的专家对于影响因子的判断,具有一定的权威,但是得分和违约概率并非是线性影响关系,例如较高的年龄未必意味着违约概率越大。

对此,针对无违约样本情形下,基于风险得分构造出违约标签,采用机器学习模型拟合因子与违约概率的非线性关系,从而得到每位客户的违约概率,最终根据违约概率计算贷款额度。

2.1综合风险评分模型模型从专家知识和数据驱动的角度出发,综合了专家评分和用户聚类的方式来计算客户的风险评分,见图2。

图2 综合风险评分流程图由于专家是在某领域具有一定经验和技能的专业人员,能较好解决在没有违约客户数据时对用户的风险进行评估,因此,专家评分系统是管理决策中常用的方法和手段。

但是专家评分系统过度依赖于专家个人决策能力,难以保证各个专家决策的一致性和准确性,应用具有局限性。

对此,我们在风险评分模型中加入了基于数据驱动的决策支持系统。

从数据的角度出发,探索决策目标与各个因素之间统计上的关系,从而刻画决策目标在统计上的变化规律,提高决策效率和准确性。

数据驱动的决策支持系统一方面依赖于大量的真实数据,否则拟合的统计关系为伪相关关系。

另一方面,系统还依赖与有效的影响因子。

在大数据中,由于影响因子具有低价值性,因此挖掘有效因子对模型至关重要。

尽管没有违约客户数据,而实践表明大部分申请客户具有较低的违约概率,因此网贷违约风险控制在于识别与大多数申请者不同的用户。

对此,模型采用对用户聚类的方式来计算客户的风险评分。

2.1.1专家评分系统首先,在专家评分环节,我们邀请了A城市商业银行联盟(下文简称联盟)的信贷风控人员和大数据专家分别根据银行客户各项指标对用户风险进行评估。

1)商业银行评分系统银行专家的评分主要根据银行“评分指标”来进行打分,每一位客户各项指标的分加总得到联盟专家的评分(UnionScore)。

2)大数据专家评分大数据专家从银行客户指标中构建了还款能力和消费欲望两个维度来刻画用户风险画像:1.还款能力,即薪长是否小于三个月;月工资范围是否小于2000元(1640是某市的最低工资水平);2.消费欲望,即年消费是否是年工资的1.5倍。

较低的薪长和月工资范围往往意味着客户工作不稳定,流动性较大,例如临时工人、合同工人等,这一类人群具有较高的违约风险。

过高的年消费在年工资的占比意味着用户的消费欲望比较强烈,具有较高的负债率,因此存在一定的违约风险。

对于同时具有低还款能力和高消费欲望的客户,其风险画像评分为0,否则为1,得到用户的风险画像评分(ExpScore)。

通过对两种方法加权,得到了用户风险评分。

2.1.2数据驱动评分系统由于变量之间存在量纲效应,使得不同变量在数值上不具有可比性,从而使得变量间的四则运算失去意义。

此外,对于基于空间距离(Space Distance)的机器学习算法模型,如果多个特征之间数值差异较大,容易导致算法的收敛速度很慢。

为了消除不同变量之间的量纲,需要对变量进行无量纲化处理,然后利用无量纲化和归一化后的数据进行聚类分析。

常用的数据标准化方法有最小-最大、z-score、按小数定标几种,结合银行客户数据存在离群点的特点,模型采用Z-Score对数据进行标准化处理。

z-score标准化,也称为标准化分数,是根据原始数据的均值和标准差进行标准化,转化函数为:其中,x为需标准化的数据,mean(x)为x的均值,sd(x)为x的标准差,经过处理后的数据符合标准正态分布,即均值为0,标准差为1。

数据归一化之后,我们采用k-means聚类方法根据用户的不同属性,把用户分为若干类,每一类都有一个聚类中心,每一个用户都属于某一类。

若某个用户离聚类中心越远,则该用户的离群距离越大。

K-means聚类是一种简单的迭代型聚类算法,采用距离作为相似性指标,从而发现给定数据集中的K个类,且每个类的中心根据类中所有值的均值得到,每个类用聚类中心来描述,聚类目标是使得各类的类间距离和最小,即最小化目标函数:其中,表示事先设定的类别个数,表示样本个数,表示第个类别的均值向量,为距离测度。

相关主题