Statistics and Application 统计学与应用, 2020, 9(4), 582-592Published Online August 2020 in Hans. /journal/sahttps:///10.12677/sa.2020.94062User Credit Risk Prediction Modelbased on Big DataJingwen Hu, Xiao Liu, Zhe FengSchool of Mathematical Science, Tongji University, ShanghaiReceived: Jul. 16th, 2020; accepted: Jul. 28th, 2020; published: Aug. 5th, 2020AbstractCredit risk is the main risk of bank operation and affects the development of bank. It is necessary to establish credit risk prediction model to help banks avoid risks and reduce losses. In this paper, 80,000 pieces of thousand dimensional data of a commercial bank are taken as the research object, and the method of “group principal component” is used to preprocess the data of thousand dimen-sional variables. Then, the credit risk prediction model is established by using Logistic regression and random forest respectively. The analysis results of the two models show that the customer’s credit card level, occupation, value level, basic information of personal business, deposits and for-eign current holdings have great influence on predicting the probability of default. The area under the curve of logistic regression model is 0.847, and the prediction accuracy is 75%; the area under the curve of the random forest model is 0.848, and the prediction accuracy is 85%. Compared with previous studies, the prediction accuracy of the two models is significantly improved. In practical application, the two models can be combined with each other to give full play to their advantages.KeywordsCredit Risk, Principal Component Analysis, Logistic Regression Model, Random Forest Model, High Dimensional Data基于银行大数据的用户信用风险预测模型胡竞文,刘潇,冯哲同济大学,数学科学学院,上海收稿日期:2020年7月16日;录用日期:2020年7月28日;发布日期:2020年8月5日摘要信用风险是银行经营的主要风险,影响银行的发展,有必要建立信用风险预测模型,帮助银行规避风险、胡竞文等减少损失。
本文以某家商业银行的八万条千维数据作为研究对象,采用“分组主成分”的方法对千维变量进行降维的数据预处理,运用Logistic回归和随机森林建立信用风险预测模型。
两种模型的分析结果显示,客户的信用卡级别、职业、价值等级、个人业务基本情况、存款及本外币持有额情况对违约风险预测的影响较大。
Logistic回归曲线下面积为0.847,预测准确率为75%;随机森林曲线下面积为0.848,预测准确率为85%,相较于以往的研究,两个模型的预测准确率都有明显提高。
实际应用时,两种模型可以相互结合,充分发挥二者的优越性。
关键词信用风险,主成分分析,Logistic回归模型,随机森林模型,高维数据Copyright © 2020 by author(s) and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY 4.0)./licenses/by/4.0/1. 引言银行经营的过程会面临许多风险,其中信用风险是主要风险。
信用风险的涵义是,因为债务人未能按合约执行义务,或信用质量改变,给债权人带来损失的可能性。
信用风险会给银行带来直接或间接的经济损耗、增加管理成本、降低资金利用率[1]。
因此,建立风险预测模型,根据客户数据信息,预测是否可能违约,有助于银行控制风险、减少损失、保证收益。
信用风险预测模型一直被持续而广泛地研究,信用风险预测研究的主要模型如表1。
Table 1. Main models of credit risk prediction表1.信用风险预测研究的主要模型非线性模型广义线性模型机器学习模型非参数模型线性判别分析模型神经网络模型样条回归模型(Linear Discriminant Analysis, LDA) (Neural Networks, NN) (Spline Regression Models) Probit回归模型支持向量机模型核回归(Probit Regression) (Support Vector Machine, SVM) (Kernel Regression)Logistic回归模型决策树模型局部多项式回归(Logistic Regression) (Decision Tree) (Local Polynomial Regression)随机森林模型(Random Forest)例如,庞素琳[2]等用线性判别分析方法建立企业信用评价模型,对我国2000年106家上市公司进行分析,选取4个指标,预测准确率达到95.28%。
迟国泰[3]等基于某商业银行1231笔小企业贷款数据,选取81个指标,用Probit模型建立债信评级模型,预测准确率达到60%。
Milad Malekipirbazari [4]等基于社交借贷平台的数据,选择23个变量,用随机森林、SVM、Logistic等模型预测信用风险,预测准确率随机森林88%,SVM47%,Logistic49 %。
Sidney Tsang [5]等用神经网络、决策树等模型,针对4000个欺诈行为数据,选择10个变量进入模型,准确率分别达到84.7%、96.7%。
陈为民[6]根据客户消费行胡竞文等为数据,使用多元自适应样条回归建立信用欺诈监测模型,用长沙某银行的2000条信用卡数据做实证研究,每个客户有15个属性,预测准确率达到83.91%。
这些模型较易理解,能较准确地预测违约状态。
然而,已有的运用这些模型进行风险预测的研究,多基于数据量一万以内、变量不超过100的数据,对于数据结构复杂的高维数据,讨论并不充分。
而在处理大批量的高维数据时,这些模型都存在各自的缺点。
实际数据中,解释变量与违约状态可能并非线性或广义线性关系,广义线性模型无法处理非线性数据,容易欠拟合,一般准确率不高。
机器学习模型虽然能较准确的预测违约状态,却不能得出相应的显示表达式,可解释性较差[7]。
进一步,与传统的机器学习算法相比,神经网络、支持向量机在数据样本很多时运算效率较低;单个决策树模型相比于随机森林模型精确度较低。
非参数模型虽然灵活且强大,但往往需要更多的数据、更长的训练时间,而结果是更容易过拟合,解释性更差。
本文基于一份我国2019年某家商业银行的客户信息数据,这份数据包含80,000条数据,986个变量,近千维的数据在已有的文献中是鲜有存在的,如果直接使用上述模型方法,不仅可能由于算法过于复杂无法得出模型结果,进入模型的变量过多还会导致模型的稳定性很差,可能引发“维度灾难”[8]。
数据是建立模型的基础,对于高维复杂数据,数据预处理是提高模型稳定性、提高模型拟合精度的重要环节。
因此本文首先对原始数据进行筛选、转换,通过主成分分析、重编码等方式,大大降低数据维数。
结合数据样本的变量类型以及样本大小,决定采用Logistic回归和随机森林算法构建信用风险预测模型,为银行控制信用风险提供科学依据。
本文的模型方法适应大样本,稳定性好、可推广、运算效率高。
同时,模型对信用风险的预测效果好,结果显示两种模型预测准确率分别达到75%和85%,相较于张婷婷(2017)用Logistic回归模型评估个人信用评分,预测违约状态准确率为67.62% [9],张亚琴(2019)基于集成学习的方法研究信用风险预测,随机森林模型预测准确率为77.1% [10],本文建立的模型预测准确率提高。
且Logistic回归模型与随机森林模型相结合,既发挥Logistic回归的可解释性优势,也发挥随机森林的高准确率优势。
2. 数据概述本文所分析的数据是来自某家商业银行的客户信息[11],共包含80,000条数据,986个变量,其中数值型变量944个,字符型变量42个。
数值型变量经整理后,根据含义划分为17组,见表2,字符型变量见表3。
Table 2. Numerical explanatory variable表2.数值型解释变量变量名称变量个数变量具体情况个人业务基本情况110 77个连续型,32个离散型,1个取值常数存款及本外币持有额91 55个连续型,21个离散型,15个取值常数柜台业务112 65个连续型,41个离散型,6个取值常数网银业务88 46个连续型,30个离散型,12个取值常数电话业务71 24个连续型,25个离散型,22个取值常数手机银行业务60 34个连续型,26个离散型网络银行业务20 14个连续型,6个离散型自助设备业务68 40个连续型,16个离散型,12个取值常数乐收银POS机业务48 30个连续型,14个离散型,4个取值常数胡竞文等Continued本行POS机业务40 25个连续型,10个离散型,5个取值常数它行POS机业务40 27个连续型,10个离散型,3个取值常数其他业务22 14个连续型,6个离散型大额业务32 4个连续型,4个离散型,24个取值常数信用卡业务26 10个连续型,10个离散型,6个取值常数定期存款业务20 13个连续型,7个离散型理财产品业务33 26个连续型,7个离散型基金业务63 49个连续型,12个离散型,2个取值常数Table 3. Character explanatory variable表3.字符型解释变量变量名称变量个数变量具体情况客户号 1 8位字符开户机构 1 4位编码证件类型 1 4位编码性别 1 取值1、2客户价值等级 1 取值A、B、C职业 1 取值1-5是否型变量21 包括是否有欧元账户、是否有澳元账户、是否薪资理财等持有标志型变量15 包括持有活期产品标志、持有定期存款标志、个贷标识等3. 建模方法本批数据变量数量庞大,不仅大大增加了计算的负担,而且信息重复导致变量间存在共线性,对后续建立模型分析会造成严重后果。