小微企业信用评估的数据挖掘方法综述2016-05-03 14:54:05 《金融理论与实践》高俊光刘旭朱辰辰一、序言小微企业是指小型和微型企业。
依据工信部2011年6月发布的小微企业划型标准,截至2013年年底,全国小微企业数量占到企业总数的94.15%,为GDP做出了近60%的贡献,税收占比达到50%,解决就业1.5亿人,新增就业和再就业人口的70%以上集中在小微企业[1]。
小微企业作为我国市场经济的重要主体,发挥了不可替代的作用。
然而,小微企业的信贷融资约束却成为制约其进一步发展的主要障碍,严重影响小微企业潜在的市场发展和企业创新。
究其原因,主要由于银行信贷对企业信用等级有严格要求,而与大中型企业相比,小微企业抗冲击能力弱,且信贷信息不对称问题更加突出,导致小微金融服务面临更大的风险和不确定性。
笔者通过文献梳理和实证研究,发现小微企业信用评估困难的原因可归结为如下三方面:小微企业用于信用评估的数据不充分,缺乏针对小微企业建立的分类方法以及因类别不均导致的分类可靠性不高。
基于此,大数据于信用评估领域的应用、信用评估的数据挖掘方法,以及类别不均问题的解决方法逐渐成为近年来小微企业信用评估领域的研究焦点。
二、大数据、数据挖掘与小微企业信用评估(一)大数据与数据挖掘的基本内涵2008年,《Nature》杂志出版专刊《Big Data》,系统地介绍了“大数据”所蕴含的潜在价值与挑战,“大数据”正式成为各个学科中的研究热点。
2011年,《Science》杂志出版的专刊《Dealing with Data》标志着“大数据”时代的到来,此后,“大数据”这一术语逐渐被用于指代因收集和处理海量数据而产生的机会和挑战[2]。
“大数据”的定义主要围绕“数据体量大”“复杂性程度大”和“价值大”三个角度进行界定。
大数据规模庞大,其中隐含着巨大价值,在各行各业都备受关注,特别是那些有着大量原始数据的行业,如医疗业和金融业[3]。
然而,大数据要求的数据分析已经远非目前的统计数据处理技术能够实现,唯一的解决方法就是“数据挖掘”。
数据挖掘是一个多学科的交叉领域,它利用自动学习或经验配合等方式进行分析,从大量的数据中提取出隐含的、未知的、有价值的潜在信息[4]。
与传统数据分析不同,数据挖掘不需事先对数据提出假设,因而更能真实地反映出数据的隐藏特征[5]。
近年来数据挖掘技术渐受重视,影响范围逐步扩大,部分学者的研究关注于数据挖掘技术本身的发展,也有学者侧重于解决实际应用中的问题,如在金融领域的应用[6]。
(二)大数据与小微企业信用评估的关系信用评估属于基本分类问题,其目的是将贷款申请人分为信用良好的申请人与信用不良的申请人。
对小微信贷而言,信用评估是对其影响最大的技术和环节,商业银行依据信用评估的结果判断是否向小微企业放贷[7]。
现实中,贷款机构一直在回避对小微企业放贷是因为小微企业缺乏相关信息,其信用风险难以评估,从而造成了小微企业的融资困境,抑制小微企业发展[8]。
与此同时,大数据时代,数据已经渗透到各行各业,银行业利用数据来提升竞争能力具有得天独厚的条件,运用科学分析手段对海量数据进行分析和挖掘,可以更好地了解客户特征,从而较好地解决传统信贷风险管理中的信息不对称难题,从根本上改善信用评估结果[9]。
然而,现有大数据挖掘算法各有缺陷,尤其是针对小微企业信用评估的大数据挖掘算法尚属空白。
因此,亟待发展避免大数据缺陷的小微企业信用评估有效算法,这些缺陷包括类别不均等。
三、小微企业信用评估的数据挖掘方法自从1941年Durand提出使用判别函数以区分“好”客户和“坏”客户,基于数据构建信用评估模型的人工智能方法在信用评估领域就得到了广泛应用。
现有的风险评估模型集合了机器学习技术以处理类别不均的数据、增强预测的准确性,或构建易于理解的学习器,常见的分类方法包括决策树、神经网络、支持向量机及随机森林等。
(一)决策树(Decision Tree)决策树是经典的分类算法,又称为分类树(离散目标)或回归树(连续目标)。
常用的决策树算法包括CHAID、CART、ID3、C4.5和QUEST等[10-12],其中C4.5是ID3和CART的扩展。
将决策树用于小微企业信用评估,将为小微企业提供有价值的评估信息。
Wu Tsui-Chih和Hsu Ming-Fu(2012)提出了结合相关向量和决策树的加强决策支持模型(EDSM),并应用于小微企业信用评级,降低了信用分析成本。
张培强(2011)采用ID3算法对信用卡客户实现了较好分类[13]。
王磊、范超、解明明(2014)广泛选取了可适用于小企业主信用评估的12种数据挖掘模型,研究表明基于决策树的组合方法表现良好[14]。
(二)神经网络(Neural Network)神经网络是一种模仿人脑信息加工过程的智能化信息处理技术,由于其非线性和无母数自适应学习的特性,神经网络成为信用评估领域的常见分类器之一。
小微企业信息不完善,且真实度缺失,传统评估模型不能较好地对其信贷风险进行预测,神经网络方法因对缺失数据忍耐性高、约束条件少、抗干扰能力强,所以实验的拟合度较好,分类准确性也较高[15]。
然而,神经网络也存在许多其自身无法克服的缺陷,例如,对样本量和样本质量的要求较高,易陷入局部极小值点,以及泛化不唯一等。
(三)K-邻近分析法(K-Nearest Neighbor Analysis)K-邻近算法(KNN)是一种常用的无母数模式识别方法,通常用来解决概率密度函数的估计和分类问题,它不要求数据正态分布,其无母数的特点使其在特征变量空间上对不规则变量的建模成为可能。
相比人工智能神经网络ANN,KNN算法简单,易于解释并可达到允许精度。
但KNN算法也有其缺点,它计算量较大,且无法产生简明的分类概率公式。
为此,许多学者在信用评估应用中开发出了基于KNN的改进模型,例如Chen H L(2011)和Jiang S(2012)等。
(四)支持向量机(Support Vector Machine)支持向量机(SVM)由Vapnik于1995年提出,它成功地解决了许多领域的分类问题,是目前非常活跃的研究领域之一。
与神经网络、决策树等分类器相比,SVM分类器具有小样本、高维数、非线性等优点,且不易陷入局部极小值点。
SVM广泛地应用于信用评价领域,它可以有效地与其他智能技术相结合,如与贝叶斯推理结合的SVM、与粒子群优化算法结合的SVM、遗传不等权重SVM(GAUSVM)[16]和聚类SVM 等。
这些研究表明,混合模型方法比单独使用SVM或其他技术的结果更好。
Danenas等(2011)的汇总研究中,也对许多以SVM为基础进行信用风险评估的研究做了讨论,如随机梯度下降的SVM、核心向量机(CVM)等。
研究结果表明,在组合SVM分类器中,参数选择非常重要。
(五)随机森林(Random Forest)随机森林(RF)是Breiman于1996年提出的一种统计学习理论,大量理论和实证研究都证明RF具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不易出现过拟合,非常适合于解决先验知识不清、无规则多约束条件和数据不完全的应用问题。
RF已成功地应用于各种问题,在信用评估领域也有所涉及。
例如,Yeh C C(2012)将RF和粗糙集理论(RST)相结合,该方法分类结果优异并能形成有意义的信用评估规则,Bhattacharyya(2011)的实证研究发现RF在信用卡欺诈检测中显示出优越的性能,Brown I(2012)的对比研究RF表明在信用评估问题上能够比较好地处理类别不均数据集。
四、类别不均对信用评估的影响及解决方案(一)类别不均对信用评估的影响大部分传统的学习方法假设存在类别间的先验概率(Prior Probability)和/或误判成本(Misclassification Cost)。
然而,现实中,类别间先验概率的比率往往显著倾斜,即数据集中某些类别的样本数量远少于其他类别,这种情况通常被称为类别不均问题。
类别不均广泛存在于各种领域,如医疗诊断、雷达图像检测、诈骗检测、信用评估等。
传统机器学习方法在处理类别不均分类时,往往对占样本多数的数据(Majority Class,以下简称“多数类”)有很高的识别率,对较少的一类数据(Minority Class,以下简称“少数类”)识别率很低。
然而,通常少数类才是最重要的、误分类成本最高的,信用评估问题就是一种典型情况。
信用评估数据中,类别不均问题普遍存在,小量的违约样本对于分类结果具有极为显著的意义。
对少数类,即使评估准确性提升1%,也将大幅降低金融机构的损失。
鉴于类别不均学习的重要现实意义,研究者对该问题进行了大量研究,提出的主要解决方案包括数据层面的方案和算法层面的方案,其主要目标是提高少数类的分类精度[1]。
(二)类别不均问题的数据层面解决方案数据层面的解决方案主要是通过改变训练集样本分布,降低不平衡程度,最简单常见的方法是随机过采样(Over-sampling)和随机欠采样(Under-sampling)。
围绕这一领域的研究主要集中于采样方法的创新和采样方法的比较两个方面。
首先,两种采样方法各有缺陷,过采样的主要缺点是,若简单地复制原始数据,可能导致过拟合。
而欠采样因删除部分训练样本,容易引起信息丢失。
针对这些缺点,许多文献对重采样方法进行了改进研究,例如刘胥影等(2009)[18]、林舒杨等(2011)。
此外,关于两种采样方法的比较,现有研究并未达成共识,且结果常常相互矛盾。
部分研究表明随机过采样的效果更好,另一些研究则相反,还有研究认为,过采样与欠采样的结果相当。
(三)类别不均问题的算法层面解决方案算法层面解决方案是根据算法在解决类别不均问题时的缺陷,适当地修改算法使之适应类别不均分类问题。
算法层面的解决方案主要包括两类:其一为从算法本身入手所进行的创新及改进;其二为从分类工具入手,以各种方式对分类器进行集成,以及将分类器集成与数据层面解决方案整合等。
1.算法创新及改进为改善类别不均问题的分类效果,很多学者在算法上进行了创新研究。
Kennedy K等(2010)提出了一个特定的F值适应法,该方法用特异性替代了精度。
Garc í a V,Mollineda R A(2014)构建的新函数可以减缓类别不均的影响,且会对偏向多数类或明显偏向少数类的情况做出惩罚,Chen W C等(2012)提的关联分类算法——PCAR(基于关联规则的概率分类)可以提升对类别不均数据的预测有效性。
胡小生等(2013)提出的两层聚类的类别不均数据级联挖掘算法对类别不均数据的分类绩效较高。
此外,He X等(2014)指出一类分类(One Class Classification)方法有助于处理类别不均问题,一类SVM(One-class SVM)和支持向量域描述(Support Vector Domain Description,SVDD)是典型的一类分类方法。