当前位置:文档之家› 基于聚类的个人信用评分模型研究

基于聚类的个人信用评分模型研究

邮局订阅号:82-946360元/年技术创新金融电子《PLC技术应用200例》您的论文得到两院院士关注徐向阳:讲师基于聚类的个人信用评分模型研究ResearchonPersonalCreditScoringModelbasedonClustering(1.河南公安高等专科学校;2.河南师范大学)徐向阳1葛继科2Xu,XiangyangGe,Jike摘要:信用卡公司是一个服务性的金融企业,如何提高在服务过程中的服务质量,改进服务方法,使公司的决策更为准确及时,是信用卡公司追求的一个目标。

本文介绍了神经网络方法及数据挖掘技术在信用卡公司对用户评分中的应用,对比分析了几种个人信用评分模型建模方法的特点,建立了一种决策树-神经网络个人信用评分模型,并针对该模型提出了一种近邻聚类算法,该算法在信用评分应用中可以得到较理想的结果。

关键词:信用评分;神经网络;分类;聚类;决策树中图分类号:TP183TP301.6文献标识码:AAbstract:Acreditcompanyisanenterprisetoofferservicestocustomers;itisatargetforcreditcompanieshowtoimprovethequalityofservicesandhowtoenrichthewaysofservices,andhowtomakedecisionmorecorrectlyandjustintime.Thispaperde-scribestherequirementofthecreditcardcompanyfordataminingandneuralnetworktechnologywhichapplyforpersonalcreditscoring.Contrastedandanalyzedsomeofpersonalcreditscoringmodel,andconstructedadecision-neuralnetworkpersonalcreditscoringmodel.Atlast,itgivesaVicinage-ExtendedClusteringalgorithm,andanalyzeditsusabilityandutility.Keywords:CreditScoring,NeuralNetwork,Classification,Clustering,DecisionTree文章编号:1008-0570(2006)09-3-0229-031引言随着信用卡的出现和发展,银行及其他信用卡的发卡机构认识到了信用评分的作用及重要性。

由于每天申请信用卡的人数众多,无论从经济的角度还是从人力的角度,发卡机构都不可能完全依赖人工对申请进行审批,必须有一套比人工主观判断具有更好预测能力的自动信用评分系统。

信用评分本质上是模式识别中的一类分类问题,将企业或个体消费者划分为能够按期还本付息(即"好"客户)和违约(即"坏"客户)两类。

具体做法是根据历史上每个类别(如期还本付息、违约)的若干样本,从己知的数据中找出违约及不违约者的特征,从而总结出分类的规则,建立数学模型,用于测量借款人的违约风险(或违约概率),从而为消费信贷决策提供依据。

近几年,随着市场竞争的加剧以及计算机技术的发展,一些非参数统计方法以及人工智能模型逐渐被引入到个人信用评分模型中,如神经网络、专家系统、基因算法等均被应用到信用评分卡的开发之中。

这些方法的引入在一定程度上克服了传统分析方法的综合分析能力差、缺乏整体概括能力的缺点,弥补了评价结果的一些不足。

神经网络技术(NeuralNetwork,NN)是一种对数据分布无任何要求的非线性技术,它能有效解决非正态分布、非线性的信用评分问题,但它存在解释性差、训练样本集大和训练效率低等缺点。

利用基于聚类的分类信用评分方法可以有效克服神经网络技术在信用评分中存在的问题。

2国内外常用信用评估方法随着信贷业务需要,国内越来越多的金融机构以业务对象的个人信用记录作决策参考,或附以一些评分方法,但毕竟以主观经验为主。

国外已经有人做了大量的工作。

提出了各种评估模型:有FICO评分模型、神经网络模型、贝叶斯分析模型等等。

采用了各种数学的、统计学的、信息学的方法等等。

取得了一定的效果,特别是FICO评分模型,更是在西方发达国家成为信用评分事实上的标准。

2.1标准数理统计模型表1美国不同行业常用信用评分模型基于标准数理统计理论的信用评分模型是对大量的个人消费贷款的历史信用数据进行科学的归纳、总结、计算而得到的量化分析公式。

在美国,不同的行业有不同的信用评分模型来帮助专业人士进行信用风险管理,如表1所示。

信用评分模型的关键是科学合理地选出信用变229--技术创新中文核心期刊《微计算机信息》(管控一体化)2006年第22卷第9-3期360元/年邮局订阅号:82-946《现场总线技术应用200例》金融电子量,并产生一个公式。

信用评分模型的统计方法有:线性概率模型、Logit模型、Probit模型、以及判别(Discrim-inant)分析方法。

2.2数据挖掘方法数据挖掘(DataMining,DM)是为了发现事先未知的规则和联系而对大量数据进行选择、探索和建模的过程,其任务可以分为两类:描述和预测。

用于个人信用评分的常用方法包括分类、聚类、关联规则分析、预测、孤立点检测等。

1.分类(Classification):按分析对象的属性、特征建立不同的组类来描述事物。

它基于对类标记已知的数据对象的分析,导出描述并区分数据类或概念的模型(或函数),用以预测类标记未知的对象类,导出模式可以用分类规则、判定树、数学公式或神经网络等形式表示。

2.聚类(Clustering):根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象叫做簇,并且对每一个这样的簇进行描述的过程。

其目的是使得属于同一个簇的对象应该彼此相似,而不同簇的对象应该足够不相似。

3.关联规则分析(Associationruleanalysis):某种事物发生时其他事物会发生的一种联系,这些规则展示属性-值频繁地在给定数据集中一起出现的条件,关联规则形式:X=>Y[S%,C%],其中,X、Y是空间或非空间谓词的集合,S%表示规则的支持度,C%表示规则的置信度。

3基于决策属性的分类-聚类个人信用评分模型就个人信用评分建模问题而言,待建模数据库假设为一个信用数据库,它是一个由属性、元组组成的二维表,称之为信用决策表。

属性分为条件属性和决策属性,各条件属性的取值可以是某段区间的连续值,也可以是多个离散值,决策属性取值为百分制。

初始样本集根据决策属性的分数作区段划分,得到多个大类别,为了进一步精确化,再对每一个大类别进行聚类分析,得到多个子聚类,对每个子聚类建立一个能拟合包含在其中的训练样本的子模型。

设训练样本集为S,S中共有N个样品,可以把它看作一个数据库,S的每个样品是一个元组(即<属性,值>对),根据决策属性的取值对训练样本集进行类别划分,划分后可记为:S1,S2,...,Sk,共K类样本子集。

对第i类的样本子集Si进行聚类分析,可得到Ni个子聚类Cji(第i类的样本子集Si的第j个子聚类)。

这里i=1,2,…,K,j=1,2,…,Ni,。

对每个子聚类Cji可建立一个子模型来拟合描述这个子聚类中的所有样本。

如图1所示。

按照上述方法,可以得到一个分类—聚类树,对于基层的子聚类,当某些子聚类满足一定的条件时就可以合并(融合)。

设A={C1,C2,...,Cm},B={Cm+1,Cm+2,...,Cn}分别为某空间中的由多个子聚类组成的集合。

集合A中的Ci(i=1,2,…,m)与集合B中的Cj(j=m+1,m+2,…,n)能否合并,可由以下判别方法决定:①若子聚类Ci的中心在Cj的边界所构成的区域内,且Ci与Cj有部分或全部空间重叠,则Ci可与Cj合并;②若子聚类Ci的中心在Cj的边界所构成的区域外,但Ci与Cj有部分空间重叠,此时需根据空间的比例及实际情况判断Ci与Cj是否可合并;③若子聚类Ci与Cj完全不重叠,则Ci与Cj不能合并。

针对每个子聚类,具体的建模方法可以使用基于粗糙集的神经网络建模方法、神经网络二分类法、径向基函数RBF学习算法、范例类比模型法和模糊C-均值聚类算法(FCM)等。

也可以采用RBF中的子聚类区域高斯函数描述法来确定其所辖范围,这相当于一个对待测样本判决其所属区域的开关;然后用BP神经网络模型来做结果评判(对于个人信用评分问题,其结果采用打分法)。

图1基于决策属性的分类—聚类模型图4决策树—神经网络个人信用评分模型图2基于离散属性分类的聚类模型图当完全采用决策树方法时,由于它使用信息熵或其它的启发式信息来选择充当分支结点的属性,用几率代替概率来计算信息熵,随着树的深入构造,误差将会越来越大。

同样,在建立个人信用评分模型时,当完全采用神经网络来对训练样本集建模时,如果训练样本集本身所蕴含的映射系统非常复杂,则神经网络的建立不仅费时而且低效,还可能得不到期望的结果。

230--邮局订阅号:82-946360元/年技术创新金融电子《PLC技术应用200例》您的论文得到两院院士关注基于“分而治之”的思想,本文提出一种决策树-神经网络方法。

首先,基于决策树算法思想对样本数据集进行粗划分(采用有用的离散条件属性充当决策树的分支结点属性),对所得高层决策树的每个叶子结点所属的样本子集进行聚类分析,得到代表每个局部分布特性的子聚类样本集;然后,对每个子聚类样本集进行建模拟合。

这种智能融合方法可以吸取前二种方法的长处,避开它们的短处,从而得到更好的样本集拟合及预测效果。

如图2所示。

其中,对于子聚类样本集的建模拟合,可以采用以下二种方法来实现:①子聚类样本点非矢量差建模:这种模型直接拟合子聚类中的训练样本点,可以采用神经网络来建模。

每个神经网络的输入为相应子聚类所属样本点的有用连续条件属性,网络的期望输出为每个样本点的决策属性取值,神经网络起到一个非线性映射系统的作用。

②子聚类样本点矢量差建模:对于任一子模型,其输入维数等于样本的有用连续条件属性数,取这个子模型所对应的子聚类中的所有样本矢量与核心样本矢量的矢量差作为输入,这样的子模型需要保存核心样本矢量(包含决策属性值)。

该方法类似于范例类比学习。

5近邻扩展聚类算法这里提出一种名为名为近邻扩展聚类法(Vicinage-ExtendedClustering,VEC)的样本聚类算法来对样本子集进行聚类。

设待学习样本集S={s1,s2,...,sn}。

1.初始化种子sα=s1,剩余集SL=S-{sa};2.从剩余集中按照某种扩展标准(如欧氏距离)来扩展种子的近邻,形成一个近邻集;3.If{当前种子的近邻集样本数大于阈值σ(目的是为了避免极端情况的错分);}Then{将这个种子与其近邻集组成一个聚类,再从这个聚类中选取一个其近邻集样本数大于阈值σ的样本替换为新的种子,继续扩展,得到的近邻集添加到这个聚类,直到聚类集中所有合乎标准(即其近邻集样本数大于阈值σ)的样本都作过种子为止,最后可得到一个聚类集;}Else{将这个种子标识为孤立点样本(其近邻集样本数为0)或边缘样本(边缘样本的近邻集样本数介入0和σ之间,它在第3步中可曾被归入聚类集);}4.将样本集S={s1,s2,...,sn}去掉已组成聚类的样本和孤立点样本,组成剩余集SL;5.If{剩余集SL非空;}Then{从剩余集SL中选取一个样本作为种子,转第2步;}Else{算法结束,得到的各个聚类集即为所求。

相关主题