当前位置：文档之家› 商业银行的个人信用评估研究：基于PCA-GA-BP算法

商业银行的个人信用评估研究：基于PCA-GA-BP算法

Value Engineering 0引言随着社会经济的发展，个人消费贷款越来越普及，如何评估贷款人的信用是各商业银行亟需解决的问题。

个人信用评估是对可能引起信用风险的因素进行定性分析、定量计算，以测算消费者的违约概率，可通过现有的样本数据建立模型预测未来申请人的信用行为，以区分出“好”客户和“坏”客户[1]（即能否还本付息），它属于多属性决策的分类问题。

目前人们已经提出多种分类方法[1-6]，并取得一定的应用效果，但由于数据属性较多，属性间的自相关性等各种实际情况使得信用评估问题仍未得到有效解决。

因此研究有效的信用评估方法具有理论意义和实用价值。

近年来，以神经网络为代表的新型客户分类技术得到了广泛应用。

BP （Back Propagation ）是目前应用最广泛的神经网络模型之一，它是一种按误差逆传播算法训练的多层前馈网络，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。

但是，BP 神经网络有诸如收敛速度慢、不能保证收敛到全局最小点、网络的中间层及其单元数选取无理论指导以及网络学习和记忆的不稳定性等缺陷。

于是，人们提出了许多改进算法，如用具有很强的全局优化能力的遗传算法（Genetic Algorithm ，GA ）优化神经网络的初始权值和阈值，以保证神经网络更精确地输出预测函数[7]。

事实上，我们需要信用评估的数据属性很多（如行为人的自然属性、社会属性、行为属性等），每个属性都包含多个维度，且变量间具有相关性，若直接对样本数据进行评估，则需要较好的硬件基础和较长的模型运行时间。

而主成分分析（Principal Component Analysis,PAC ）在处理信息重叠问题上具有巨大的优势和潜力，能更好地抓住事物的主要矛盾，大大缩减信用评估问题的空间维度，使模型得到简化。

基于此，本文将PCA-GA-BP 三者结合，提出一种基于主成分分析和遗传算法优化神经网络的个人信用评估方法，即利用主成分分析在处理大数据量、消除冗余信息等方面的优势，减少BP 网络训练数据的维度；利用遗传算法来训练BP 网络的权重和阈值形成遗传算法优化的神经网络模型（GA-BP ），以克服BP 网络的不足。

1PCA-GA-BP 的基本原理1.1GA-BP 网络预测模型一般BP 网络采用3层结构：输入层的个数由输入数据的特征维数决定；输出层的个数由输出状态数确定；隐含层节点个数根据经验公式计算，即p=m+l 姨+a ，a 为1~10的常数，m 个输入节点，l 个输出节点。

BP 网络的具体结构如图1所示。

因神经网络权值及阈值的随机初始化导致网络泛化能力不强，易陷入极小值，故需寻求最优权值及阈值。

已有的研究成果表明GA 优化神经网络具有很好的可行性。

GA 应用于神经网络的一个重要方面是用来优化神经网络的权重和阈值。

采用GA 训练神经网络的权值和阈值的优点在于不使用梯度信息、搜索效率高、具有很强的鲁棒性，———————————————————————基金项目：江门市哲学社会科学项目（JM2013B05）。

作者简介：王天擎（1976-），男，湖南长沙人，副教授，主要从事智能算法的研究工作；刘小清（1985-），女，江西萍乡人，硕士，研究方向为数据分析。

商业银行的个人信用评估研究：基于PCA-GA-BP 算法A Study on Individual Credit Evaluation for Commercial Bank Based on PCA-GA-BP王天擎WANG Tian-qing ；刘小清LIU Xiao-qing（五邑大学经济管理学院，江门529020）（School of Economics and Management ，Wuyi University ，Jiangmen 529020，China ）摘要：随着个人消费贷款的普及，贷款人的个人信用评估变得尤为重要。

本文选取德国和澳大利亚某商业银行的个人信贷数据为样本数据，采用主成分分析提取样本数据的主成分，通过遗传算法优化神经网络的网络结构、初始连接权值和阀值，然后将优化的神经网络算法用于个人信用评估。

与其他算法的准确率比较的结果表明，基于主成分分析—遗传算法—神经网络算法的个人信用评估准确率要高，而且模型的网络结构得到优化，运算时间也有缩短。

Abstract:This paper selects the personal credit data of a commercial bank in Germany and Australia,extracts the main component by principal component analysis,and then optimizes network structure,initial connection weights and thresholds of neural network by genetic algorithm,finally,according to this improved neural network technology,evaluates personal credit.Finally,it compares the accuracy based on this algorithm to these accuracies based on other algorithms.According to the results,the accuracy based on this algorithm is better than these accuracies based on other algorithms.关键词：商业银行；个人信用评估；主成分分析；遗传算法；BP 算法Key words:business bank ；personal credit evaluation ；PCA ；GA ；BP 中图分类号：F22；F830.5文献标识码：A 文章编号：1006-4311（2014）31-0161-03图1神经网络结构图·161·DOI:10.14018/13-1085/n.2014.31.090价值工程可以克服传统BP 算法易陷入局部极小和收敛速度慢的缺点。

GA-BP 模型通过设置相关参数和种群初始化，确定适应度函数、选择、交叉、变异等操作，当达到最大进化代数或连续几个最大适应值没有变化时，将最优个体反编码为BP 网络的连接权值和阀值。

采用此时的最优初始连接权值和阈值进行重新训练，建立最优信用评估模型预测个人信用，并输出最优预测结果。

1.2PCA 提取主成分为避免漏选对因变量有重要影响的因素，通常尽可能多地选择样本数据，而且实际中属性间或多或少地存在相关性。

当这些因素维度较高或属性的重叠性较高时，把它们作为BP 的输入，会增加模型的输入维数，使网络结构复杂，影响模型的预测性能。

个人信用评估问题属于多属性决策问题，PCA 的优势在于能够有效实现知识约减、去除属性相关性。

运用PCA 对GA-BP 的输入数据进行降维，简化GA-BP 的输入数据，在信息损失不太多的情况下，用少数几个主成分替代原始变量，以减少GA-BP 的学习任务、加速其学习进程。

因个人信用样本数据具有不同量纲，且属性也相差悬殊，故需对其进行数据标准化处理：x i *=x i -E(x i )var(x i )姨,i=1,2,…p其中，var(x i )=σii (i=1,2,…p)，p 为样本数据的维数。

将样本数据归一化为均值为0、方差为1的数据而变成标准化样本。

数据预处理后进行主成分分析，具体方法参见文献[8]。

1.3PCA-GA-BP 模型构建在模型的构建过程中，首先通过PCA 法去除GA-BP 模型输入数据的属性相关性，提取主成分，然后通过这些主分量来进行GA-BP 学习与预测信用类别，最终获得结果。

具体过程如图2所示。

2实证分析本文采用德国某商业银行（下文简称德国数据）和澳大利亚某商业银行（下文简称澳大利亚数据）的个人信贷数据（部分数据）进行实证研究。

德国数据共有1000个样本，好客户样本700个、坏客户样本300个，每个样本20个属性；澳大利亚数据总共有690个样本，好客户样本383个、坏客户样本307个，每个样本14个属性。

考虑模型输入的方便性，这两个数据集的所有属性都换成代号。

按照Kaiser 原则，我们选取特征值大于1的主成分，其余舍去。

本文用PCA 提取的主成分结果见表1。

德国信用数据的8个主成分分别是:现有支票账户、信贷期限、信贷历史纪录、贷款目的、贷款金额、储蓄存款账户、分期付款金额占可支配收入比率、资产，对应的代号分别为：v1、v2、v3、v4、v5、v6、v9和v19；而澳大利亚信用数据的5个主成分代号分别是：v1、v3、v4、v5和v7。

现定义GA 的运行参数，具体数据见表2。

另外，根据经验，BP 网络的隐含层节点数取p =m+l 姨+a ，a 为1~10的常数，即德国数据、澳大利亚数据分别取[4,13]，[3,12]中任意一个整数即可，本文取隐含层节点为10和9。

下面是模型运行结果。

随着遗传代数的增加，这两组数据的误差变化如图3所示。

为证明本算法的有效性，用matlab 中的SVM 工具箱、决策树工具箱运行本文数据，各模型的分类精度比较见表表1数据的PCA 提取结果数据类型主成分数信息利用率/%德国数据澳大利亚数据8588.286%85.66%表2GA 运行参数种群大小(NIND)最大遗传代数(MAXGEN)变量的二进制位数(PRECI)交叉概率（px ）变异概率（pm ）代沟(GGAP)5050100.70.010.95图2模型处理过程图图3数据误差变化图·162·Value Engineering 0引言21世纪以来，IT 行业随着信息化建设的快速发展而发生了巨大变化，开始逐渐规模化与集团化，广大客户对IT 企业的后续持续服务能力也更为重视。

中小IT 企业逐渐陷入困境，企业家们开始认识到在只有在激烈的市场竞争中进行转型升级才能生存并发展。

1企业转型升级的含义与内容所谓企业转型升级是指企业对自身长期的经营方向、远景目标、运营模式及其组织方式等进行的整体性转变，并对如何实现这个转变而进行的指导性与总体性策划，这是企业重新塑造其社会形象与市场竞争优势的过程，最终使企业能够达到新形态。

企业转型升级通常包含技术、市场以及人才的战略转型升级，企业的战略转型一般具有风险性、竞争性、全局性与指导性等特征。

2中小型IT 企业特征分析根据相关规定可知，中小型IT 企业指主要从事计算———————————————————————作者简介：钟伟开（1983-），男，广东广州人，华南理工大学工商管理学院2008级技术经济管理专业，技术总监，研究方向为技术经济管理。

e商务文档

商业银行的个人信用评估研究：基于PCA-GA-BP算法

相关文档推荐：