当前位置:文档之家› 基于改进朴素贝叶斯模型的信用评估

基于改进朴素贝叶斯模型的信用评估


ail , y=j
ck
Hale Waihona Puke +λ( ) Pλ x= (i) ail |=y c= k
j =1 N
( ) ∑ I y=j ck + Siλ
(6)
j =1
其中 λ > 0 ,特别地当 λ = 1时为拉普拉斯平滑。 2.2. 独立分量分析
ICA 是信号处理领域的一种统计方法,其主要任务是把混合信号分解成若干个独立的信号。图 1 为
WTX

最大,根据
Kuhn-Tucker
条件,在
E

W
T
X= 2
( ) 条件下,当 E G W T X 最大时有:
W=2 1
( ) = F (W ) E XG W T X= − βW 0
(10)
( ) 式中 β 为恒定值, β = E W T XG W T X ,由牛顿法对式(10)求极大值得 W 的迭代式为
1411
应用数学进展
吴皋 等
2. 相关理论基础
2.1. 朴素贝叶斯算法
{ } 假设分类任务的输入特征为 n 维向量 x(1) , x(2) , , x(n) ,输出类别 y = {c1, c2 , , cK } ,则朴素贝叶斯
公式为:
( ) n
P( y)∏ P
x(i) | y
( ) ( ) P y | x(1) , x(2) ,
关键词
信用评估,独立分量分析,线性判别分析,朴素贝叶斯
Copyright © 2019 by author(s) and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). /licenses/by/4.0/
Advances in Applied Mathematics 应用数学进展, 2019, 8(8), 1410-1417 Published Online August 2019 in Hans. /journal/aam https:///10.12677/aam.2019.88165
(8)
G (⋅) 是一个非二次函数,常用的形式有如下三个[12]
G1
(
y)
=
1 a
log cosh (ay)
G2= ( y)
exp


1 2
ay
2

(9)
G3 ( y) = ay4
其中 a 通常取区间(1,2)的常数。
( ) ( ) 要使(7)式最大,只需 E G (Y ) = E G
Open Access
1. 引言与文献综述
随着近年来互联网技术的快速发展,涌现出很多贷款模式,比如 b2C 贷款、P2P 贷款、P2C 贷款等。 这些贷款模式的出现给人们带来方便的同时也增加了相关金融机构的风险压力,金融机构只有精确地对 个人进行信用评估后才能降低贷款的风险。然而,个人信用由多方面因素组成,其中就包括个人基本信 息、信贷记录、个人财产等。因此在复杂的因素环境中设计出一个好的信用评估模型对于金融机构来说 具有重要的意义。
收稿日期:2019年7月29日;录用日期:2019年8月13日;发布日期:2019年8月20日
摘要
伴随着消费信贷的快速发展,激起了对个人信用评估的需求。为了帮助金融机构更好的了解个人信用情
*通讯作者。
文章引用: 吴皋, 贺雪媛, 李明. 基于改进朴素贝叶斯模型的信用评估[J]. 应用数学进展, 2019, 8(8): 1410-1417. DOI: 10.12677/aam.2019.88165
独立分量分析(ICA)作为盲源分离的一种重要统计方法,最大特点就是通过其处理后的数据具备独立 性,能够满足 NB 算法对特征独立性的要求。随着 ICA 的快速发展,学者们已经提出很多种 ICA 的变体, 其中用得最多的当属 HyvarinenAapo 提出的 FastICA [9]。线性判别分析(LDA) [10]作为一种降维方法,优 势在于它是一种有监督学习方法,经其降维后不同类别的样本尽可能分开。
ICA 模型的简单表示,其中 S = [s1, s2 , , sn ] 为 n 维未知独立成分,一般假设该 n 维分量的均值为 0 方差 为 1,A 为 m × n 维的未知混合矩阵, X = [ x1, x2 , , xm ]T 为 m 维观测变量,W 为解混矩阵,ICA 的主要任
务是求解矩阵 W,使得输出 Y = W T X 是 S 的最佳逼近。
然估计得到两个概率值为:
( ) N
∑ I y j = ck
P (=y c= k ) j=1 N
= , k 1, 2, , K
(3)
( ) ∑N I= x(ji) a= il , y j ck
( ) P x= (i) ail |=y c= k j=1 N
( ) ∑ I y j = ck
(4)
j =1
{ } 其中 ail 表示第 i 个特征 x(i) 在集合 ai1, ai2 , , aiSi 中的第 l 个值,i = 1, 2, , n ;l = 1, 2, , Si ;且 n 表示特
DOI: 10.12677/aam.2019.88165
1412
应用数学进展
吴皋 等
Figure 1. Simple block diagram of independent component analysis 图 1. 独立分量分析简单框图
评价 Y 中各分量独立性的常见准则有信息最大化、负熵最大化等。基于这些评价标准,衍生出了很 多 ICA 的实现方法,比如 JADE、FastICA [11]等。本文采用负熵最大化的 FastICA,负熵定义为:
Received: Jul. 29th, 2019; accepted: Aug. 13th, 2019; published: Aug. 20th, 2019
Abstract
Along with the rapid development of consumer credit, the demand for personal credit assessment has been aroused. To help financial institutions better understand their personal credit situation, combining the advantages of Fast Independent Component Analysis method (FastICA) and Linear Discriminant Analysis (LDA) to extract data features, a credit evaluation model called FastICA-LDA-NB is proposed, which is based on the improved Naive Bayesian classification algorithm. Applying the model to the UCI German personal credit data set, the proposed model has a good credit evaluation effect on the two evaluation index values of accuracy rate and recall rate.
其中 NB 算法因其扎实的概率论基础、简单的模型结构和稳定的分类能力等优点,在很多分类任务 中得到了广泛的应用。然而 NB 算法需要满足特征之间独立,这在现实中很难满足,往往是特征之间越 不独立,其分类效果就越差。针对此问题,模型融合是一种有效克服特征独立性假设问题的策略。比如 叶晓枫等首先通过随机森林算法对信用数据集提取特征,然后用 NB 算法训练所提取的特征,研究表明 此两种算法的融合能够提高信用预测精度[5]。徐屾等从三个不同角度提出了三种改进的 NB 信用评估模 型,并在其实验中取得较好的评估效果[6]。秦锋等将快速独立分量分析(FastICA)与 NB 算法融合得到 FastICA-NB 模型,该模型将原始样本投影到独立的特征空间,从而获得具有独立性的新样本,进而改善 分类效果[7]。李楚进等针对独立性要求采用 PCA 的改进方法得到了融合的 PCA-NB 模型,该模型将原 始特征变换为不相关特征,提高了 NB 的分类效果[8]。
综上所述,结合 FastICA 和 LDA 的优势,提出一种基于模型融合改进的 NB 分类算法—— FastICA-LDA-NB。将所提模型应用于 UCI 上的德国个人信用数据集,实验结果表明 FastICA-LDA-NB 具有较好的个人信用评估能力。
DOI: 10.12677/aam.2019.88165
Credit Evaluation Based on Improved Naive Bayesian Model
Gao Wu1, Xueyuan He1, Ming Li2*
1College of Mathematics, Taiyuan University of Technology, Jinzhong Shanxi 2College of Data Science, Taiyuan University of Technology, Jinzhong Shanxi
征总数,Si 为特征 x(i) 取值集合的大小。式(3)和(4)中概率估计值的分子可能会出现零,对后验概率计算 产生影响。可采用贝叶斯估计解决该问题,即式(3)、(4)分别修改为:
( ) N
∑ I y=j ck + λ
Pλ (=y c= k ) j=1 N + K λ
相关主题