当前位置:文档之家› RapidMiner做信用风险评分分析

RapidMiner做信用风险评分分析

RapidMiner做
主讲:杜剑峰 商业智能与Web 智能
目录
1
2 3 4 5 商业理解 数据理解 数据准备 建立模型 模型应用
1 商业理解
背景
信用,对个人和企业都是无比重要的品质。比如有了信用,个 人可以向银行申请信用卡,可以透支国际长途电话费、汽车保 险打折等。对于企业,则可以大量透支和贷款。 所以,银行考查客户的信用状况是非常重要的事情。
2、数据理解
数据 实验采用数据 — 小额贷款.csv
变量名称 年龄 收入 孩子数量 家庭人口数 在现住址时 间 在现工作时 间 住房类型 国籍 信用卡类别 是否违约 变量取值 18~71 0~10000 0~23 1~25 0~360(月) 0~336(月) 租住、自有、缺失 德国、希腊、土耳其、西班牙、南斯拉夫、意大 利、其他欧洲国家、其他非欧洲国家 运通卡、支票帐号、欧洲Master卡、我行VISA 卡、他行VISA卡、其他信用卡、无信用卡 0、 1 说明 连续变量 连续变量,有一个异 常数值100000 连续变量 连续变量 连续变量,有异常数 值999 连续变量,有异常数 值999 离散变量 离散变量 离散变量 目标变量,1代表违 约,0代表不违约
140
200 220
收入(年)
收入≥300000
270
信用评分卡方法和案例
申请人1 变量 变量取 值 评分 变量 申请人2 变量取值 评分
年龄
自有商品房 收入(年)
31
是 90000
150
200 200
年龄
自有商品房 收入(年)
25
否 200000
120
110 220
信用评分:550 同意发放贷款
修改confidence(1)的阈值 修改后的阈值使分类代价(将1归类为0的代 价是30,将0归类为1的代价是1)达到最小 修改方法:
如何解决这个问题?
从0开始,每次将阈值加1% 计算阈值对应的分类代价,取最小的分类代价 及其对应的阈值
4、建立朴素贝叶斯违约评分模型
1 2 3 4
5
6
7
4.1 部件介绍-朴素贝叶斯模型
收入离散化 孩子数量离散化 在现工作时间离 散化 在现住址时间离 散化
4 建立模型
4. 建立模型与模型评估
建立什么模型?
朴素贝叶斯模型,预测违约评分(0~1) 对于违约的预测能力差:违约 类的查全率很小,接近0
朴素贝叶斯模型有什么问题? 为什么存在这个问题?
在朴素贝叶斯模型中,判定违约的后验 概率confidence(1)的阈值设定为0.5
1 Read CSV
1
2
Declare Missing Value
2
4.1 部件介绍-朴素贝叶斯模型
3
Declare Missing Value
3
4.1 部件介绍-朴素贝叶斯模型
4
Discretize
4
5
Set macro
5
4.1 部件介绍-朴素贝叶斯模型
6
Loop
6
7
Append
7
4.2 子过程- 循环计算分类代价
3 数据准备
3.数据准备
离散化
Why?
部件名称
年龄离散化
离散化可以降低异常数值的影响 离散化使贝叶斯评分模型更易理解
表达式(可以使用基于熵的离散化产生该效果)
if(年龄<=22,"1.<=22",if(年龄>22&&年龄 <=27,"2.23-27",if(年龄>27&&年龄<=45,"3.2845","4.>45"))) if(收入<=0,"1.=0",if(收入>0&&收入<=2300,"2. 0-2300","3.>2300")) if(孩子数量==0,"1.=0","2.>0") if(在现工作时间<=15,"1.<=15",if(在现工作时间 >15&&在现工作时间<=84,"2.16-84","3.>84")) if(在现住址时间<=15,"1.<=15","2.>15")
问题 如何获取数据?
2、数据理解
问题 其他的数据来源
来源:

银行还可以从系统中提取大量关于贷款人的资金 使用、消费、以及还贷款的情况数据,这些数据 包括(但不限于)以下变量: 帐户存在时间 过去12个月最严重的拖欠行为(没有拖欠、1个月 拖欠、两个月拖欠等) 过去12个月的平均贷款金额 过去6个月的还款占欠款比例 过去6个月现金提取占交易金额比例 过去6个月平均刷卡额 过去6个月消费(刷卡)类型
小额贷款问题可以理解为有目标变量的预测问题,根据目 标变量是否违约,来预测信贷帐号是否有风险。 客户是否按期归还贷款? 银行把按期归还贷款理解为”好“的信贷帐号,对应的客 户为”好“客户; 把不能按期归还贷款的理解为”坏“的信贷帐号,对应的 客户为”坏“客户。
4
2、数据理解
问题 如何获取数据??
2、数据理解
信用评分:450 拒绝发放贷款
信用评分卡优缺点:
优点:便于理解和使用,容易被各层次的人员了解和使用;
缺点:假定各项因素对信用的影响关系是线性组合的。该
假定在现实中并不普遍成立。
2 数据理解
2、数据理解
问题
1 2
怎样将贷款风险问题转化为数据挖掘问题? 如何获取数据?
2、数据理解
问题 怎样将贷款风险问题转化为数据挖掘问题? 1 2 3
评分特别低和特别高的客 户很少,大多数评分中等
信用评分卡方法和案例
变量 属性 分值
年龄
年龄 年龄
年龄<25
25≤年龄<35 35 ≤年龄<50
120
150 180
年龄
自有商品房 自有商品房
年龄≥50
是 否
150
200 110
收入(年)
收入(年) 收入(年)
收入<30000
30000≤收入<100000 100000≤收入<300000
6
6.1 6.2
6.3
6.4
4.2 子过程- 循环计算分类代价
6.1
6.2
6.3
6.4
4.2 子过程-交叉验证
6.2
6.2.1
信用评分
信用评分的方法是什么?
怎样计算户的信用评分?
信用评分是使用统计模型的方法来对潜在客户和已有客 户进行贷款风险评价的方法。 随着这种统计建模的方法的成熟应用,其思路已被广泛 推广,诸如欺诈评分、市场响应评分等领域。
信用评分方法
怎样考查客户的信用?
在美国,客户信用评分系统主要由 FICO公司推出。FICO的评分系统得 出,信用评分范围在300-850分之 间,评分越高,违约率越低。 在我国银行业,比较通用的方法也 是类似的形式 。
相关主题