当前位置:文档之家› 第三讲:信用评级模型

第三讲:信用评级模型

•因全部的数据文件仅为1000个观察样本,所以选择全部的数据建模; •数据集设为RAW角色; •在数据中,good_bad变量反映了客户信用的响应变量,因此,预备选择 good_bad为建模模型的目标变量,修改good_bad变量为Target角色。
a exp b x 1
Interval变量有三个(durations、 amount和age),其它均为分类变量。 观察good_bad变量直方图:
•Marital:性别与婚姻状况 •Age:年龄 •Resident:在现住所的居住年数 •Telephon:电话号码
个人和金融Leabharlann 量•Checking:银行帐户情况 •Savings:存款数量 •History:使用信用卡情况 •Property:财富、保险情况 •Coapp:担保情况 •Job:职业类型 •Employed:工作年限 •Foreign:是否是外国职员
personal status and sex 1: male -- divorced / separated 2: female -- divorced / separated / married 3: male -- single 4: male -- married / windowed 5: female -- single
第三讲:信用评级模型
主讲:梁满发
工作目标
信用评级就是对贷款申请者进行信用评估,目的是减少贷方(银行、投资 公司、信用卡公司)的金融风险。 信用评级模型还可用于人才甄聘、绩效考核、投资风险评估、犯罪识别等 工作中。 现在我们以某金融机构对客户信用卡申请审批工作为背景,运用数据挖掘 方法建立信用评分的模型,对申请者给以信用评分,产生一个自动决策系统帮 助决定接受或拒绝信用申请。 我们把信用合格者视为响应,不合格者视为非响应。我们要作信用评级 就是寻找信用合格者与不合格者之间的行为模式或社会背景的差别,以此来 判别某种特定的申请者信用。因此,我们必须要有足够的高质量的客户信用
数据探测
首先,我们要初步了解目标变量和其它变量的分布,目的是:
数据是否存在大量的缺失值; 数据是否可能存在严重影响建模稳定性的奇异数据; 变量服从的分布是否适合模型条件。
其次,我们要作一般变量与目标变量的交叉分析,以了解其它变量与目标 变量的相关性和优势率。目的是: 选择建模重要变量,减少参与建模的变量,提高计算效力; 检查变量间的共线性性,提高模型精度; 为模型解释作好准备。
一方面,因Duration变量的平均值为20左右,分布偏左态;另一方面,
金融行业习惯将贷款分为”长期贷款“和”短期贷款“的概念。因此,决定 期”低于18月的称为“短期贷款”,变量值对应为“0”。新变量命名为 “deadline”。 将“贷款期”超过18月的称为“长期贷款”,变量值对应为“1”;将“贷款
数据变换
•插入Create Variable节点作数据变换; •定义反映信用响应的新响应变量good_badn,作为建模的目标变量。
我们观察Duration变量的分布:
从直方图中知, Duration变量值从4~72,值太多,不利于信用模型的 解释。因此,为了简化分析,即使丢失一点信息,我们还是应该将Duration 变量化为二值变量。
P Y 1
因为Checking变量有四个值,信息冗余,不利解释响应变量,因此,
我们将Checking拆分为两个变量,即
good_Checking表示”好帐户“,即“余额大于200马克”为1,其它 为0; bad_Checking表示”坏帐户“,即“负余额”为1,其它为0。
一旦根据数据计算出 i ,就能得到
housing
input
nominal
installp
input
interval
installment rate in percentage of disposable income
job
input
ordinal
job 1: unemployed / unskilled non-resident 2: unskilled resident 3: skilled employee / official 4: management / self-employed / highly qualified employee / officer
martial
input
nominall
other
input
nominal
other installment plans 1: bank 2: stores 3: none property 1: real estate 2: if not 1, building society savings agreement / life insurance 3: if not 1 or 2, car or others 4: unknown / no property purpose 0: new car 1: used car 2: furniture / equipment 3: radio / television 4: domestic appliances 5: repairs 6: education 7: vacation 8: retraining 9: business x: others
telephon
input
binary
具体工作目标:
(1)找出影响信用重要因素,决定信用评级考查的重要内容; (2)建立信用评分模型,找出信用高或信用低的人群特征; (3)编写信用评分模型程序代码; (4)计算申请者的信用得分,并完成准批还是拒绝工作。
数据抽样
•插入input data source节点,选取SAMPSIO库中的DMAGECR 数据文件;
IG(m) y 1 h g z
k
变量筛选
下面我们探索其它变量与目标变量的关联强度,这是寻找变量在识别响应
中的效果的工作。虽然,一元分析不能完全提示变量间的关系,但它是建立多
观察数据,既要包括足够的响应和非响应,以及相应的客户金融行为信息和
社会背景信息,这些信息可是区别不同信用者因素。
在此,我们有某德国银行的客户信用的历史数据,数据文件名为 SAMPSIO.DMAGECR。数据含有1000个申请者观察,其中有21个变量, good_bad是表示信用的二值响应变量。它是从银行内部一个更大的数据库 中抽样出来的,原数据库中仅有10%的响应(信用不合格者),为了有足 够的响应数据供分析,才取了重抽样方式,抽取的样本中响应占样本数的 30%。 除good_bad变量外的其它20变量意义如下: 社会人口变量
property
input
nominal or ordinal
purpose
input
nominal
resident savings
input input
interval nominal or ordinal
present residence since status of existing saving account or bonds 1: ... < 100 DM 2: 100 <= ... < 500 DM 3: 500 <= ... < 1,000 DM 4: ... >= 1,000 DM 5: unknown / no saving account telephone 1: none 2: yes, registered under the customer's name
Model Role input input input
Measurement interval interval nominal or ordinal
Description age in years credit amount status of existing checking account 1: ... < 0 DM 2: 0 <= ... < 200 DM 3: ... >= 200 DM 4: no checking account
样本的响应变量,即设置为target角色,其它设为input角色。但创建的
新变量的信息代替了旧变量信息,所以在后面建模中要去掉旧变量,即 把good_bad、checking、duration、marital设置为rejected角色。 good_badN、good_checking、bad_checking、sex、martials五变 量New Measurement设为binary。
具体贷款变量
•Amount:信用卡保证金 •Purpose:贷款目的 •Duration:贷款期 •Installp:可支配收入情况 •Other:其它资产
债权人财产变量
•Housing:房产情况 •Depends:动产数 •Existcr:在本银行是否有信用卡
Variable age amount checking
existcr foreign
input input
interval binary
good_bad history
target input
binary ordinal
credit rating credit history 0: no credits taken / all credits paid back duly 1: all credits at this bank paid back duly 2: existing credits paid back duly till now 3: delay in paying off in the past 4: critical account / other credits existing (not at this bank) housing 1: rent 2: own 3: for free
相关主题