评分卡相关内容
•
审批决策容易受主观因素影响、审批结果不一致,审批政策调控能力相对薄弱。
•
不利于量化风险级别,无法进行风险分级管理,影响风险控制的能力及灵活度,难以在风险与市场之间寻求合适的平衡点。
•
审批效率还有较大提升空间。
风险管理部
|
2 / 59
|
3 / 59
01
评分卡简介
原理:利用历史贷款客户数据预测未来申请贷款客户违约概率
• 数据的完备性 • 数据的有效性 • 数据的一致性
• 数据的完整性
• 数据的及时性 • 业务要求
风险管理部
|
10 / 59
数据处理和分析
—数据质量分析
为了满足建模要求,需要对经过质量控制的数据进行数据质量分析,得出多种统计指标。通过 对每个字段的统计指标的观察,初步判断该字段是否可以建模的过程中使用。数据质量分析主 要有以下两项:
• 信用评分卡具有一致性
在实施过程中前后一致,无论是哪个审批员,只要用同一个评分卡,其评估和决策的标准都是一样的。
• 信用评分卡具有准确性
它是依据大数原理、运用统计技术科学地发展出来的,预测了客户各方面表现的概率,使银行能比较准确地衡量风险、收益等 各方面的交换关系,找出适合自己的风险和收益的最佳平衡点。
—数据质量分析
含义 缺失值个数 0值个数 总个数 不同值个数 缺失值占比 0值占比 最小值 最大值 均值 方差 1分位数 5分位数 10分位数 25分位数 50分位数 75分位数 90分位数 95分位数 99分位数
变量类型
字符型变量
变量类别 类别1 类别2 …… MISSING 0值
变量分析指标 count count% total_count total_count%
新开账户数
个人住房贷款-# 个人住房贷款平均-$
350,000
平均每户合同金额
300,000 250,000
150,000 100,000 50,000 0
200,000 150,000 100,000 50,000 0
2004Q1 2004Q3 2005Q1 2005Q3 2006Q1 2006Q3 2007Q1 2007Q3 2008Q1 2008Q3
含义 个数 百分比 累计个数 累计百分比 缺失值个数 0值个数
变量类型
日期范围 最小年月 …… 最大年月 MISSING 0值
变量分析指标 count count% total_count total_count%
含义 个数 百分比 累计个数 累计百分比 缺失值个数 0值个数
日期型变量
风险管理部
|
13 / 59
开户时间 征信查询次数 逾期30天拖欠次数 居住状态 工作时间 现有客户 破产标识 审批决策 违约概率
25个月 0次 1次 租房 5+年 是 无
42 25 20 15 38 30 35 205 批准
+ + + + +
+ + +
+
批准
拒绝
2%
?
?
风险管理部
评分卡优势
• 信用评分卡具有客观性
它是根据从大量数据中提炼出来的预测信息和行为模式制定的,反映了借款人信用表现的普遍性规律,在实施过程中不会因审 批人员的主观感受、个人偏见、个人好恶和情绪等改变,减少了审批员过去单凭人工经验进行审批的随意性和不合理性。
理解数据的存储系统及彼此关系,知晓其历史变更情况及其对数据获取及质量的可能产生的影响。
风险管理部
|
8 / 59
数据处理和分析
—业务调研和数据采集
提取数据:根据项目需求结合不同的产品特点和业务应用需求,提供具体的数据提取模板。
• 开发样本:开发样本包括开发开发风险模型,制定业务策略和跟踪报表所需要的数据。
首次放款日(季)
风险管理部
|
15 / 59
数据处理和分析
—数据质量分析
账户状态的账龄分析(Vintage Analysis)
• 通过账户状态的账龄分析(Vintage Analysis),可以了解不同产品在不同时间点或不同时间段的账户的 逾期比例的变化,从而了解资产质量变化。
个人购房贷款
30.00% 25.00%
• 对公司产品和数据现状的理解 • 提取数据
风险管理部
|
7 / 59
数据处理和分析
—业务调研和数据采集
对公司产品和数据现状的理解
• 理解公司产品特点
理解产品风险暴露的特点,包括产品的定义,审批过程,审批政策和策略,管理策略,历史上的重大变迁,及未来发展趋势等。
• 理解公司和本项目相关产品数据存储结构及数据内容
%逾期
20.00% 15.00% 10.00% 5.00% 0.00% 0 5 10 15 20 25 30 35
MOB
Jan-06 Jun-06 Jan-07 Jun-07 Jan-08
风险管理部
|
16 / 59
数据处理和分析
—数据清洗
数据清洗:高质量的决策必然依赖于高质量的数据,数据清洗可以改进数据的质量,从而有助 于提高其后的数据挖掘过程的精度和效率。本项目数据清洗所采用的方法主要有以下三种:
数据处理和分析
—数据质量分析
风险管理部
|
14 / 59
数据处理和分析
—数据质量分析
生成双向或多维交叉表报告
• 双变量分析报告可帮助检测变量之间关系的正确性。多维交叉表报告方便工作人员全面地理解公司数据, 并更有助于发现潜在的异常情况。
个人住房贷款新开账户数和平均每户合同金额
250,000 200,000
• 验证样本
模型开发结果必须经过验证,不论何种风险模型。在模型的开发过程中需要进行预留样本的验证和跨时间样本的验证。 预留样本验证是通过随机抽样的方式,选取一定比例的样本进行评分模型的开发,并用余下的样本进行评分模型的检验。其目的在于 使用未在任何建模过程使用的独立样本来判断评分模型的辨别力及其稳定性。 跨时间验证是一个在模型开发之后进行的验证工作。该验证的目是检验基于开发样本建立的模型在不同时点的样本上,是否有相似的 预测和排序能力及其跨时间稳定性。
• 忽略样本。若该条样本有多个变量存在缺失值,一般采取直接删除的方法。 • 使用一个全局量填充。将遗漏的变量用同一个常数(如“unknown”)替换。这样数据挖掘程序可能会 认为此数据项形成了一个新的概念,即都有一个相同的值—“unknown”。 • 均值/中位数补救法:对于数值型字段,可以使用样本均值或中位数补救;对于分类型字段,可以使用 中位数补救。 • 频度最高值补救法:对于分类型字段,使用出现频度最高的类别补救;对于数值型字段,可以通过先分 箱,然后使用出现频度最高的分箱的均值或者中位数进行补救。 • 使用推导的值填充值。使用聚类的均值补救或者基于分类的插值补救、回归、贝叶斯形式化方法或者判 定树归纳等基于推导的工具预测缺失值。
• 分箱。分箱的方法通过考察临近变量来平滑存储数据的值,存储的值被分布到一些箱中,拥箱中的中值 或者均值等替代箱中的变量,进行局部平滑。 • 聚类。将近似的值组织成“类”,然后用同一个值代表这一类。 • 计算机和人工检验结合。通过计算机和人工检查的办法来识别异常值。例如,制定一个规则找出可能有 异常的数据,然后人工筛选出真正的异常数据。
评分卡相关流程介绍
2017年9月
人工审批难题
人工审批作业形式,审批依据是审批政策、客户提供的资料及审批人员的个人经验进行审批判断,存在 以下问题:
•
信审人员对申请人所提交申请资料真实性的认定基本依赖于受理申请资料的信贷业务员的职业操守和业务素质,审批人员对申请人资料的核实手段基本 依赖于电话核查,对申请核准与否基本依赖于自己的信审业务经验,授信审查成本高、效率低而又面临很大的欺诈风险,这种状况很难应对业务需要。
• 对于连续性变量,不能直接由频数分析得到其分布,而需要通过均值类统计方法检测均值、中位数、极 大值、极小值和一些区间值,从而进一步地检查数据的准确性以及判断该字段的分布是否符合逻辑和业 务实际。 一般来说,单变量分析主要检验主键唯一性(数据集)、缺失率(数据集)、逻辑性检查和其他检查(业 务范围场景)。
风险管理部
|
9 / 59
数据处理和分析
—数据质量分析
根据数据提取需求模块进行数据提取后,为了保证后续的分析工作建立在高质量数据的基础上, 需从以下6个维度建立一系列测量指标,对数据进行评估,确保数据可用状态,识别数据中可 能存在的各种问题,探究数据缺陷的成因,制定数据清洗规则和实施框架,完成对原始数据的 整理,并对未能达到建模要求的数据提出补救方案,找到适合建模的数据维度。
|
5 / 59
数据处理和分析
数据处理和分析 评分卡模型开发与 验证 评分卡应用策略开 发 监控报表
• • • • •
业务调研和数据采集 数据质量分析 数据清洗 衍生变量设计 数据进一步分析
风险管理部
|
6 / 59
数据处理和分析
—业务调研和数据采集
通过设计问卷调查、访谈、统计分析等专业数据分析方式,对公司进行业务调研,了解公司 的前端业务流、后台数据采集点、数据库设计及存储情况,深刻理解公司当前的数据现状、 业务实际及系统运行环境和产品结构,分析公司自有数据存在的缺失敞口,包括申请表数据、 央行征信数据、业务表现数据和其他三方数据等。该部分工作包括:
•
信用评分是指根据客户的各种历史资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客户按时还 款的可能性,据此决定是否给予授信以及授信的额度和利率。
•
虽然授信者通过人工分析客户的历史信用资料,同样可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。 预测变量 变量值 分数 审批人1 审批人2