商业银行内审技术和方法
Benford 概率
应用
1. 检查财务数字信息是否真实 2. 发现信用卡套现商户
24
举例 :Benford定律—特定客户群体风险研究
数据准备 采集流水数据268731条,涉及36596个客户 忽略具体交易金额,只取每一客户流水金额的 首数字,统计其出现的频率:
客户号 XX 1
0.1703
首数字概率统计
…
大数据平台
…
业务场景举例:客户视图
业务系统数据
客户基本 产品信息 账户信息 交易信息 ……
传统客户画像数据仅仅来自业务 系统,事件信息、关系信息、 等多类信息缺失或不足,很难 形成准确、全方位的画像。引 入大数据,实现了客户360o立 体画像
客户资产相关 信息 …… 客户资产 信用评级 信息 黑名单 客户风险 …… 信息 客户利润 贡献度 客户财务 信息 …… 客户沟通 信息 客户建议信息、申 请信息、沟通信息、 回访信息、投诉信 息、调查信息等
•
决策树 Logistic回归模型
•
1.3.4.5 Benford定律
概念
所有自然随机变量,只要样本空间足够 大,每一样本首位数字为1至9各数字的 概率在一定范围内具有稳定性。
数字 概率
1
0.3010
2
0.1761
3
0.1249
4
0.0969
5
0.0792
6
0.067
7
0.058
8
0.0512
9
0.0458
1.2 审计数据采集处理技术 随着我们所获取的数据变得越 来越庞大,我们也正在逐步 逼近全体数据,数据获得的 边界便是审计的边界。
1.2数据采集处理技术
数据源
财经网站 专业网站
数据存储、处理和分析
行业网站
政府网站
监管信息
论坛/博客
互联网数据
社交媒体 初级分析/数据过滤系统
风险分析平台
(识别、监测)
1. 明确核心客户
2. 识别关键客户的身份背景,并审计 同其他客户的交易背景
• 某担保公司实际控制人,并为某商会会长
二.商业银行内审方法
1
审计作业标准化 风险评估方法 审计项目检查方法
2
3
2.1 审计作业标准化
运用精益六西格玛管理工具,系统科学地梳理审计工作,提高审计工作 的质量和效率,降低审计风险,发挥审计价值。
• 在聚类分析中,如果一个对象不强属于任何类,那么该对象是基于 聚类的离群点。
1.3.4.3相关性分析
• •
使用目的:研究变量或事物之间是否有关系以及关系密切程度 衡量方式:相关系数
21
1.3.4.4 分类
“分类”所要解决的问题是为一个数据对象归类, 即确定一个特定的对象属于哪一类别。分类工作的 任务就是要构建一个分类模型(或称:分类器)。 分类技术和回归技术均可用于预测,分类的输出是 离散的类别值,而回归的输出是连续数值。 分类模型是通过对那些已知的历史数据学习(或训练)出来的。
审计用户
数据收集 互联网数据 收集
监测客户名单
授信申请
工商税务 海关
安监质监 不动产
公检法 社保 环保 水电
重点客户 关注 行业 /区域 预警推送
数据分析处理服务
授信审批 风险名单 (黑名单、灰名单) 贷后监控
专项数据
风险报告
人行征信 各地方征信平台 第三方征信平台
风险信号库
模型库
批量调用
客户管理
后督 运营
道德 合规
行内数据
--业务管理类系统 --数据分析类系统 信用 操作
风险数据集市
其他主题。。。数据集市
大数据平台
原始数据
1.2 数据采集技术
数据分类:
• 内部数据VS外部数据 • 结构化数据vs非结构化数 据
内部数据vs外部数据
内部数据:目前银行内部数据主要是 联机交易数据和联机分析数据, 是最主要的数据,包括:
19
1.3.4.2 聚类
在数据挖掘中,“聚类分析”基于“物以类聚,
人以群分”的朴素思想,根据数据特征属性对
数据样本进行区分。尤其当不知道数据样本所 带标签时,可以使用聚类技术促使带同类标签 的数据与其他标签的数据相分离。
• 在聚类分析中,类别中样本的相似性越大,类别间样本的差别越大,
聚类的效果就越好。
结构化数据
• • • • 会计报表 客户结算 业务台帐 ….
非结构化数据
• • • • • • 监控录像 客户之声 信贷档案 会计影像 贷款审批意见 …
1.3
审计检查分析技术
• 1、业务场景、流程还原
• 2、风险数据、审计经验历史积累 • 3、可视化SQL技术
• 4、数据挖掘技术
1.3.1业务场景、流程还原
• • • • • • • • • 报表 传票 客户账户和交易 合同或协议 机构、渠道和产品 业务运营 业务审批 业务档案 客户之声反馈数据
外部数据: • 人行征信 • 工商登记 • 法院、环保 • 第三方支付 • 海关、税务 • WIND • 第三方公司风险数据集成 • 互联网爬虫 ……
结构化数据VS非结构化数据
1、审计工作流程标准化 2、审计检查要点、标准和步骤的规范化
2.1.1审计工作流程标准化
审计部内部控制评价流程-优化后
董事会审计委员会
总部
确定评价对象
区域中心首席
风险评估
审计组组长
主审
小组长
组员
被审计机构
风险评估
审议
形成年度计划
风险评估
确定项目时间和人员 制定审计方案 项目立项
确定项目负责人
批准
审批
2
0.003
3
0.0099
4
0.1247
5
0.1597
6
0.0928
7
0.0897
8
0.1878
9
0.162
流水数
1315
计算每一客户流水首数字概率与Benford概率的相关性, 记为r(上例r=0.1104) 定量分析
疑点数据
25
举例 :Benford定律—特定客户群体风险研究
疑点数据
序 号 1 2 3 4 5 6 7 8 1336XXXXX 9 10 10359XXXXX 10014XXXXX 客户号 10232XXXXX 10163XXXXX 11659XXXXX 12123XXXXX 10741XXXXX 10082XXXXX 10813XXXXX 首数字为0 0 0 0 0.003 0.0006 0 0 1 0.0047 0.0025 0.0194 首数字为1 0.1703 0.1133 0.1204 0.1263 0.1943 0.091 0.194 0.2091 0.177 0.1686 首数字为2 0.003 0.0577 0.1068 0.0832 0.0317 0.2162 0.05 0.0919 0.1077 0.1221 首数字为3 0.0099 0.0588 0.0583 0.0594 0.0508 0.1486 0.0852 0.03 0.0594 0.0678 首数字为4 0.1247 0.1784 0.1107 0.1367 0.0572 0.0613 0.0492 0.213 0.1448 0.1783 首数字为5 0.1597 0.5142 0.5359 0.4621 0.5906 0.4342 0.4838 0.0573 0.3453 0.312 首数字为6 0.0928 0.0168 0.0214 0.0594 0.02 0.0099 0.0939 0.0419 0.0371 0.0484 首数字为7 0.0897 0.0189 0.0194 0.0267 0.0287 0.0072 0.0114 0.0426 0.052 0.0446 首数字为8 0.1878 0.0294 0.0136 0.0282 0.0162 0.0108 0.0167 0.028 0.0235 0.0116 首数字为9 0.162 0.0126 0.0136 0.0149 0.01 0.0207 0.0158 0.2816 0.0507 0.0271 相关系数r 0.1104 0.1166 0.1578 0.1698 0.1944 0.2553 0.2618 0.3698 0.3836 0.4130 流水总 数 1315 953 515 673 6314 1110 1139 1502 808 516
……
客户基本 信息
客户名称 证件类信息 客户性质信息 …… 客户产品 信息 客户联 系信息 存款类产品 信贷类产品 证券类产品 …… 客户联系信息, 包括主要营业地 址电话、联系地 址、公司网址、 电邮地址等
客户维度
企业内外大数据
微博信息 社交网站流量日志 音频视频 ……
客户关系 信息
客户事件 信息
• • • • • • 客户视图 机构、渠道视图 产品视图 贷款视图 账户视图 ……
业务场景举例:客户视图
股东信息
高管介绍
法院信息
经营动态
审计检查工作
客户档案、交易、协议等 内部数据
360度客户全景视图
舆论信息
…
工商查询来的数据文件
审计平台
法院查询来的数据文件 数据存储管理 数据查询搜索
数据识别分析 互联网客户数据文件
审计常用数据挖掘技术 • 一般统计技术 • 聚类 • 相关 • 分类 • Benford定律
1.3.4.1.一般统计方法
1
频数分析
2
集中趋势 均值、中位数
3
离散程度 方差、标准差
衡量数据之间的差异 程度,如最大和最小 值差距多少。 方差和标准差: 每个数据与其均值相 比平均相差多少