当前位置:
文档之家› 数据挖掘应用实例-银行客户数据分析
数据挖掘应用实例-银行客户数据分析
聚类结果分析(最低及最高交易账目 )
• 明显聚类特征:
• 聚类3的最低交易账目和最高交易账目的均值都最高, 这说明该类账户一般是有大数额的资金流入。
• 聚类9的最低交易账目和最高交易账目的均值都最小, 属于透支最多的一类,这说明该类账户是属于透支型的 账户,透支额维持在一个比较高的水平,且其最高交易 额平均也达负一万两千多,说明这类型账户平均很少正 向资金存入。
数据预处理
• 我们选用Weka数据挖掘工具来对客户的账户数据进 行分析,因此所有的原始数据都必须转换成能被We ka处理的数据集格式。 • 原始数据集的特征主要有四种类型的,分别是:数 值型(numeric)、标称型(nominal)、日期型(date)和 字符串型(string)。
• 对于缺失的属性值,因为Weka中的算法能自动处理 属性值缺失的情况,所以按Weka数据集的格式要求 用“?”表示。
4
数据集(属性)
• • • • • • • • • • •
5
Count of Debit this Month(这个月取款的次数) Count of OD(透支的次数) Amount of Deposit this Month(本月存款的账目) Amount of Withdraw this Month(本月取款的账目) Last Transaction Date(上一次交易的日期) Country Code(客户所属的国家) Birthday(生日) Sex(性别)
• 把各聚类的数据集还原为原始数据后,再计算各特征的均 值和标准差(数值型的特征);或者各标称量的数量(标 称型的特征)。
11
聚类结果分析(账户当前余额 余额的均值和标准差
聚类 聚类1 聚类2 聚类3 聚类4 聚类5 聚类6 聚类7 聚类8 聚类9 聚类10 当前余额正负 + 145 69 133 6182 1985 119 46 380 0 368 – 0 0 0 1 0 94 0 66 413 0 当前余额值 均值 24445.50 29164.41 152882.48 5571.17 22102.61 8432.82 2093.91 7729.67 -24728.68 36264.24 标准差 73408.73 78077.97 604633.58 23957.76 64825.42 18680.66 5798.48 33233.11 61844.23 93389.14
16
聚类结果分析(最低及最高交易账目 )
• 聚类4这个最大的客户群的最低和最高交易账目的平均值保持 在一个中等的水平,最低四千多,最高八千多; • 第二大客户群聚类5的最低和最高交易账目的均值都较聚类4高 很多,这也同样能够说明聚类5是大量的中等偏高的存储客户。 • 聚类7的最低和最高交易账目都较低(正值),属于小额储蓄 客户。 • 聚类6和聚类8的最低交易账目平均为负值(属于透支),最高 交易账目平均为正值(属于储蓄),因此该类型客户属于有储 蓄有透支的信用消费型客户。 • 聚类1,2,10在这一属性上还不能分析出很明显的聚类特征
1531141.41
130475.92 239671.98 856644.63 15650.27 2107278.80
26
10.36 26 22.37 0.61 26
0
4.39 0 2.61 1.31 0 18
聚类结果分析(透支账目/存款账目 )
• 聚类3的聚集存款账目很高,均值达三百多万,该类型客 户几乎不透支,但该类型客户的聚集存款账目的标准差 也奇高,达一千五百多万,这也印证了前面所说的高收 入群体中的各个体收入差距还是很大的。
17
聚类结果分析(透支账目/存款账目 )
• 下表所示为聚集透支账目及透支账目天数、聚集存款账目及存 款账目天数的均值和标准差。
聚集透支账目 聚类 聚类1 聚类2 聚类3 聚类4 均值 0 0 0 0 标准差 0 0 0 0 透支账目天数 均值 0 0 0 0.00 标准 差 0 0 0 0.03 聚集存款账目 均值 621553.94 862332.67 3987771.63 145729.02 标准差 1893055.17 2188134.51 15631280.74 582818.60 存款账目天数 均值 26 26 26 26.00 标准差 0 0 0 0.03
2
数据集
• 客户数据集包含10,000条客户数据 • 包含有31个特征(属性), 分别为:
• • • • • • • • • • Bank No(银行代码,其值有:004,024,077等) Account num(账户代码) Short Name(客户名字) First Contact Date(第一次接触日期) account open date(账户开户日期) account balance(账户当前余额) account low balance(账户曾经最低余额) account high balance(账户曾经最高余额) balance category(余额类型) Statement Low Balance(最低交易账目,有正有负)
14
聚类结果分析(最低及最高交易账目 )
• 下表所示为各聚类的最低交易账目和最高交易账目的均值与 标准差
聚类 聚类1 最低交易账目 均值 21710.57 标准差 67398.29 最高交易账目 均值 30649.77 标准差 87211.66
聚类2
聚类3 聚类4 聚类5 聚类6 聚类7 聚类8 聚类9 聚类10
12
聚类结果分析(账户当前余额 )
• 最明显的特殊客户群有两个 :
• 一个是聚类3的客户群,该聚类的当前余额均值达十五万左 右,比其他聚类的当前余额均值高出一个数量级。所以可 以初步判断该聚类的客户是存款额高或者说是高收入的客 户群。另外,该聚类当前余额的标准差也很大,这说明在 富有的客户群中各客户的收入差距也是很大的,有的达百 万、千万、甚至上亿.
6
数据预处理(规格化)
• 数值型特征: 采用如下公式规格化到[0, 1]区间
x xmin x' xmax xmin
• 标称型特征、日期型特征和字符串型特征保持不变
7
聚类分析
• 目标
• 我们的目的是对客户进行分群,从而使银行可以对不同群体的客户提 供不同的服务。因此聚类分析是对客户进行自动分群的有效方法。
43955.38
180985.33 8869.53 43980.40 15999.42 5432.09 26126.10 -12265.06 74335.21
100110.53
617496.38 31149.29 109262.32 28870.03 12143.86 143537.61 33615.10 148054.73 15
• • •
方法
• k-means算法
选取的特征
• 从31个原始属性值中选取23个属性用作聚类(都是数值型或标称型的)
聚类参数
• 在经过规格化处理后的数据集中,用k-means算法在选定的23个属性 上进行聚类,设定聚类数为10.
8
各聚类大小
• 各聚类所包含的客户数量如下表
表1
聚类 客户数量
聚类1
聚类2 聚类3 聚类4 聚类5 聚类6 聚类7 聚类8 聚类9 聚类10
25422.80
137112.35 4664.66 15040.53 -9205.019 1703.67 -9331.17 -27823.94 16948.34
71501.18
560335.78 21531.07 49724.59 15566.66 5667.138 32766.50 64684.33 54751.53
• 另一个明显的特殊客户群是聚类9所示的客户群。该客户群 中的413个客户当前账户余额都为负值,且其均值达负两万 多元。因此可以认定该客户群是高透支的客户群。后面还 会分析的透支额、透支次数、透支时间等属性的分析同样 可以印证我们这个结论.
13
聚类结果分析(账户当前余额 )
• 分析其他的八个聚类
• 聚类4是占61.81%的最大的普通客户群,该客户群中几乎所有 的客户的当前余额都为正值,其均值为五千多,标准差为两 万多不会太小,说明该庞大的客户群还是可以再继续细分的。 • 聚类5是占19.85%的第二大的客户群,该客户群比最大的客户 群聚类4来说它的当前余额均值高很多,达两万多元。因此可 以说聚类5是大量普通客户中的中等存款额度的账户(不包括 低存款额度的账户)。 • 聚类7是账户当前余额为正值但存款额度较低的客户群。 • 聚类1,2,6,8,10这五个聚类在当前账户余额这一属性上 不能发现其明显的特征,我们将在后续的其他属性上的分析 发现其聚类特征。
• 聚类9是高额度透支账户,聚集透支账目均值接近六十 万,但聚集存款账目均值仅有两千多,并且其透支时间 长,平均达二十五天多。所以,该类型账户应该是长期 处于透支状态。
19
聚类结果分析(透支账目/存款账目 )
145
69 133 6183 1985 213 46 446 413 368
9
对聚类大小的分析
由表1可知,各聚类有大有小,且大小悬殊,但也合乎 客户关系处理的目的。客户关系管理的往往是找出一小部 分的特殊客户(占20%左右)来进行特别地对待。在上表 所示的10个聚类中,除去最大的聚类4后其余9个聚类的 客户数达3818人,占总客户量的38.18%;除去最大的两 个聚类(聚类4和聚类5)后其余8个聚类的客户数达1833 人,占总客户量的18.33%.
3
数据集(属性)
• • • • • • • • • • • • Statement High Balance(最高交易账目) Statement Aggregate Debit Balance(聚集透支账目) Statement Aggregate Debit Day(透支账目的天数) Statement Aggregate Credit Balance(聚集存款账目) Statement Aggregate Credit Day(存款账目的开数) Return Check Count(退回支票的次数) Status(客户状态) Audit Granding(授权级别,越高则风险越低) Salary Before Last Month(上一个月之前自动付款的账目) Salary last Month(上一个月自动付款的账目) Salary this Month(这一个月自动付款的账目) Count of Credit this Month(这个月存款的次数)