当前位置:文档之家› 银行客户数据分析

银行客户数据分析

3
数据集(属性) 数据集(属性)
• • • • • • • • • • • • Statement High Balance(最高交易账目) Statement Aggregate Debit Balance(聚集透支账目) Statement Aggregate Debit Day(透支账目的天数) Statement Aggregate Credit Balance(聚集存款账目) Statement Aggregate Credit Day(存款账目的开数) Return Check Count(退回支票的次数) Status(客户状态) Audit Granding(授权级别,越高则风险越低) Salary Before Last Month(上一个月之前自动付款的账目) Salary last Month(上一个月自动付款的账目) Salary this Month(这一个月自动付款的账目) Count of Credit this Month(这个月存款的次数)
4
数据集(属性) 数据集(属性)
• • • • • • • • • • •
5
Count of Debit this Month(这个月取款的次数) Count of OD(透支的次数) Amount of Deposit this Month(本月存款的账目) Amount of Withdraw this Month(本月取款的账目) Last Transaction Date(上一次交易的日期) Country Code(客户所属的国家) Birthday(生日) Sex(性别)
13
聚类结果分析(账户当前余额 )
• 分析其他的八个聚类
• 聚类4是占61.81%的最大的普通客户群 聚类4 普通客户群,该客户群中几乎所有 普通客户群 的客户的当前余额都为正值,其均值为五千多,标准差为两 万多不会太小,说明该庞大的客户群还是可以再继续细分的。 • 聚类5是占19.85%的第二大的客户群,该客户群比最大的客户 聚类5 群聚类4来说它的当前余额均值高很多,达两万多元。因此可 以说聚类5是大量普通客户中的中等存款额度的账户 大量普通客户中的中等存款额度的账户(不包括 大量普通客户中的中等存款额度的账户 低存款额度的账户)。 • 聚类7是账户当前余额为正值但存款额度较低的客户群。 聚类7 • 聚类1,2,6,8,10这五个聚类在当前账户余额这一属性上 不能发现其明显的特征,我们将在后续的其他属性上的分析 发现其聚类特征。
16
聚类结果分析(最低及最高交易账目 )
• 聚类4这个最大的客户群的最低和最高交易账目的平均值保持 聚类4 在一个中等 中等的水平,最低四千多,最高八千多; 中等 • 第二大客户群聚类5的最低和最高交易账目的均值都较聚类4高 群聚类5 群聚类 很多,这也同样能够说明聚类5是大量的中等偏高的存储客户 中等偏高的存储客户。 中等偏高的存储客户 • 聚类7的最低和最高交易账目都较低(正值),属于小额储蓄 聚类7 客户。 • 聚类6和聚类8的最低交易账目平均为负值(属于透支),最高 交易账目平均为正值(属于储蓄),因此该类型客户属于有储 有储 蓄有透支的信用消费型客户。 蓄有透支的信用消费型客户 • 聚类1,2,10在这一属性上还不能分析出很明显的聚类特征
2
数据集
• 客户数据集包含10,000条客户数据 • 包含有31个特征(属性), 分别为:
• • • • • • • • • • Bank No(银行代码,其值有:004,024,077等) Account num(账户代码) Short Name(客户名字) First Contact Date(第一次接触日期) account open date(账户开户日期) account balance(账户当前余额) account low balance(账户曾经最低余额) account high balance(账户曾经最高余额) balance category(余额类型) Statement Low Balance(最低交易账目,有正有负)
• •
方法
• k-means算法
选取的特征
• 从31个原始属性值中选取23个属性用作聚类(都是数值型或标称型的)

聚类参数
• 在经过规格化处理后的数据集中,用k-means算法在选定的23个属性 源自进行聚类,设定聚类数为10.8
各聚类大小
• 各聚类所包含的客户数量如下表
1
聚类 聚类1 聚类2 聚类3 聚类4 聚类5 聚类6 聚类7 聚类8 聚类9 聚类10 客户数量 145 69 133 6183 1985 213 46 446 413 368
6
数据预处理(规格化)
• 数值型特征: 采用如下公式规格化到[0, 1]区间
x − xmin x' = xmax − xmin
• 标称型特征、日期型特征和字符串型特征保持不变
7
聚类分析
• 目标
• 我们的目的是对客户进行分群,从而使银行可以对不同群体的客户提 供不同的服务。因此聚类分析是对客户进行自动分群的有效方法。
17
聚类结果分析(透支账目/存款账目 )
• 下表所示为聚集透支账目及透支账目天数、聚集存款账目及存 款账目天数的均值和标准差。
聚集透支账目 聚类 聚类1 聚类2 聚类3 聚类4 聚类5 聚类6 聚类7 聚类8 聚类9 聚类10 均值 0 0 0 0 0 99402.83 0 17345.04 596935.00 0 标准差 0 0 0 0 0 202963.80 0 51581.64 1384363.12 0 透支账目天数 均值 0 0 0 0.00 0 15.64 0 3.63 25.39 0 标准 差 0 0 0 0.03 0 4.39 0 2.61 1.31 0 聚集存款账目 均值 621553.94 862332.67 3987771.63 145729.02 599440.68 66568.08 75543.65 170027.62 2744.67 907077.21 标准差 1893055.17 2188134.51 15631280.74 582818.60 1531141.41 130475.92 239671.98 856644.63 15650.27 2107278.80 存款账目天数 均值 26 26 26 26.00 26 10.36 26 22.37 0.61 26 标准差 0 0 0 0.03 0 4.39 0 2.61 1.31 0 18
14
聚类结果分析(最低及最高交易账目 )
• 下表所示为各聚类的最低交易账目和最高交易账目的均值与 标准差
聚类 聚类1 聚类2 2 聚类3 聚类4 聚类5 聚类6 聚类7 聚类8 聚类9 聚类10 最低交易账目 均值 21710.57 25422.80 137112.35 4664.66 15040.53 -9205.019 1703.67 -9331.17 -27823.94 16948.34 标准差 67398.29 71501.18 560335.78 21531.07 49724.59 15566.66 5667.138 32766.50 64684.33 54751.53 最高交易账目 均值 30649.77 43955.38 180985.33 8869.53 43980.40 15999.42 5432.09 26126.10 -12265.06 74335.21 标准差 87211.66 100110.53 617496.38 31149.29 109262.32 28870.03 12143.86 143537.61 33615.10 148054.73 15
数据预处理
• 我们选用Weka数据挖掘工具来对客户的账户数据进 行分析,因此所有的原始数据都必须转换成能被We ka处理的数据集格式。 • 原始数据集的特征主要有四种类型的,分别是:数 值型(numeric)、标称型(nominal)、日期型(date)和 字符串型(string)。 • 对于缺失的属性值,因为Weka中的算法能自动处理 属性值缺失的情况,所以按Weka数据集的格式要求 用“?”表示。
11
聚类结果分析(账户当前余额 )
• 下表所示为10个聚类中各聚类的账户当前余额的正负及账户当 前余额的均值和标准差
聚类 聚类1 聚类2 聚类3 聚类4 聚类5 聚类6 聚类7 聚类8 聚类9 聚类10 当前余额正负 + 145 69 133 6182 1985 119 46 380 0 368 – 0 0 0 1 0 94 0 66 413 0 当前余额值 均值 24445.50 29164.41 152882.48 5571.17 22102.61 8432.82 2093.91 7729.67 -24728.68 36264.24 标准差 73408.73 78077.97 604633.58 23957.76 64825.42 18680.66 5798.48 33233.11 61844.23 93389.14
聚类结果分析(最低及最高交易账目 )
• 明显聚类特征:
• 聚类3的最低交易账目和最高交易账目的均值都最高, 聚类3 这说明该类账户一般是有大数额的资金流入 大数额的资金流入。 大数额的资金流入 • 聚类9的最低交易账目和最高交易账目的均值都最小, 聚类9 属于透支最多的一类 透支最多的一类,这说明该类账户是属于透支型的 透支最多的一类 透支型的 账户,透支额维持在一个比较高的水平,且其最高交易 账户 额平均也达负一万两千多,说明这类型账户平均很少正 向资金存入。
10
对各聚类结果的处理
• 聚类后的各聚类结果的数据是规格化处理后的数据的结果, 我们要直观地分析各聚类的特点,必须把规格化的数据还 原为原始数据。例如,最小值为-10,000,最大值为1,00 0,000的当前账户余额规格化为[0,1]后就难以理解各账户 间存在的巨大差距,只有把它还原为原始的[-10000, 100 0000]才能使人直观地理解其存在的差距。 • 把各聚类的数据集还原为原始数据后,再计算各特征的均 值和标准差(数值型的特征);或者各标称量的数量(标 称型的特征)。
相关主题