Applied intelligence, 2005, 22,47-60.一种用于零售银行客户流失分析的数据挖掘方法
作者:胡晓华
作者单位:美国费城卓克索大学信息科学学院
摘要在金融服务业中解除管制,和新技术的广泛运用在金融市场上增加了竞争优势。
每一个金融服务公司的经营策略的关键是保留现有客户,和挖掘新的潜在客户。
数据挖掘技术在这些方面发挥了重要的作用。
在本文中,我们采用数据挖掘方法对零售银行客户流失进行分析。
我们讨论了具有挑战性的问题,如倾向性数据、数据按时序展开、字段遗漏检测等,以及一项零售银行损失分析数据挖掘任务的步骤。
我们使用枚举法作为损失分析的适当方法,用枚举法比较了决策树,选择条件下的贝叶斯网络,神经网络和上述分类的集成的数据挖掘模型。
一些有趣的调查结果被报道。
而我们的研究结果表明,数据挖掘技术在零售业银行中的有效性。
关键词数据挖掘分类方法损失分析
1.简介
在金融服务业中解除管制,和新技术的广泛运用在金融市场上增加了竞争优势。
每一个金融服务公司经营策略的关键是保留现有客户,和挖掘新的潜在客户。
数据挖掘技术在这些方面中发挥了重要的作用。
数据挖掘是一个结合商业知识,机器学习方法,工具和大量相关的准确信息的反复过程,使隐藏在组织中的企业数据的非直观见解被发现。
这个技术可以改善现有的进程,发现趋势和帮助制定公司的客户和员工的关系政策。
在金融领域,数据挖掘技术已成功地被应用。
•谁可能成为下两个月的流失客户?
•谁可能变成你的盈利客户?
•你的盈利客户经济行为是什么?
•什么产品的不同部分可能被购买?
•不同的群体的价值观是什么?
•不同部分的特征是什么和每个部分在个人利益中扮演的角色是什么?
在本论文中,我们关注的是应用数据挖掘技术来帮助分析零售银行损失分析。
损失分析的目的是确定一组高流失率的客户,然后公司可以控制市场活动来改变所需方向的行为(改变他们的行为,降低流失率)。
在直接营销活动的数据挖掘中,每一个目标客户是无利可图的,无效的,这个概
念很容易被理解。
因为有限的营销预算和员工,所以数据挖掘模型过去常常被用来排列客户组成,且只有一定比例的客户通过邮件,电话等联系。
如果建立更完善的数据挖掘模型和定义正确的目标,该公司便就能够接触潜在的高密度客户流失的集中群体。
下面描述了银行流失分析的数据挖掘过程的步骤:
1.商业问题的定义:在客户保留的领域中商业问题的明确说明
2.数据审查和初步筛选
3.在现有的数据方面问题的说明
4.数据集成,编目和格式化
5.数据预处理:(a)数据清洗,数据展开和定义时间敏感度的变量定义,定义目标变量,(b)统计分析,(C)敏感度分析,(d)漏泄检测,(e)特征选择
6.通过分类模型建立数据模型:决策树,神经网络,促进朴素贝叶斯网络,自然选择条件下的贝叶斯网络,分类器的集成
7.结果表达与分析:用数据挖掘模型来预测当前用户中可能的流失客户
8.调度展示:定义可能成为流失客户的对象(称为正式)
这篇论文描述了一种用来分析零售银行客户流失的数据挖掘方法。
目的是确认规则、趋向、模式和能够被作为潜在的流失指标的群体和提前确定潜在流失客户,因此银行能够采取积极主动地预防措施来降低流失指数。
本论文安排如下:首先我们在第二部分定义客户保留区域上的问题和商业问题的说明,接着我们在第三部分讨论数据选择、数据审查和初步筛选,然后是数据集成、数据目录的编辑和数据格式化、数据演变和时间敏感度变量的定义。
接着我们讨论敏感度分析、遗漏侦测和特征选择。
在第四部分我们通过决策树,神经网络和贝叶斯网络和自然选择条件下的贝叶斯网络和上述四种分类器的集成来描述数据模型。
在第五部分,我们主要讨论调查结果、字段检测结果。
最后,我们在第六部分得出结论。
2. 商业问题
2.1. 主要问题的解释
我们的客户是世界十大零售银行之一,这些银行根据不同的客户提供各种种类的金融产品。
本论文中讨论的产品属于一项特定的贷款服务。
目前超过750,000的客户正在使用这项仍有150亿美元的资金未解决的产品,这项产品已经有了显著的的高流失率。
由于高流失率,税收受到了挑战:每个月呼叫中心会受到超过4500个要求注销银行账户的电话;另外接近1200条记录属于缓慢流失(连续超过12个月以上处于不平衡状态),同时非法账户对于产品收益率构成了一系列的挑战,由于指数、贷款限额以及佣金的影响,每月零售银行的流失指数总计达到5700。
另外,很多客户
只在优惠价时才使用该产品,过期后便作废。
每一个账户都有客户管理项目成本和客户获得成本,邮递需要在每个客户上花1美元,电话营销需要在每个客户上花5美元。
而刺激成本(比如降低利率来留住客户)能够被考虑,主要取决于你提供了什么样的产品。
我们的客户没有主动性的或者反应性。
在大多数情况下,尽管有人认为价格下降并不是仅有的或者最好的策略,但是这还是一种主要的方法。
我们以上描述的情况已经使得我们客户的商务和技术部门的管理者们开始审视采取相关知识为基础通过一系列有效的客户分类、客户概况了解、数据挖掘和信用积分的结合来保留更多的客户以达到收益最大化的可能性。
在下文中,我们将描述首次使用这个计划的结果。
2.2. 问题定义
在这个部分描述了在基于现有的数据,时间周期以及目标字段如何理解和定义问题的步骤。
在此步骤上,所有数据挖掘中,最冗长和最费力的部分是数据选择、数据准备、数据结构[1, 6, 7]。
在生产线上有五种流失因素:
•缓慢流失客户:指到冻结帐户时才还款的客户。
自主性流失因素有多种行为表现而在此处可以被全面地理解。
•快速流失客户:指快速还款后立即通过电话或写信销户的客户。
•交叉销售:指的是可能购买现有贷款客户提供的诸如人生保险之类的替代产品的客户。
不断增加的联系被认为是减少客户流失的一种手段。
•高风险:可能变成高风险的客户。
•客户挖掘:可能放弃我们的产品而选择我们竞争对手产品的客户。
这种情况不是单一的个例:一个客户能够在贷款周期中显示这类情况的子集。
此时,他/她能够通过有效的被刺激手段和策略影响来改变他们的行为。
鉴于此,这些客户的态度可以被量化表现在状态图表1上。
表1表达了客户管理的优势以及预测问题。
1.确定缓慢客户流失。
2.交叉销售产品。
3.确定高风险客户。
4.确定客户可能被竞争对手挖掘。
如上图中所示,一个客户通过他的行为,能够按组别属性在每个状态被定义时,在活跃和流失之间活动。
基础上图,我们决定聚焦到两个流失问题上:(1)利用过去连续4个月所开的账户为数据,在提前60天的情况下,预测特定客户是否会自主通过电话或写信注销她/他的账户。
(2)利用过去连续4个月所开的账户为数据,在提前60天情况下,预测一个特定客户是否可能会将他的账户转移到竞争对手手上。
而账户不一定仍保持开通。
模型的发展和随后的活动焦点将会聚集到提高产品线业务及改善该项产品客户维持度和客户活跃度的问题上:
问题1:保留现有客户
为了划分不同客户层这个问题需要如下规则来制定模型:。