数据挖掘在银行交叉销售中的应用研究*于海波姜 锴合肥工业大学,合肥 230009摘要:数据挖掘通常又称为数据中的知识发现(KDD),是自动或方便地提取代表知识的模式。
本文以商业银行业务数据为研究对象,使用SPSS公司Clementine工具提供的关联规则Apriori算法,对银行客户持有外延产品情况进行数据挖掘,取得频繁项集,为银行产品交叉销售提供支持。
关键词:数据挖掘 KDD 交叉销售关联规则1 引言中国加入世贸组织,金融领域全面引入国际竞争。
商业银行在不断扩展业务范围、不断加大科技投入的同时要注重以客户为中心的管理,对客户需求的满足能力是银行能否与客户保持紧密联系、获得发展的关键所在。
数据挖掘(Data Mining)是近些年企业界相当热门的话题,它利用统计与人工智能的算法,从庞大的企业历史资料中,找出隐藏的规律并建立准确的模型,用以预测未来[1]。
应用数据挖掘技术对银行海量的以往交易数据进行分析,可以获得潜在规则,预测银行客户需求,创造个性化产品,改善自身营销,为商业银行业务发展提供强有力的支持。
有关研究表明,开发一个新客户的费用是保留一个老客户费用的5倍,成功保留老客户可大幅增加企业的利润,交叉销售就是企业保留老客户的一种非常重要的方法。
交叉销售是一种以企业和客户的现有关系为基础去推销另一个产品的营销战略,是通过对现有客户扩大销售来增加利润的一个有效手段。
本文着重介绍数据挖掘中的关联规则算法及其在银行外延产品交叉销售中的应用。
2 关联规则与Apriori算法关联分析的目的是找出数据库中隐藏的关联网,挖掘出隐藏在数据库中的一些关联规则,利用这些关联规则可以根据已知情况对未知问题进行推测判断[2]。
任何两个变量间都可能存在着潜在的关联,那么怎样决定哪些关联确实具有代表性,真的很有作用,哪些关联只是假象或者毫无用处呢? 在考察关联规则时,需要同时考虑三条独立的标准,即支持度(support) 、置信度(confidence)和增益(lift ) 。
支持度:1)交易集合(交易数据库)D中包含某个交易X的个数称为X在D中的支持计数。
例如,D={T1,T2,T3}包3个交易,其中T1={A,B,C}、T2={B}、T3={B,C,D},如果X={B,C},则D中存在T1和T3两个交易包含X,此时称X在D中的支持计数为2。
2)假定X是一个项目集,D是一个交易集合,称D中包含X的交易个数与D中总的交易个数之比为X在D中的支持度,记作sup(X)。
在上例中,包含X的项目个数是2,D中总的交易个数是3,则X在D中的支持度为2/3,即sup(X)=P(X)=66.7%。
3)关联规则的一般形式为:X=>Y,其含义为X出现的同时也导致Y出现。
关联规则X=>Y的支持度sup(X=>Y)=sup(X∪Y)=P(X∪Y)。
支持度是对关联规则的重要性的度量,表示了关联规则的频度。
当给定最小支持度时,若某一项集的支持度大于或等于最小支持度,则称该项集是频繁项集,含有K个*作者简介: 于海波(1980-), 男, 在职研究生; 姜锴(1973-), 男, 在职研究生.项的频繁项集则称为频繁K-项集。
关联规则挖掘的重点便是找出所有频繁项集。
置信度又称为可信度。
设交易集合D中支持项目集X的交易中有c%的交易同时支持项目集Y,则称c%为关联规则X=>Y的置信度,记作conf(X=>Y)。
由置信度的定义可知,conf(X=>Y)=sup(X∪Y)/sup(X)=P(Y|X)。
一个规则的置信度范围在0和1之间,指出现了项目集X的交易中,出现项目集Y的概率。
置信度是对关联规则准确度的度量,表示了关联规则的强度。
增益是两种可能性的比较,一种是在已知购买了左边商品情况下购买右边商品的可能性,另一种是任意情况下购买右边商品的可能性。
规则X=>Y的增益为:lif (X→Y) = P(Y| X) - P(Y) 。
这个标准和数据挖掘中其他模型的选择标准一样,通过与“原有”规则的比较,来测量该规则提高预测准确性的程度。
有时也把增益称为改良,因为它可以测量预测改进的程度。
关联规则挖掘算法以算法Apriori为代表。
Apriori算法把挖掘关联规则的过程分为两个阶段:1)获取频繁集。
这些项集出现的频繁度至少和预定义的最小支持度一样。
2)由频繁集产生关联规则。
这些规则必须满足最小可信度。
3 实例分析3.1 数据准备建立数据仓库,进行数据挖掘,在大量的“数据中挖掘知识”[3],首先要了解数据含义。
客户通过购买或使用银行产品与银行发生关系。
银行产品是指银行金融机构向市场提供的能满足人们某种愿望和需求的,与货币相关的一切商品,是金融产品的重要组成部分。
银行个人产品具有多样性的特点。
商业银行作为以营利为目的的企业,当然首要关心的也是产品所带来的收益。
所以习惯上,按照不同产品对银行所产生的收益类型,可以分为以下四大类。
如图1所示:图1银行个人产品分类图其中存款类产品属于负债类业务,银行通过将客户的存款用于贷款或其他投资赚取利差。
则我们可以根据不同的产品,计算出当期收益系数。
例如:存款业务贡献率=(存款准备金比例*年利率+超额准备金比例*年利率+库存现金比例*年利率+发放贷款比例*税后年利率+剩余可用资金比例*一年期定期存款年利率)-存款年利率存款业务贡献积分=客户日均存款*存款业务贡献率其他类产品也可以通过相关行业内部规则计算出相应的贡献参数。
我们以客户ID为唯一标识,计算出客户某段时间内对我行做出的贡献。
再根据2/8法则,取出前20%的客户,作为我们挖掘的对象。
银行产品又可分为基本产品和外延产品。
基本产品如借记卡,所有的商业银行均有该产品,且功能相似。
扩展产品,是指银行产品中为客户提供功能扩展或超值服务的那一部分产品,属金融产品的系列化业务,是银行产品的延伸,用以配套解决客户全部问题。
因为很多产品如基金,保险,第三方存管都是借助借记卡的平台,所以在这里我们仅对部分有特点的扩展产品进行数据挖掘。
取出对银行贡献较高的客户100名,以客户ID为唯一标示,从业务数据库中提取出这些客户开办了哪些产品,生成训练样本。
如表1所示:表1客户持有产品情况表客户号网上银行银信通基金银证转账信用卡贷款保险0 1 0 0 1 0 116 (3198)1 1 0 0 0 1 016 (4636)1 0 1 1 0 1 116 (5134)0 0 1 1 0 1 116 (6474)…… … … … … … … …16 (5398)0 1 1 0 1 0 11 1 0 0 0 1 016 (7236)16 (3214)1 0 0 0 0 0 10 0 1 1 0 1 016 (3585)3.2 数据挖掘要做数据挖掘,当然需要工具。
目前世界上已经有很多功能完善的数据挖掘产品,我们只需要掌握算法的原理,选择合适的算法,不需要自己编写程序。
在这里,我们选用目前较为流行的SPSS公司的Clementina帮助我们实现对银行客户的数据挖掘。
将以上数据导入Clementina工具,利用Apriori算法进行运算后得到关联规则,如表2所示:表2关联规则Confidence%Support%Consequent Antecedent基金银证转账、网上银行、银信通11.000 90.909银信通贷款、网上银行17.000 88.235基金银证转账、网上银行14.000 85.714基金银证转账、银信通18.000 83.333银信通银证转账、网上银行、银信通12.000 83.333银信通网上银行40.000 82.500基金银证转账27.000 81.481基金保险21.000 80.952 这里设定最小支持数为2 ,即最小支持度为25%。
则可以得到银行产品的频繁项集。
如表3所示:表3频繁项集关联规则Support% Confidence% 网上银行Æ银信通40.000 82.500银证转账Æ基金27.000 81.481 由表3可知,关联规则网上银行->银信通的支持度是40%,这说明在样本中有40%的客户同时开办了网上银行和银信通业务;它的置信度是82.5%说明,是指所有开办了网上银行的客户中有82.5%的客户开通的银信通产品。
而关联规则银证转账->基金的支持度为27%,说明在样本中有27%的客户同时办理了银证转账并且购买有基金,而在所有开通银证转账的客户中,购买了基金的客户占81.481%,即该规则的置信度为81.481%。
这样,银行可以将网上银行和银信通业务捆绑销售,还可以考虑在客户办理银证转账时,向其推荐购买基金,以带动这两组银行产品的销售,增加银行的业务量和收益。
4 结 束 语银行产品间关联规则的建立是一个不断更新的过程[4],随着交易数据的增多,需要不断地用交易数据对关联规则进行调整,完善银行产品间的关联规则,使之更好地为银行产品交叉销售提供支持。
参考文献[1]戴稳胜, 匡宏波, 谢邦昌. 数据挖掘中的关联规则[J]. 统计研究, 2002, 08: 40-42.[2]王明哲, 基于数据挖掘技术的信用卡客户的信用评价[J]. 商场现代化, 2007, 08: 77-78.[3]Jiawei Han, Micheline Kanber. Data Mining:Concepts and Techniques[M]. San Francisco:Morgan Kaufmann,2000.[4]孙景, 田甜. 基于多层关联规则的银行产品交叉销售策略[J]. 中国金融电脑, 2008, 10: 76-79.Application Research of Data Mining on Bank’s Cross-sellingYu Haibo Jiang KaiHefei University of Technology, Hefei, 230069, ChinaAbstract: Generally speaking, data mining (sometimes called knowledge discovery from data) is the process of analyzing data from different perspectives and extracting it into representative information automatically and intelligently. With the Apriori algorithm of association rule type provided by Clementine kit from SPSS company, the object of this paper is intended to work on the business data of commercial bank, extracting patterns from the source data on extension products of bank's customers to obtain the frequent item sets which is expected to offer efficient support to the cross-selling of various banking products.Keywords: data mining; KDD; cross-selling; association rule。