数据挖掘应用案例:RFM模型分析与客户细分分茨:数据挖掘|标签:市场研尤数据挖掘RFM模型2012-01・2 1 21: 3 9 阅渎16854)评论(9 ) WB Insight 这里,我先给各位朋友拜年,祝大家新春快乐!兔年就要过去了,本命年的最后一天再不更新博客有点对不住大家!正好刚帮某电信行业完成一个数据挖掘工作,苴中的RFM模型还是有一泄代表性,就再把数据挖掘RFM模型的建模思路细肖与大家分享一下吧!手机充值业务是一项主要电信业务形式,客户的充值行为记录正好满足RFM模型的交易数据要求。
根据美国数拯库营销研究所Arthur Hug h e s的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:最近一次消费(Recency).消费频率(F requen cy)、消费金额(Monetary)o我早期两篇博文已详述了RFM思想和IBM Modele r操作过程,有兴趣的朋友可以阅读!RFM模型:R(R e cency)表示客户最近一次购买的时间有多远,F (Frequ ency) 表示客户在最近一段时间内购买的次数,M (Monetary)表示客户在最近一段时间内购买的金额。
一般原始数据为3个字段:客户ID、购买时间(日期格式)、购买金额,用数据挖掘软件处理,加权(考虑权重)得到RFM得分,进而可以进行客户细分,客户等级分类,C u st o mer Leve I Valu e得分排序等,实现数据库营销!本次分析用的的软件工具:IBN4 SPSS Statist i cs 1 9 , IBM SPSS Modeled 4.1, T a b I eau 7 o 0 , E XCEL 和PPT因为RFM分析仅是项目的一个小部分分析,但也而临海量数据的处理能力,这一点对计算机的内存和硬盘容量都有要求。
先说说对海量数据挖掘和数据处理的一点体会:(仅指个人电脑操作平台而言)・一般我们拿到的数拯都是压缩格式的文本文件,需要解压缩,都在G字节以上存储单位,一般最好在外巻电源移动硬盘存储:如果客户不告知,你大槪是不知道有多少记录和字段的;・Modeler挖掘软件默认安装一般都需要与C盘进行数据交换,至少需要100G空间预留,否则读取数据过程中将造成空间不足・海量数据处理要有耐心,等待3 0分钟以上运行出结果是常有的现象,特别是在进行抽样、合并数据、数据重构、神经网络建模过程中,要有韧性,否则差一分钟中断就悲剧了,呵呵:・数据挖掘的准备阶段和数据预处理时间占整个项目的70%,我这里说如果是超大数据集可能时间要占到90%以上。
一方而是处理费时,一方面可能就只能这台电脑处理,不能几台电脑同时操作;・多带来不同,这是我一直强调的体验•所以海量数据需要用到抽样技术,用来査看数据和预操作,记住:有时候即使样本数据正常,也可能全部数据有问题。
建议数据分隔符采用T存储;•如何强调一个数据挖掘项目和挖掘工程师对行业的理解和业务的洞察都不为过,好 的数据挖掘一泄是市场导向的,当然也需要1T 人员与市场人员有好的沟通机制;・ 数据挖掘会面临数据字典和语义层含义理解,在Met a Dat a 元数据管理和理解上下 功夫会事半功倍,否则等数据重构完成发现问题又要推倒重来,悲剧;・每次海量大数据挖掘工作时都是我上微博最多的时侯,它真的没我算的快,只好上微 博等它,哈哈!传统RFM 分析转换为电信业务R FM 分析主要思考:模型R(fiS) F (确 M(fM®茗户最近一次茗户一定时期 言户一定时期 传统的RFM 模型购买距离分析 内购买该企业 内购买该企业点的时间产品的次数 产品的总金额客户最后一次客户一定时期 客户一定时期 电信业RFM 模型交费距离分析 内交费的次数内的交费总额点的时间http ;//Uy.SDhlLLDHJ这里的R F M 模型和进而细分客户仅是数据挖掘项目的一个小部分,假宦我们拿到一个月 的客户充值行为数据集(实际上有六个月的数据),我们们先用1 BM Mod e ler 软件构建 一个分析流:全满足RFM 分析要求,一个月的数据就有3千万条交易记录!dmjopup.201106.txt TableTypeijctpi/yjhoy-3 uh 山数据纟吉构兄Tobk {4 10.000 reccrde)刘Tatsle Arnotaions Q Fie 二 Ed«t O Generate 30402097 记录dn2195435X83 2011-06-01 recharoe 1000矶3 21934935694 229血瓶。
5 2ni2V294 0 2295W/704 7 219618^264 8 21953M295 9 2198149326 10 219® 驱 2 11 2141799119 12 2183SM651 13 2197059121 14 2151174629 15 2292217714 16 2293052923 仃21MMW992182191555676 19 2197132802 20 21955112292121954)3548 2221 頸2M262 23 _____ 2295775465 24 21 <)41^848 2626 2191145732 272295235 姑 6 28 210622666029 2193315169 302192675086 31 2193449695 32 2292378554 33 2194OS1194 2291%)也6 2011-0C-O1 2011-OC-O1 2O11-W-O1 2011-0C-01 2Q11-00-01 2011-M-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 n Vo o o 300需 00E E E EE E E E EE EE E E E E .2011-06-01 10002011-06.01 1000 皿2011-06-01 1000(si 白 2011-06-01 1300 :2 20110601 1000 isi Ei 2011-06-01 10002011-06-01 1000 :0 £ 2011-06-01 1300 :彳$ 2011-06-01 1000 ⑻E! 1000 isi E<2011-06-01 1000 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01艸F 我们先用挖掘工具的RF 何模型的RFM 汇总卩•点和 RFM 分析节点产生 R (Recen cy)> F ( F requency) > M (Monetary);d 化!ODUQ_201106:W2011X)7-01'a Table (4 Gelds. 10,000 r^cordv *2【耳 回dn;R ♦wr o F r9<x»enqr' 12191846 M2 1 4 8CO3Z 一21916从 303 3$32191646M5 1 u fiCODO 4 2101G4G30Q 10 22CODO 52 2代躬打0 14 1 [C 回4工一 21916463*1 t5 1250^0 72191WWW 1 221916453T8 1 33 37030 g 2191646320 4 4 4CODOia 7佃丸17 1it2191645323 7 2 2830 仃2191G463?4 ? 4 3503013 2191646327 ta2CO3014 219i€4$331 174503015 2i9朮妨妁6 1畑)0 1G 2191646338 i*i 2 12030 17 115is 7191C4-:17 3330 w 219164SM5 1 24 1紳02dKHU 畑 92ZttOOs 轴CMhirpi/ /-h^rj?J^Dl^D-hj-hlug ;-Li?JLLrr J rrj接着我们采用R F M 分析肖点就完成了 RFM 模型基础数拯重构和整理:现在我们得到了 RFM 模型的 Recency_Score> Fre q u e n c y _S c ore 、Mone t a ry_Score 和R FM_Sco r e :这里对RFM 得分进行了五等分切割,采用10 0、1 0、1加权 得到RFM得分表明了 125个RFM 魔方块。
传统的RFM 模型到此也就完成了,但125个细分市场太多啦无法针对性营销也需要识别 客户特征和行为,有必要进一步细分客户群;另外:RFM 模型其实仅仅是一种数据处理方法,采用数据重构技术同样可以完成,只是 这里固化了 RFM 模块更简单直接,但我们可以采用RFM 构建数据的方式不为RFM 也可 用该模块进行数据重构.我们可以将得到的数据导入到Tableau 软件进行描述性分析:(数据挖掘软件在描 述性和制表输岀方而非常弱智,哈哈)am 上少仆•詁U JRigg0fWScd•4・・4TXrtCRTU Arahwhitp :/ /sfjpnd 乡kTc^ijLkd DyigJiULinjJJJ我们也可以进行不同块的对比分析:均值分析、块类别分析等等Columns Frequency ScoreRows Recency Score J I、Monetary Score I FiltersMarksAbe Automatic ▼Text-(AVG(Monet・・)Colors(AVG(vouch・.)Size I I Level ofDetail Recency Sc.. Monetary Sc.. 1 2 3 4 5F 1 7.243C, t2 19.651】t jO I I 1 Q| 1^(I6r^13 28.93927.3S726.55425.3924 -« .30上4C.23E40,27842.3505 1C5.155107.036106.436132.C9795,5012 192982 ^.Cl 1•' ―Vq WX W I7,18£15.56216x553 2BC0128,92427,82526,78525/444 «/« ww w39.95E41,51242.6475 1C5.729103,1919C.8S482.95489.704312v 3牙?〔9 EOGw L/f&42217,62516,68215.E673 28.9B^27,75626.875厶V . WW4 4$ 978&239.6&C41.37742,7385 105.83110)8^187.92278,60788?3104 1 9.13*17 440Frequency Score2 J7.59C-ib.oo l5t8S13 25W2 28,90727,74627,09725f522.4 49991 43,OM39,68641,16842.8705 105.337 1G0.65287.76977.93093.6851J J7.7» w• 1 Wkr•/ e £7仁2 19521 18,331 1 7T3OC16,6073 26.033 2&93227,79327,14925.M24 49990 43.43739.71741.19942.6135这时候我们就可以看出T a blea u可视化工具的方便性接下来,我们继续采用挖掘工具对R 、F 、M 三个字段进行聚类分析,聚类分析主要采用:K o ho n en^ K-m e a n s >fIJ T wo-step 算法:这时候我们要考虑是直接用R (Recency)、F(Frequ ency 〉、M (Monetary)三个变量还是要进行变换,因为R 、F 、M 三个字段的测虽:尺度不同最好对三个变量进行标准化,例如:Z 得分(实际情况可以选择线性插值法,比较法,对标法等标准化)!另外一个 考虑:就是FL F 、M 三个指标的权重该如何考虑,在现实营销中这三个指标重要性显然不有资料研究表明:对RFM 各变量的指标权重问题,Hu g hes , Arth ur 认为RFM 在衡量一个问题上的权重是一致的,因而并没有给予不同的划分。