数据分析与建模预测方法
累计 收益率 0.0% 30.0% 50.0% 65.0% 78.0% 85.0% 90.0% 94.0% 97.0% 99.0% 99.0%
增益
0.000 3.000 2.500 2.167 1.950 1.700 1.500 1.343 1.225 1.111 1.000
规模
0 100000 200000 300000 400000 500000 600000 700000 800000 900000 1000000
9
10
同 创
君 A Strategy for Data Mining
业 • 面向商业应用的数据挖掘工具:Clementine7.2 • 首先回答下列问题: • 你想解决什么样的实际问题? • 什么样的数据源可用,那部分的数据是与要解决的问题相关的? • 在你开始进行数据挖掘时候,需要进行那些类型的预处理和数据清洗工作? • 哪种或哪些数据挖掘技术将要用到? • 你将如何评估数据挖掘和分析得到的结论? • 你将如何重分利用从数据挖掘中的到的信息?如何排除无用的信息? • 典型的数据挖掘过程可能使数据处理变得相当复杂? • 你会遇到许多需要解决的棘手问题——复杂的商业问题,多数据源问题,海量数据存取问
• 部分流失(Partial Churn):客户并未退机离网但是用量突减到
一定水平之下(例如零次话/零出账);
21
同
创 君
客户流失的定义
业
• 客户主动流失的表现中含有相当比例的故意欠费停机的行为 • 在一定条件下,可以将欠费列入主动流失定义中,因为: • 一般说来,欠费客户将在信用报告等公用信用评估体系中得到相当不利的
负面评价,这种行为的代价比较严重,因此一般客户不会采取这种方式主 动离网;
• 但是在中国市场目前这种行为的后果并不严重,因此因欠费离网的客户在
动因上和主动流失客户比较接近。
• 部分流失(主要是零次话/零出账)现象是工作中的关注点,对于客户贡
献和客户构成的影响较大;
• 很多运营商在实践中已经开展了针对零次话/零出账的防范工作,并且有
一定收效;
22
同
创 君
客户流失分析
业
应用数据挖掘技术根据过去拥有的客户流失数据
建立客户属性、服务属性和客户消费数据与客户流失
可能性关联的数学模型,找出客户属性、服务属性和
客户消费数据与流失的总终状态的关系,给出明确的
数学公式或规则,从而计算出客户流失的可能性。
客户流失分析系统必须针对各种不同的种类分别 定义业务问题,分别进行。
购买 人数
0 3000 5000 6501 7800 8500 9000 9401 9800 9999 10000
不会 购买人数
0 97000 195000 293499 392200 491500 591000 690599 790200 890001 990000
收益 方案1 -20000 15000 5000 -27455 -69000 -137500 -215000 -296955 -379000 -470045 -570000
3
同
创 君
Tips-小巧门
业 z Induction, Neural Net, or Statistical Models? 侦测,神经网络和统计模型
z 如果无法确定属性的重要性,先用侦测技术产生一种规则
利用规则生成Filter过滤节点,仅保留规则产生的重要属性字段
训练网络和统计模型有时也可以帮助选择一个好的属性字段子集
同 创 君 业
数据分析与建模预测
主讲教师:沈浩
中国传媒大学新闻传播学院 中国传媒大学调查统计研究所 中国传媒大学数据挖掘研发中心 同创君业
副教授 副所长 主任 培训师
Journalism & Communication School
同
创 君
挖挖双色球彩票
业
原始数据集
交易数据集
2
同
创 君
挖挖双色球彩票
•• eevvaalluuaattiinnggrreessuullttss •• rreevviieewwiinnggtthheeddaattaammiinniinnggpprroocceessss •• ddeetteerrmmiinniinnggtthheenneexxttsstteeppss
12
业
•• ddaattaarreessoouurrcceessaannddcchhaarraacctteerriissttiiccss
•• ccoollleeccttiinnggiinniittiiaallddaattaa
•• ddeetteerrmmiinniinnggbbuussiinneessssoobbjjeeccttiivveess
23
同
创 君
客户流失定义
业
24
6
同
创 君
客户流失分析
业
同
创 君
客户流失分析
业
CHURN SCORE
ETL
Training Data
Testing Data
4
71% 29%
7 8
Gain
Lift Profit ROI
9
ID x1 x2 x3 x4 0001
churn 在网 流失 流失 在网
25
26
同
业
分析数据集
同
创 君
骇客帝国——矩阵
业
信息矩阵
3
4
1
同
创 君
Social Network Analysis
业
关系的2D呈现
同
创 君
关系——DNA
业
关系的3D呈现
5
6
同
创 君
挖掘关联规则
业
同
创 君
关系——Web网络分析
业
关系的强弱
7
8
2
同
创 君
关系——Web网络分析
业
同
创 君
关系的力量
业
对对象象 关关系系 网网络络
20
5
同
创 君
客户流失的定义
业
动因
• 客户主动流失(Voluntary Churn): 客户主动退机离网或者改变
当前的服务模式;
• 客户被动流失(Involuntary Churn):客户因为欠费或欺诈行为
被运营商停止服务及停/拆机;
程度
• 完全流失:客户发生了退机离网等不可回复或者很难回复的行
为
8500
491500
-137500
60.0%
0.050
90.0%
1.500 600000
9000
591000
-215000
70.0%
0.040
94.0%
1.343 700000
9401
690599
-296955
80.0%
0.030
97.0%1.225 80来自0009800790200
-379000
90.0%
依据例外,分析特殊情况造成的原因和弱点,可以更有助于改进模型
14
同
创 君
商业战役——促销收益分析
业
百分比 收益率 累计收益率 增益
规模 购买人数 不会购买人数
收益
0.0%
0.000
0.0%
0.000
0
0
0
-20000
10.0%
0.300
30.0%
3.000 100000
3000
97000
15000
40%
50%
60%
70%
80%
90%
100%
16
4
同
创 君
商业战役——促销收益分析
业
百分比 收益率
0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 100.0%
0.000 0.300 0.200 0.150 0.130 0.070 0.050 0.040 0.030 0.020 0.000
•• sseelleeccttiinngg •• cclleeaanniinngg •• ccoonnssttrruuccttiinngg •• iinntteeggrraattiinngg •• ffoorrmmaattttiinnggddaattaa
•• sseelleeccttiinnggmmooddeelliinnggtteecchhnniiqquueess •• ggeenneerraattiinnggtteessttddeessiiggnnss •• bbuuiillddiinnggmmooddeellss •• aasssseessssiinnggmmooddeellss..
神经网络的敏感性分析Sensitivity Analysis,排列相对结果的重要性排序
利用回归分析:逐步回归stepwise 、向前forwards 、向后backwards
统计模型技术相对更快、不太复杂,可作为模型分析的基点baseline models
相对而言,没有完美的覆盖所有的方法
•• vveerriiffyyiinnggddaattaaqquuaalliittyy..
•• pprroodduucciinnggaapprroojjeeccttppllaann..
•• ppllaannddeeppllooyymmeenntt •• mmoonniittoorriinnggaannddmmaaiinntteennaannccee •• pprroodduucciinnggaaffiinnaallrreeppoorrtt •• rreevviieewwiinnggtthheepprroojjeecctt