当前位置:文档之家› 客户流失分析

客户流失分析


例如:对于二分的标志变量,也可以将它
们转化为连续变量,即将标量的一个取值
记为,另一个取值记为。这样,如果将理
解为,将理解为。则这个标志变量可以理解
为是分布在之间的一个连续变量,只不过
这个连续变量比较特殊,在观察到数据中
只有和两个取值。
离散变量向离散变量的转化。
当离散变量的类别数特别多时,可
以对它们适当的归并,例如将个数特别少
确定数据挖掘目标 对客户进行分群,寻找高流失的客户群 建立规则,描述那些可能流失的客户特征 建立打分模型,对客户流失可能性进行评
客户流失分析 (数据挖掘案例分析)
()
培训大纲
一、统计知识 二、案例背景 三、商业理解 四、数据理解与数据准备 五、建立模型与模型评估 六、模型应用 七、总结
(即跨行业数据挖掘标准流程”的缩写),是一种业界认可 的用于指导数据挖掘工作的方法。
指标变量获取
从业务系统中取出的数据都是根据业务的需 要考虑设计的,但往往不能达到取得良好数据挖掘 结果的目的.这时需要对数据进行各种变换或者生 成相关的衍生变量。下面介绍一些数据的常用变 换形式和衍生变量生成的常用方法。 、单变量的变换
②、比例相对指标:用来反映总体中各组成部分所占 比例的一个指标。
指标变量获取
、衍生变量
对时间序列数据有以下一些常用的生成衍生变量的方 法:
①、滞后类指标:对于时间序列数据,各条记录之间 联系更加紧密,我们通常会取上一条记录(例如代表上月 取值)及上年同期(例如去年同月),与当前记录相比得 到环比增长率(例如本月值上月值)和同比增长率(例如 本月值上年同期值);为了消除波动,有时我们还对多个时 间段数值进行求和、平均等操作。例如股市中常用的股价 日平均值,这类指标可以被归结为滞后类指标。
趋势获取
、波动类指标 对时间序列变量来说,趋势只反映了大致
方向,但是这个方向的过程是一帆风顺,还是惊 淘骇浪呢?可以使用波动指标来进行度量。简单 地,可以使用标准差或变异系数来衡量波动,也 可以使用如下公式计算波动:
波动值 最平 大最 均 值小 值值
为了建立模型的便利,经常要对现有的变量 进行某种形式的变化。这里总结出以下几个类型 的单变量变换方法。
指标变量获取
连续变量向连续变量的转化。连续变量的变换通 常有这样几种情况:
①使数据便于计算和比较进行的变化,例如由单 位是分变为单位是元、入网时间(时间型号变量) 向在网时长的转化
②为了修正数据的分布对数据进行适当的变化,例 如对数变换、倒数变换等
培训大纲
一、指标变量获取 二、案例背景 三、商业理解 四、数据理解与数据准备 五、建立模型与模型评估 六、模型应用 七、总结
案例背景
现在假设你是电信企业的一个数据分析经理,发现最 近电信市场又在血拼,竞争对手不断挖公司的墙角,公司 的高端客户这个月又流失了不少。
公司打算组织一个市场营销活动来遏止这种趋势,可 是这个客户挽留活动毕竟只是公司众多市场活动中的一个, 预算也有限。
①、按照等距离进行分箱
②、按照等数量进行分箱
③、按照分布进行分箱。
例如把数据分为段,小于平均数个标准差为第一段;
大于平均数个标准差且小于平均数个标准差为第二段;大
于平均数个标准差为第三段。
指标变量获取
离散变量向连续变量的转化。
对于有些分级类型的离散变量,可以
将它理解为对连续变量做处理和建立模型。
指标变量获取
、衍生变量
为了更清晰的说明衍生变量的生成,我们把数据分为 两类:一类是横截面数据(指某一时点上收集到的数据), 另一类是时间序列数据,一条记录代表一个时间点或者时 间段上的取值,通常会有一个表示时间的变量。
对横截面数据的衍生变量来说有以下一些常用的生成 衍生变量的方法:
①、强度相对指标:有一个联系的两个指标之间相比 的结果得到的指标。例如平均通话时长总通话时长总通话 次数
对客户进行有效的管理,尽可能的减少客 户的流失和跳网是一个紧迫的问题。这里 将介绍数据挖掘在移动通信业关于客户流 失研究中的应用。
• 数据挖掘技术将提供功能强大的模型,可
以回答诸如“哪些客户最可能流失?”和 “为什么这些客户会流失?”等问题。
商业理解
流失与哪些因素相关
顾客年龄?性别?收入?行业?话费水平? 话务质量?
③使不同量纲和数量级的数据具有可比性的变化, 即标准化变化。标准化变换通常有两种形式:一 种是 (原值平均值)标准差,另一种是(原值最 小值)(最大值最小值),这种变换后取值范围 在之间。
指标变量获取
连续变量向离散变量的转化。一个变量取值是大是小,往 往只是相对而言,分析中经常需要把一个连续取值变换为 离散的分级变量以使业务上更好理解。连续变量向离散变 量的转化可以完全基于业务来考虑,比如对客户的年龄分 群,有些企业就是把岁算作他们的青年客户。如果从统计 学角度考虑,连续型变量向离散型变量转换主要是进行分 箱变换,可以分为三种:
②、汇总类指标:
汇总类指标:求和,平均值,最小值,最大值,标 准差,记录数等。
指标变量获取
、趋势类指标 对时间序列变量来说,一个重要的方面是看趋势。例如在这个
案例中,我们特别关注每个客户的通话时长等指标的趋势,是变多, 变少,还是随机性的波动?我们有理由猜测,如果一个客户的通话 时长趋势是变少,那么这个客户流失的可能性会更大。但是如何衡 量趋势呢?最朴素的想法是用最后一个月的取值除以第一个月的取 值看增长率,但是这样会丢失很多中间月份的数据信息。我们还可 以使用下面的方法来查看趋势。即建立变量与时间的回归模型(例 如在这个案例中,自变量为月份,因变量为通话时长),将自变量 的回归系数作为趋势(也可以使用标化回归系数作为趋势),这个值 大于0,则趋势是变多;这个值小于0,则趋势是变少。趋势的计 算公式如下(以作为月份,代表通话时长,代表月份数量),则:
看看数据仓库里积累了那么多数据,能不能挖挖这些 数据,
①、看看哪些客户可能会流失? ②、这些客户都有些啥特征? ③、做这样的市场活动大概会有啥投资汇报?
培训大纲
一、指标变量获取 二、案例背景 三、商业理解 四、数据理解与数据准备 五、建立模型与模型评估 六、模型应用 七、总结
商业理解
• 通信业是一个竞争异常激烈的行业,如何
相关主题