当前位置:文档之家› 电信企业客户流失及忠诚度分析

电信企业客户流失及忠诚度分析

东华大学研究生课程论文封面教师填写:本人郑重声明:我恪守学术道德,崇尚严谨学风。

所呈交的课程论文,是本人独立进行研究工作所取得的成果。

除文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。

论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。

论文作者签名:注:本表格作为课程论文的首页递交,请用水笔或钢笔填写。

目录1 引言 (1)2 数据理解 (1)3 数据准备 (4)4 预测模型的建立 (5)5 模型评估及客户特征分析 (6)6 客户忠诚度的分析 (8)7 结论 (12)电信企业客户流失及忠诚度分析王丹丹(东华大学,管理科学与工程,2150863)摘要:近年来国内电信业的分割、电信体制的激烈变革,竞争的急速加剧使得各电信企业在开拓市场、发展客户的同时,同样注重对老客户的挽留,预测客户流失因素,如何保持现有的客户吸引更多的潜在客户,是电信企业面临的重要问题本文主要在已知数据的基础上利用数据挖掘中的决策树、神经网络以及Logistic 回归算法具体在电信业客户流失分析中的应用。

关键词:客户流失、决策树、神经网络、客户忠诚度1 引言2001年开始,中国电信行业就开始规划和实现经营分析系统,初衷就是建立数据仓库及基于数据仓库之上的数据分析和应用,其中主要包含两个主题——流失分析和交叉销售,而之前的相关杂志也发表了很多技术文章,但当时整个电信行业主要以中国移动为主,竞争压力并不大,业务人员更关注的是开拓市场和发展客户,对客户流失问题的关注很少。

但2011年之后,电信行业不断竞争,所以各大公司反过头来又做客户流失,意识到挽留一个老客户要比吸引一个新客户对公司的价值会更大。

因此,现在移动、联通等电信行业都会付出很大努力来尽量防止客户流失增加客户忠诚度。

本文的工作正是基于此为背景通过分析客户的基本数据、交易数据和行为模式,通过spss modeler14.0利用决策树、神经网络、等数据挖掘技术,建立客户流失预测模型,并在此基础进行初步的流失原因分析和客户流失特征,给企业以有效的建议,并利用因子分析对客户的忠诚度进行分析。

本文主要以下几个方面来展开:数据理解和准备、建立流失预测模型和模型的验证评估,最后是客户忠诚度分析。

2 数据理解由于数据信息量比较大,变读入电信客户数据telco.sav,数据有多达42 个字段,我们有必要对原始数据进行探索,找出影响客户流失的最重要的因素,数据探索不是一个一次性的工作,它是一个分布的,需要反复试探和观察的过程。

可以通过观察每一个变量与目标变量之间的相互关系作为变量选择和变量衍生的依据之一,并同时评估数据的质量,如检查空值、异常值、缺失值、噪声数据等。

随着下面数据准备过程的不断进行。

在数据探索中使用SPSS Modeler中的数据审核节点以及特征选择节点能够方便地观测各字段的数据以及一些简单的基本统计数据。

在SPSS Modeler中新建数据流定义为“数据探索”,创建数据流如图1所示:1)将流失字段churn 角色设置为目标。

将所有其他字段的角色设置为输入。

2)通过使用“特征选择”节点,删去不能为变量和目标之间的关系添加任何有用信息的预测变量或数据,并选择重要变量,使目标与变量之间的相关性更好,如图所示:重要性是基于Pearson 分布的,当值小于0.9,模型将认为该字段是不中要的。

重新回到之前生成的模型块。

所以进行选择后剩下的变量都是重要性的变量。

3)运行“特征选择”节点,可以得到结果为:我们从运行结果就可以得到3个变量分别因单个类别过大、缺失值过多和变异系数低于阈值而被过滤掉,并且根据重要性的筛选最终获取除目标变量外的27个变量字段。

为了验证这3个变量分析是否准确,对其进行数据分析结果如下:引入1个字段logwire进行数据分析,可以得到:我们可以看出logwire 的有效数据是 296 条,相对于总的 1000 条数据,它的缺失比率为 70.4%, 高于“特征节点”定义的 70%。

对于分析目标变量有效值较少,所以被筛选掉。

引入“分布”节点连接到读入数据的数据源节点,选择 retire 字段,运行流。

可以看到 retire 字段中,确实有 95.3% 的人都是未退休的人。

此信息无助于区分客户。

4)接下来利用“过滤”节点将不重要的变量过滤掉,再次对28个字段进行数据分析,可以看出字段 logtoll,其有效值比例小于 50%。

通常我们对于这种有效值比较低的字段的做法是用它的均值代替它的空值与无效值,这里我们看到,它的均值是 3.240。

接下来,我们用“填充”节点来实现对空值与无效值的替换。

如下图所示,对于字段logtoll 的空值和无效值,将用均值 3.240 替代。

综上分析结果,最后我们导出28个字段作为预测模型的客户原始变量。

3 数据准备将“含有28个字段变量的客户信息”作为数据源对1000个数据进行抽样,所建数据流命名为“数据准备”1)首先我们对含有28个字段的1000个数据按照3:7的比例进行抽样,引入“导出”字段,命名为“抽样”,输入随机抽取公式,生成的样本分布为训练集为699,测试集为3012)将“选择”节点接入“抽样”,进行随机选择,并且过滤到“抽样”字段,最终生成随机的训练样本train和测试样本test。

4 预测模型的建立综上所述,数据准备阶段已经完成,我们己经为建立模型准备好了数据以及变量,本节的内容便是用抽取出来的训练数据建立客户流失分析模型。

下面我们选择cs5.0、cart和神经网络为基础建立预测模型。

以train样本建模,test样本进行模型评估和验证有效性。

建立数据流命名为“建立模型”:5 模型评估及客户特征分析将数据源test接入数据流,使其分别在三个模型中运行过后来评估,3个模型的有效性和准确性:1)分析进行对比评估预测模型的评估方法是:用分布图来展示预测值与真实值的对比情况,预测模型评估用样本的检验集数据(共312条)来验证模型的情况。

通过对比,我们可以发现CART树的正确率较高为75%。

所以我们选择这种模型进行客户流失和未流失特征分析。

2)利用节点评估模型的评估结果——增益图从增益图中可以看出,三种模型变化趋势相近,但还是可以隐约看出CART 模型准确率更好一点,所以我们应该选择这种模型。

3)客户特征分析根据CRAT模型得出,结果如下根据预测变量的重要程度,将重要性较低的变量字段在生成树状图的时候直接过滤掉了。

因此,在分析客户是否流失时最主要关注的两个变量是longten和equipmon . 当longten<=143.05时,流失率为49.673%,当equipmon>19.650时,流失率达到了73.239%,相反,客户则很少流失,所以电信企业要在这两个方面加强。

6 客户忠诚度的分析本文利用spss modeler进行数据清洗后的27个字段变量1000个样本数据,再利用spss进行因子分析。

1)相关性检验由KMO检验标准,检验值为0.825,表示原始变量之间具有较强的相关性,所以适合作因子分析。

2)因子旋转后提取公因子为了能够在统计学上对获得客户忠诚度的这个综合指标更多的解释度,所在提取主成分时提取10个,获得更好的解释度。

表2 旋转后方差贡献率表3 公共因子提取由表2我们可以得出10个公共因子的方差贡献率,表3中我们可以根据公共因子在变量上的解释度进行命名。

因子1命名为“长途业务”,其方差贡献为14.83%,因子2命名为“无线业务”,方差贡献为13.28%,因子3命名为“呼叫业务”方差贡献为10.197%,因子4命名为“收入情况”,方差贡献为8.348%,因子5命名为“主叫业务情况”,方差贡献为8.044%,因子6命名为“设备基本情况”方差贡献率为7.388%,因子7命名为“免费业务”,方差贡献为7.018%,因子8命名为“年龄居住情况”,方差贡献为6.396%,因子9命名为“网络电子账单情况”,方差贡献为4.904%,因子10命名为“教育水平”,方差贡献为3.832%。

3) 建立客户忠诚度计算公式将主成分得分矩阵作为矩阵A,方差贡献作为矩阵B,AB相乘就可以得到忠诚度评分模型系数即:因此,客户忠诚度= 0.0271*Months with service+ 0.0174*Age in years+⋯⋯0.0228*Log-income+0.0268*Customer category4)得出客户忠诚度后,对所有客户原始数据代入模型中,可以得到所有客户的忠诚度评分。

对所有的客户忠诚度评分与客户是否流失进行分析。

如图所示:横轴代表客户忠诚度得分排序后的分档客户,纵轴代表客户是否流失的频数,可以得出的一个很显然的结论是随着忠诚度得分不断提高,客户的流失率不断下降,而企业更关注的是忠诚度得分较低的顾客,对其进行分析。

从图中我们可以看出忠诚度得分在60分一下的所有客户中流失比率占比较大,这些客户属于低忠诚度客户,而忠诚度得分在60分以上的客户属于高忠诚度客户,企业应该根据从忠诚度系数较高的变量着手,同时结合因子分析中公共因子几个方面进行改善。

7 结论本文根据电信企业的客户基本属性和各种行为数据信息,客户是否流失进行了两方面的分析。

一方面是电信企业影响客户是否流失的变量有很多,比如本文利用的数据源,字段变量高达42个,但并不是所有的字段都是影响客户流失的重要因素,变量越多在挺高模型的精确度上不会很明显,所以本文利用spssmodeler14.1对所有的变量进行了挖掘,最终筛选出影响客户流失的27个字段变量,并在27个变量的基础上进行决CART、C5.0和神经网络的建模,同时进行了模型评估,最终选择CART模型对客户流失最重要的特征进行了分析;另一个方面是本文运用因子分析建立客户忠诚度评分模型,使企业更容易发现低忠诚度的客户和影响的关键影响因素。

因此本文在研究电信企业客户流失方面对业务人员具有一定的参考意义。

相关主题