当前位置:
文档之家› 电信客户流失的相关性因素分析讲解
电信客户流失的相关性因素分析讲解
12.Logistic分析
显示了当前模型拟合优度方面的指标,各个数据项的含义依次为-2倍的对数似然值, Cox&Snell R²及Nagelkerke R²倍的对数似然值越小则拟合优度越高,该表值为 1201.188. Nagelkerke R²值接近0,拟合效果一般。
12.Logistic分析
显示的是模型的错判矩阵。在没有流失
的726人中,模型正确识别了698人, 错误识别28人,正确率为96.1%。在没 有流失的274人中,模型正确识别2人, 错误识别272人,正确率为0.7%。模型 总的正确预测率为70%。因为预测概率 值大于0.5,所以输出变量的分类预测 值为1.
12.Logistic分析
10.两分类变量相关性的数值分析
在没有退休的953名客户中,未流失的占 71.563%;而在退休的44名用户中,未流失的 占到了93.617%。说明未退休用户较退休用户 更容易流失。
10.两分类变量相关性的数值分析
可以看出,两个性别在流失情况上的差异并不大, 基本可以判断电信用户的流失与性别的相关性不 大。
10.两分类变量相关性的数值分析
种类3(选择了附加服务的用户的流失率最小)的客 户基数最大,但流失率最小。281名选择了附加服务 的客户中,流失的人数为44,仅占16.058%。
10.两分类变量相关性的数值分析
教育水平为高中的用户数量最多,占到了30.854%。并且从图中可以发现,随着 受教育水平的上升,客户流失率也随之提高,可见受教育水平越高的用户越容易 流失。
12.Logistic分析
显示了logistic回归分析第一步时回归方程显著
性检验的情况,个数据项的含义依次是似然比
卡方的观测值、自由度、概率-P值。似然比卡 方的观测值为185.106,概率-P值为0.000。如 果显著性水平为0.05.由于概率-p值小于显著性 水平,应拒绝0假设,认为所有回归系数不同时 为0,解释变量的全体和LogitP之间的线性关系 显著,采用该模型合理。
在这里,对电信用户数据的分析目标是:“在网月数”“客户种类”“性别”“教育水 平”“当前工作年限”“是否退休”“家庭人数”的基本描述统计量,计算上述变量与 “是否流失”变量之间的相关性。
8.计算描述统计量
运行结果
9.绘制散点图
根据散点图更加直观地观察家庭人数、当前工作年限与是否流失之间的关系。选择图形卡中的 “图”,在X字段与Y字段框中选择散点图的X轴变量和Y轴变量,分别选择“家庭人数”“当 前工作年限”。在交叠字段框中指定交叠字段变量,选择“流失”,并用不同颜色表示。
电信客户流失的相关性因素分析
电子商务141 陈燕楠 3140113006
1.读取数据
以电信客户流失情况数据(文件名为“电信客户流失数据.sav”)为例, 将文件导入到数据流中,读取文件。
2.调整变量名称
由于原始数据中的变量名称为英文,不便于理解,因此,将变量名称替换成中文。将“tenure” 替换为“在网月数”,将“custcat”替换为“客户种类”,将“churn”替换为“是否流失”, 将“ed”替换为“教育水平”,将“employ”替换为“当前工作年限”,将“retire”替换为 “是否退休”,将“gender”替换为“性别”,将“reside”替换为“家庭人数”。
11.决策树C5.0分析
从决策树C5.0来看,在这些因素中,最重要的是“当前工作年限”, 比较重要的是“教育水平”,其次是“客户种类”。
11.决策树C5.0分析
当前工作年限小于11年 的620名用户中,流失人 数为226人,置信度为 36.452%;当前工作年 限大于11年的380名用户 中,流失的人数为48人, 置信度为12.632%。
3. 变量角色说明
将“在网月数”“当前工作年限”“家庭人数”设为“连续”,将“客户种类”“是否流失”“性 别”设为“名义”,将“教育水平”“有序”,将“是否流失”角色设置为“目标”。读取值。
4.规范变量取值
对各变量逐个添加标签,以规范变量的取值。如“客户种类”字段中,“1”表 示基本服务,“2”表示上网服务,“3”表示附加服务,“4”表示所有服务。 性别字段中“0”代表男性,“1”代表女性。其他名义类型字段中,“0”均表 示“否”,“1”均表示“是”。“教育水平”字段中,“1”表示低于高中水 平,“2”表示高中,“3”表示大学,“4”表示学士,“5”表示硕士。
结果数据
7.样本的分类汇总
通过对样本数据进行分类汇总,可以观察不同的性别用户在使用电信宽带的时间上的不 同。选择汇总节点,与数据流链接。双击【汇总】节点,关键字段选择“性别”、汇总 字段选择“在网月数”、勾选“总数”“平均值”“标准差”选项。通过建立【输 出】——【表】节点可以浏览评级结果。
8.计算描述统计量
显示了模型中各个回归系数检验方面的指标,显著性水平为0.05,因为性别的概率 -P值大于显著性水平,不应该拒绝0假设;而是否退休的概率-P值小于显著性水平, 拒绝0假设。进一步证明了用户流失与其性别无相关性,而与是否退休存在着相关 性。
Thanks!
教育水平低于高中,高 中和大学的399名用户 中,流失人数为121人, 置信度为30.326%;教 育水平达到学士和硕士 的221名用户中,流失 的人数为105人,置信 度Байду номын сангаас47.511%。
选择了基本服务或所有 服务的138名用户中, 流失人数为62人,置信 度为55.072%;选择了 上网服务或附加服务的 83名用户中,流失的人 数为29人,置信度为 34.940%。
5. 生成新变量
为了更直观了解样本的用户忠诚度,对用户的 在网月数进行了多级评定计算。选择【字段选 项】——【导出】节点,与数据流链接。双击 【导出】节点,选择“多个”模式,导出自 “在校得分”,导出为“名义”,字段类型 “名义”。通过建立【输出】——【表】节点 可以浏览评级结果。
5. 生成新变量