当前位置:文档之家› 一种确定客户流失的方法和系统

一种确定客户流失的方法和系统

一种确定广电客户流失的方法和系统作者:胡玉婷袁昊程版本:v1.0文档创建日期:2013年9月11日最后修改日期:2013年9月11日1.本发明要解决的技术问题是什么?进入21世纪以来,随着电信与信息技术的飞速发展,在“三网融合”的大趋势下,广电运营商面临着重大挑战,同时也是一次重大机遇。

与其它运营商相比,有线运营商在视频传播领域具有资源、技术等全方位的优势,但随着时间的推移和科技的发展,这种优势将会不断弱化,全面的竞争将不可避免。

而且对于广电运营商而言,注册客户数动态增长,在大量客户入网的同时,又有大批客户离网流失,业务与收入总量增长相对趋缓,导致出现“增量不增收”现象。

从传统意义上讲,发展一个新客户所支出的费用是保留一个老客户的五倍。

因此,分析客户流失原因,吸引潜在客户入网,增加现有客户满意度,减少客户流失概率,提高客户消费水平,充分占有市场,是广电运营商在激烈市场竞争中制胜的关键。

那么如何保留当前客户资源,采取措施挽留将要流失的客户,降低客户流失率,并为之提供有差别的服务,已成为广电行业目前亟需解决的问题。

2.详细介绍技术背景,并描述已有的与本发明最相近似的技术方案广电行业中,客户流失是指客户在连续一段时间内发生不同程度的停止贡献价值,甚至拖欠应收费用的行为。

客户流失分析是指使用多角度的客户数据进行分析,提炼出已流失和预流失客户的行为特征,利用数据挖掘技术建立客户流失模型,并将流失模型应用在实际运营中,对客户在未来一段时期发生流失的概率进行预测,并输出流失可能性较大的客户清单,从而能提供给CRM 等相关系统做事前的维系挽留工作,降低客户的离网率,减少企业的损失。

目前已经有诸多解决客户流失分析的数据挖掘技术方案,主要分为如下几类:1.决策树算法,这样的系统架构相对简单,系统整体运行效率易于保障。

2.神经网络算法3.逻辑回归算法3.以因果关系推理的方式推导出现有技术的缺点是什么?下面分别对上面提到的三类方案分析各自的不足:1.决策树算法2.神经网络算法3.逻辑回归算法4.本发明技术方案的详细阐述,应该结合流程图、原理图、电路图、时序图进行说明4.1 客户流失预警系统的架构广电行业客户流失预警系统的目标是通过客户的缴费信息和客户属性信息等,对客户在未来一段时期发生流失的概率进行预测,并结合实际运营情况实施营销手段,统一实现客户挽留管理工作。

客户流失预警系统的核心技术是数据挖掘技术,其体系架构融合于数据仓库架构之中(图4.1)。

客户流失预警系统充分利用BOSS系统产生的大量宝贵的数据资源,结合相关支撑系统提供的信息,构建经营分析中心和分析挖掘使用平台,从而对信息进行智能化加工、处理,并最终为市场决策管理者和市场经营工作提供及时、准确、科学的辅助决策依据。

图4.1 客户流失预警系统典型架构客户流失模型的数据主要来源于两个,一是数据仓库,这部分接口数据是必要的,另一个是BOSS等支撑系统,这部分接口数据是可选的。

基于此,客户流失预警系统架构包含3层:●DMW层:客户流失模型每月从数据仓库底层(ODS)和轻度汇总层(DW)抽取所需要的数据,存放在DMW层,DMW层的每个表都以“DMW_”开头;●DM层:客户流失模型根据多个月DMW层中的数据,制作成分析宽表,以备数据挖掘模型使用,并可以存储BOSS等支撑系统对预测用户的关怀活动反馈结果,以备挖掘模型优化时使用。

DM层中的每个表都以“DM_”开头;●分析层:通过分析层建立数据挖掘模型,并进行不断评估和调试;最后市场部根据数据挖掘的结果配置挽留策略后,最终将客户信息显示到应用操作平台。

在建设客户流失预警系统的整个过程中包括两个关键环节:●一是客户流失预警模型的建立,是项目的核心部分,需要根据业务需求不断调试;●二是数据挖掘成果应用的组织与管理实施,此乃项目的关键与成功保障。

在完成第一个关键环节建设之前,广电运营商需要已经建立比较完备的数据仓库系统,因为一个真正意义的数据挖掘应用系统是以数据仓库建设为基础的。

4.2 客户流失模型本发明的目的是为了更好的解决目前广电行业客户流失情况,克服现有技术存在的问题而提供一种确定广电客户流失分析方法及系统。

为此,本发明实施提供如下技术方案,,该方案可通过如下步骤来描述,如图4.2所示:1.根据广电行业商业理解和业务需求,确定客户流失分析的主题。

2.根据客户流失分析的主题,收集一个时间窗口内的原始运营数据,构建面向主题的数据集市。

3.基于上述的数据集市,提取流失变量,建立建模所用的训练数据集、测试数据集和预测数据集。

4.基于客户流失分析的主题,运用数据挖掘工具R,建立逻辑回归模型。

5.利用逻辑回归模型计算客户流失概率及客户流失状态。

6.利用测试数据集和预测数据集分别检验和评估逻辑回归模型。

7.拓展该方法,构建预测每个月对应的客户流失模型,实现精细化预测。

8.模型进一步拓展,基于步骤7和重采样(Bootstrap)方法,构建综合预测的客户流失模型,简化实际操作的难度。

9.发布模型及模型应用的结果。

图4.2 客户流失模型实施流程图其中步骤1所述的客户流失分析主题主要包括:客户流失的定义、流失模型的目标变量的确定、流失客户的特征分析、客户流失概率的计算和客户流失的原因分析。

其中步骤2所述进一步包括:时间窗口的确定本发明选取样本容量总体涉及时间段为2011年1月1日到2012年12月31日尼日利亚的历史数据进行客户流失预测建模,其中进行数据挖掘建模的时间窗口设置如图4.3。

图4.3 时间窗口历史数据窗口:作为从数据集市中获取训练数据集或预测数据集的区间,该窗口内的数据集为模型输入变量,该窗口跨度为12个月;观察窗口:作为实际运营操作的一个等待准备时间,该窗口跨度为1个月;预报窗口:作为客户流失分析的目标区间,该窗口跨度为1个月。

●抽样比例的确定;●样本容量的确定;●从数据仓库选择、收集与客户流失运营相关的原始数据字段,其主要包括客户的缴费行为数据。

其中所述步骤3包括:●根据步骤2抽取的运营相关的原始数据字段,生成用于流失分析的衍生变量;所提取的流失变量主要是:月均停断时长、月均在线时长、月均ARPU值、月均缴费金额、缴费次数、换包次数、入网时长和当月节目包的类型;●数据预处理。

所述数据预处理是为了对数据进行清理、集成和标准化,其主要包括缺失数据处理和数据“最小—最大”标准化。

●训练数据集和测试数据集构建●形成建模挖掘宽表。

●预测数据集构建;其中所述步骤4进一步包括:●指标特征化和提取;所述指标特征化和提取指为了减少变量间的冗余而进行流失变量筛选,其主要将相关系数分析和基于AIC准则的逐步回归分析方法进行了对比分析;●建立目标变量和流失变量之间的逻辑回归模型。

其中所述步骤5是指将测试数据集和预测数据集分别代入已经训练好的逻辑回归模型,计算客户的流失概率,并根据一定的准则确定客户流失状态。

其中所述步骤6进一步包括:●模型评估指标的确定;●模型的检验包括检验弃真错误、存伪错误。

其中所述步骤7指根据时间窗口的移动,所建立的逻辑回归模型会有所不同,但方法原理是一致的,可通过移动时间窗口继续拓展,精确建立预测每个月对应的客户流失模型。

其中所述步骤8指根据步骤7所得到的每个月对应的客户流失模型,对其参数采取重采样(Bootstrap)方法,对流失模型进行改进,构建综合预测每个月的客户流失模型。

其中所述步骤9包括调用存储过程,将优选的逻辑回归模型写入模型库中,实现流失预警系统的规范化和自动化,并将预测结果反馈给相关部门做挽留工作;与现有技术相比,本技术方案提供了变量的筛选的方法,提供了准确预测每个月对应的客户流失模型,同时为了简化实际操作的难度,还根据Bootstrap方法构建综合预测下个月的客户流失模型,增加了模型的准确性和可理解性,流失变量的选取具有广电行业的特色,从而能够实现现有技术不能解决的问题,为广电行业提出了一个解决客户流失问题的可行技术方案。

为了更清楚的说明本申请实施例或技术方案,下面结合附图和实施方式对本发明实施例进行进一步详细的说明。

具体过程如下:(一)确定流失分析主题确定流失分析主题:根据企业的商业理解和业务需求为出发点,是数据挖掘的主要目标,决定了数据挖掘的实施方向。

所述客户流失分析主题主要包括客户流失的定义、流失模型的目标变量的确定、流失客户的特征分析、客户流失概率的计算和客户流失的原因分析等。

(二)数据准备,建立数据集市根据客户流失分析的主题,收集一个时间窗口内的原始运营数据,构建面向主题的数据集市。

下面举例说明:时间窗口的确定:选取2011年5月至2012年4月抽样比例的确定:广电行业每月的客户流失率一般在1 %~3 %左右。

如果直接采用某种模型(比如Logistic回归模型、决策树、人工神经网络等) 可能会因为数据概率太小或者使得样本比例严重偏倚而导致模型的失效,本文采用“重采样法(bo otstrap)”把流失客户在总样本容量中的比例提高到10 %。

样本容量的确定:本文此次研究采用全数据模式,即样本容量确定为时间段2011年1月1日到2012年12月31日尼日利亚的全库所有历史数据。

从数据仓库选择、收集与客户流失运营相关的原始数据字段:(三)建立训练数据集、测试数据集和预测数据集流失变量特征提取:测试数据集建立:选取2011年5月至2012年4月的历史数据作为输入变量,同时依据客户流失定义计算2012年6月的客户流失状态作为目标变量,建立客户流失预测模型。

2011年5月至2012年4月的历史数据我们按照抽取样本的70%和30%分为训练集和测试集,其中训练集用来训练出流失模型,完成指标变量的筛选;测试集用来验证以这批历史数据训练出来的模型的准确性,防止过度拟合。

预测数据集建立: 选取2011年6月至2012年7月的所有历史数据作为输入的指标变量,代入训练好的流失模型,预测2012年3月客户的流失状态;2011年6月至2012年7月的所有历史数据我们称为预测数据集,其主要用来验证该流失模型的预测准确率、覆盖率和命中率。

(四) 建立逻辑回归模型逻辑回归模型的目标变量是分类的而不是连续的。

对于一个给定的客户我们用1Y =表示流失客户,0Y =表示未流失客户;用1234567(,,,,,,)X X X X X X X X =表示由4.4节筛选出来的7个指标:月均停断时长(X_STOPDAYS)、 月均ARPU 值(X_A VG_ARPU)、月均缴费金额(X_A VG_PAYMENT)、 缴费次数(X_PAY_CNT) 、换包次数(X_CHANG_PKG_CNT)、入网时长(X_INNET_DAYS)和节目包类型(X_PKGTYPE)组成的向量。

假设(,)i i X Y 代表历史数据,**(,)i i X Y 代表即将预测的数据,其中*i X 是已知的,*i Y 是待预测的客户流失状态。

相关主题