当前位置：文档之家› 基于改进聚类的电信客户流失预测分析

基于改进聚类的电信客户流失预测分析

［３］［２］
１电信客户流失问题
１．１电信客户流失的定义与分类到目前为止，客户流失仍未做出官方的定义，总的来说，客户流失可被简单定义为客户终止了与已签合同公司的关系，选择了其它同类型公司的产品或服务。而电信行业中的客户流失可分为主动流失和被动流失。主动流失是客户由于自身的原因而引起的流失，按照原因不同，可将主动流失分为主观方面的流失和客观方面的流失。主观方面的流失是指客户主观上对目前公司提供的服务不满意，或与其竞争的对手公司提供了与本公司相比更加优惠的产品和服务，因此客户主动提出中止与该公司的服务合同，重
５３４
太原理工大学学报第４５卷
量与其中心点之间的距离为欧基里德距离时，目标函数可作如下的定义：
ｃｃ
述ｘ一般情况下，该值是ｉ和ｙｉ之间存在的差异性，一个非负值，当ｘ那ｉ与ｙｉ之间的差异性越来越小，否则，将越来越大。计算么该值将越来越接近于０，这种差异性有很多种方法，方法不同聚类效果也将不同，在本文中采用的是最常用的基于距离的方法来计算。权值越小，说明两者的差异性越小，反之权值越大，说明两者的差异性越大。如果这些数据点比较集中，那么这些数据点与中心点的距离也很相近，那么它们的权值大小也差别不大，因此，这些数据点很容易就能聚类在一起。２．２．２算法思想对处于同一簇中的所有对象计算它们的加权平均值，然后将数据库中的对象划分到最接近的簇中，这种操作反复进行，直到给定函数收敛时停止。也就是说，它们的平方误差总和满足了给定的阈值。这一计算方法只能是对数值型数据进行计算，当数据为符号型数据时，需要直接对簇中的所有对象计算其权值的平均数，然后重新调整簇中的数据对象。其中加权平均值可采用如下的方法进行：１ｗｐｉｉ． ∑ ｔｉ＝１式中：描述的是ｃＭｊ（ｋ）ｔ描述１＜ｊ＜ｊ加权平均值；，中对象个数值也是不的是ｃ当簇不相同的时候ｔｊ同的；即ｔ个数ｐｉ表示的是给定空间中的任意一点，据对象之一；ｗｉ描述的是ｐｉ对象所赋予的权值。
Ｖｏｌ．４５Ｎｏ．４ｕｌ０１４Ｊｙ２

）（００７０１４０４１９４３２２０５３２０５文章编号：－－－
基于改进聚类的电信客户流失预测分析
电信领域的体制改革越来越深入，在当今社会，电信行业内部各个运营商之间为增加自身利润，采用各种手段吸引客户，它们之间的竞争变得越来越激烈。与此同时，为获取一个新客户所需要付出的代价也越来越大，与其开拓新客户不如保持已有的客户。电信企业保留有客户的大量信息，这些信息包括客户的呼叫数据、客户的使用产品数据以及客户的计费数据等，如何从这些数据中提取有意义的知识及规律，从而能够提供给客户更优惠的服务，使得用户成为更加忠诚、可靠的客户，有效地防止客户流失成为电信当前重要任务之一。据不完全统计，电信企业开拓一个新客户所需成本是防止一个老客户流失的５至６倍
［１］
和神经网络相结合的方法作为客户流失的预测模
７］以电信行业的客户流失问题为研究对象，型；李洋［
提出了基于神经元网络的客户流失数据挖掘预测模
８］在Ｃ型；邓全［提出将ｌｅｍｅｎｔｉｎｅ数据挖掘平台上，
决策树与回归算法相结合的方法。但是，上述的研究有一共同的特征就是比较重视客户流失的准确性，而忽略了客户流失数据的不平衡性，从而在实际应用中出现了很多问题，不能真正预测出将要流失的客户。本文在分析电信客户正负样本数据的基础上，提出了加权聚类的思想，将不同的因素附加上不同的权重，从而建立改进聚类预测模型，不仅解决了大数据集和不平衡数据带来的问题，而且较好地实现了客户流失的预测。
［６］
提出了以粗糙集
收稿日期：１２１６２０１３－－）基金项目：国家自然科学基金资助项目（６１３０１２５０，（）作者简介：姜晓娟（女，北京人，工程师，主要从事移动核心网分组域数据优化分析研究，１９７８－）Ｔｅｌ１５５图Ｆｉ．１Ａｎａｌｓｉｓｏｆｃｕｓｔｏｍｅｒｃｈｕｒｎｒｅｄｉｃｔｉｏｎｆｒａｍｅｗｏｒｋｇｙｐ
２改进的聚类算法
２．１聚类算法简介聚类分析算法是传统的经典的数据挖掘算法，这ｎ可作如下描述：在ｍ维空间中存在ｎ个向量，个向量应该归属到ｃ个不同的类别中，采用的方法就是计算每个向量与ｃ个聚类中心点的距离，找出最小的距离值，那么它就属于该中心点所在的聚类。因此，聚类也可以这样理解：聚类内部各个向量的相关性尽可能的大，聚类之间的相关性尽可能的小。聚类问题可以被看成是无指导的学习，该方法的目的是把已有的对象归属到比较相似的一簇中，从而可以找到这些数据内在的联系。聚类算法多种多样，有基于划分的聚类、基于层次的聚类以及基于密度的聚类等等多种算法。本文）基础上的研究是在基于划分的聚类算法（ｋ－ｍｅａｎｓ进行的，最可靠的聚类ｋ－ｍｅａｎｓ算法是一种最常用、 …，算法，他的核心思想是把ｎ个向量ｘｉ＝１，２，ｎ）ｉ（划分成ｃ个部分，可以看成ｃ个簇或ｃ个类Ｇｉ（ｉ＝ …，），然后求取这ｃ个部分的聚类中心点，使１，２，ｃ得非相似性指标的目标函数达到最小。当聚类中向
等：基于改进聚类的电信客户流失预测分析第４期姜晓娟，
５３３
新选择一个更加合理的公司为其服务。客观方面的主动流失是由客户的非主观因素造成的，比如客户的死亡、迁徙等。而被动流失是指由于客户的一系列不作为行为导致电信企业停止对该客户提供服务，这些行为包括客户欠费、客户违反合同等。由于造成客户流失的原因多种多样，其表现形式也各不相同，因此对所有客户流失很难找到一种通用的模型对其进行预测分析，只能针对具体的客户流失分门别类加以分析，即需要建立多个模型进行分析。从上述客户流失的分类可以看出，被动流失是由于电信企业在开拓市场的时候忽略了部分客户本身质量的考察，使得一些非优质客户取得了投机的机会，他们使用公司服务的目的是获取不正当的收益，不仅不能给企业带来利润，反而会给企业带来损失，因此这部分客户的流失对企业来说是有益的。对他们的流失也不需要预测挽留，相反地对这些客户应尽早进行识别，分析出他们的欠费监测和恶意消费之后，终止对其服务，从而挽救企业利益。客观方面的主动流失客户数量很少，而且无法控制，因而这类客户流失也不是企业考虑范围。而主观方面的流失，产生其流失的原因是由于企业在一定程度上忽略了客户的真实感受，而这些客户又是为电信企业创造价值的真正贡献者，且他们的流失必然会影响企业的利润，因此，我们分析的重点就是针对这些客户进行预测和挽留。１．２客户流失预测分析框架由于客户流失对电信企业创造利润起到巨大作用，因此电信企业必须充分识别出其用户群体中，哪些可能是潜在的流失者，哪些是长期忠实、可靠的用户，而数据挖掘相关方法可以辅助电信企业实现这一重要任务。具体来说，可以通过建立数据挖掘模型，对用户数据进行分析，电信企业就可以对潜在流失用户实时或及时地采取措施，尽最大可能挽留这些老用户，从而降低电信客户的流失率。与此同时，电信企业也可以通过数据挖掘预测模型，分析出导致电信客户流失的主要因素，从而采取措施消除这些因素，降低其带给企业的损失。图１为电信客户流失分析预测框架图，包括输入、输出、预测算法和采取措施４个模块。其中输入模块又包括客户级别、客户对企业评价、客户的可靠性、客户的自身属性以及客户的消费行为等多个数据库字段或变量；预测算法可以采用聚类算法、回归模型、支持向量机以及决策树等多种数据挖掘相关算法；输出模块中
，因此很多
研究学者认为可以通过数据挖掘手段来分析客户是否具备流失的因素。Ｍ决策ｒ采用神经网络、ｏｚｅ树以及回归技术来分析某一时间段内客户流失的可能性；Ｙａｎ等

e商务文档

基于改进聚类的电信客户流失预测分析

相关文档推荐：