当前位置:
文档之家› 基于改进聚类的电信客户流失预测分析
基于改进聚类的电信客户流失预测分析
[ 3] [ 2]
1 电信客户流失问题
1. 1 电信客户流失的定义与分类 到目前为止 , 客户流失仍未做出官方的定义 , 总 的来说 , 客户流失可被简单定义为客户终止了与已签 合同公司的关系 , 选择了其它同类型公司的产品或服 务 。 而电信行业中的客户流失可分为主动流失 和被 动流失 。 主动流失是客户由于自身的原因而引 起的 流失 , 按照原因不同 , 可将主动流失分为主观方面的 流失和客观方面的流失 。 主观方面的流失是指 客户 主观上对目前公司提供的服务不满意 , 或与其竞争的 对手公司提供了与本公司相比更加优惠的产品和服 务, 因此客户主动提出中止与该公司的服务合同 , 重
5 3 4
太 原 理 工 大 学 学 报 第 4 5卷
量与其中心点之间 的 距 离 为 欧 基 里 德 距 离 时 , 目标 函数可作如下的定义 :
c c
述x 一 般 情 况 下, 该值是 i 和y i 之间存在的差 异 性 , 一个非负值 , 当x 那 i 与y i 之 间 的 差 异 性 越 来 越 小, 否 则, 将 越 来 越 大。计 算 么该值将越来越接近于 0, 这种差异性有很多 种 方 法 , 方法不同聚类效果也将 不同 , 在本文中采用 的 是 最 常 用 的 基 于 距 离 的 方 法 来计算 。 权值越小 , 说明两者的差异性越小 , 反之权 值越大 , 说明两 者 的 差 异 性 越 大 。 如 果 这 些 数 据 点 比较集中 , 那么这些 数 据 点 与 中 心 点 的 距 离 也 很 相 近, 那么它们的权 值 大 小 也 差 别 不 大 , 因 此, 这些数 据点很容易就能聚类在一起 。 2 . 2. 2 算法思想 对处于同一簇中的所有对象计算它们的加权平 均值 , 然后将数据库中的对象划分到最接近的簇中 , 这种操作反复进 行 , 直 到 给 定 函 数 收 敛 时 停 止。也 就是说 , 它 们 的 平 方 误 差 总 和 满 足 了 给 定 的 阈 值。 这一计算方法只能 是 对 数 值 型 数 据 进 行 计 算 , 当数 据为符号型数据时 , 需要直接对簇中的所有对象计 算其权值的平均数 , 然后重新调整簇中的数据对象 。 其中加权平均值可采用如下的方法进行 : 1 w p i i. ∑ ti =1 式中 : 描 述 的 是c Mj( k) t描 述 1< j< j 加 权 平 均 值; , 中对象个数 值 也 是不 的是c 当 簇 不 相 同 的 时 候 t j 同的 ; 即t 个数 p i 表示的是给定空间中的任意一点 , 据对象之 一 ; w i 描 述 的 是p i 对 象 所 赋 予 的 权 值。
V o l . 4 5 N o . 4 u l 0 1 4 J y 2
) ( 0 0 7 0 1 4 0 4 1 9 4 3 2 2 0 5 3 2 0 5 文章编号 : - - -
基于改进聚类的电信客户流失预测分析
电信领域的体制改革越来越深入 , 在当今社会 , 电信行业内部各个 运 营 商 之 间 为 增 加 自 身 利 润 , 采 用各种手段吸引客 户 , 它们之间的竞争变得越来越 激烈 。 与此同时 , 为获取一个新客户所需要付出的 代价也越来越大 , 与其开拓新客户不如保持已有的 客户 。 电信企业保 留 有 客 户 的 大 量 信 息 , 这些信息 包括客户的呼叫数 据 、 客户的使用产品数据以及客 户的计费数据等 , 如何从这些数据中提取有意义的 知识及规律 , 从而能够提供给客户更优惠的服务 , 使 得用户成为更加忠诚 、 可靠的客户 , 有效地防止客户 流失成为电信 当 前 重 要 任 务 之 一 。 据 不 完 全 统 计 , 电信企业开拓一个新客户所需成本是防止一个老客 户流失的 5 至 6 倍
[ 1]
和神经网 络 相 结 合 的 方 法 作 为 客 户 流 失 的 预 测 模
7] 以电信行业的客户流失问题为研究 对 象 , 型; 李洋 [
提出了基于神经元网络的客户流失数据挖掘预测模
8] 在C 型; 邓全 [ 提出将 l e m e n t i n e数 据 挖 掘 平 台 上,
决策树与回归算法相结合的方法 。 但是 , 上述的研究有一共同的特征就是比较重 视客户流失的准确 性 , 而忽略了客户流失数据的不 平衡性 , 从而在实际应用中出现了很多问题 , 不能真 正预测出将要流失的客户 。 本文在分析电信客户正 负样本数据的基础上 , 提出了加权聚类的思想 , 将不 同的因素附加上不 同 的 权 重 , 从而建立改进聚类预 测模型 , 不仅解决了 大 数 据 集 和 不 平 衡 数 据 带 来 的 问题 , 而且较好地实现了客户流失的预测 。
[ 6]
提出了以粗糙集
收稿日期 : 1 2 1 6 2 0 1 3 - - ) 基金项目 : 国家自然科学基金资助项目 ( 6 1 3 0 1 2 5 0 , ( ) 作者简介 : 姜晓娟 ( 女, 北京人 , 工程师 , 主要从事移动核心网分组域数据优化分析研究 , 1 9 7 8- ) T e l 1 5 5图 F i . 1 A n a l s i s o f c u s t o m e r c h u r n r e d i c t i o n f r a m e w o r k g y p
2 改进的聚类算法
2 . 1 聚类算法简介 聚 类 分析 算 法 是传 统 的经 典 的 数据 挖 掘 算 法, 这n 可作如下 描 述 : 在 m 维 空 间 中 存 在n 个 向 量 , 个向量应该归 属 到c 个 不 同 的 类 别 中 , 采用的方法 就是计算每个 向 量 与c 个 聚 类 中 心 点 的 距 离 , 找出 最小的距离值 , 那么它就属于该中心点所在的聚类 。 因此 , 聚类也可以这样理解 : 聚类内部各个向量的相 关性尽可 能 的 大 , 聚 类 之 间 的 相 关 性 尽 可 能 的 小。 聚类问题可以被看 成 是 无 指 导 的 学 习 , 该方法的目 的是把已有的对象 归 属 到 比 较 相 似 的 一 簇 中 , 从而 可以找到这些数据内在的联系 。 聚类算法多种多样 , 有基于划分的聚类 、 基于层 次的聚类以及基于密度的聚类等等多种算法 。 本文 ) 基础上 的研究是在基 于 划 分 的 聚 类 算 法 ( k-m e a n s 进行的 , 最可靠的聚类 k-m e a n s算法是一种 最 常 用 、 …, 算法 , 他的核心思想是把 n 个向量x i =1, 2, n) i( 划分成c 个部分 , 可 以 看 成 c 个 簇 或c 个 类 Gi ( i= …, ) , 然后 求 取 这 c 个 部 分 的 聚 类 中 心 点 , 使 1, 2, c 得非相似性指标的目标函数达到最小 。 当聚类中向
等: 基于改进聚类的电信客户流失预测分析 第 4 期 姜晓娟 ,
5 3 3
新选择一个更加合理的公司为其服务 。 客观方面的 主动流失是由客户的非主观因素造成的 , 比如客户的 死亡 、 迁徙等 。 而被动流失是指由于客户的一系列不 作为行为导致电信企业停止对该客户提供服务 , 这些 行为包括客户欠费 、 客户违反合同等 。 由于 造 成 客 户 流 失 的 原 因 多 种 多 样 , 其表现形 式也各不相同 , 因此 对 所 有 客 户 流 失 很 难 找 到 一 种 通用的模型对其进 行 预 测 分 析 , 只能针对具体的客 户流失分门别类加 以 分 析 , 即需要建立多个模型进 行分析 。 从上 述 客 户 流 失 的 分 类 可 以 看 出 , 被动流失是 由于电信企业在开拓市场的时候忽略了部分客户本 身质量的考察 , 使得 一 些 非 优 质 客 户 取 得 了 投 机 的 机会 , 他们使用公司 服 务 的 目 的 是 获 取 不 正 当 的 收 益, 不仅不能给企业带来利润 , 反而会给企业带来损 失, 因此这 部 分 客 户 的 流 失 对 企 业 来 说 是 有 益 的 。 对他们的流失也不 需 要 预 测 挽 留 , 相反地对这些客 户应尽早进行识别 , 分析出他们的欠费监测和恶意 消费之后 , 终止对其服务 , 从而挽救企业利益 。 客观 方面的主动流失客户数量很少 , 而且无法控制 , 因而 这类客户流失也不是企业考虑范围 。 而主观方面的 流失 , 产生其流失的 原 因 是 由 于 企 业 在 一 定 程 度 上 忽略了客户的真实 感 受 , 而这些客户又是为电信企 业创造价值的真正 贡 献 者 , 且他们的流失必然会影 响企业的利润 , 因此 , 我们分析的重点就是针对这些 客户进行预测和挽留 。 1. 2 客户流失预测分析框架 由于客户流失对电信企业创造利润起到巨大作 用, 因此电信企业必须充分识别出其用户群体中 , 哪 些可能是潜在的流失者 , 哪些是长期忠实 、 可靠的用 户, 而数据挖掘相关 方 法 可 以 辅 助 电 信 企 业 实 现 这 一重要任务 。 具体 来 说 , 可以通过建立数据挖掘模 型, 对用户数据进行分析 , 电信企业就可以对潜在流 失用户实时或及时 地 采 取 措 施 , 尽最大可能挽留这 些老用户 , 从而降低电信客户的流失率 。 与此同时 , 电信企业也可以通 过 数 据 挖 掘 预 测 模 型 , 分析出导 致电信客户流失的 主 要 因 素 , 从而采取措施消除这 些因素 , 降低其带 给 企 业 的 损 失 。 图 1 为 电 信 客 户 流失分析预测框 架 图 , 包 括 输 入、 输 出、 预测算法和 采取措施 4 个 模 块 。 其 中 输 入 模 块 又 包 括 客 户 级 别、 客户对企业评 价 、 客 户 的 可 靠 性、 客户的自身属 性以及客户的消费 行 为 等 多 个 数 据 库 字 段 或 变 量 ; 预测算法可以采用聚类算法 、 回归模型 、 支持向量机 以及决策树等多种 数 据 挖 掘 相 关 算 法 ; 输出模块中
, 因此很多
研究学者认为可以通过数据挖掘手段来分析客户是 否具备流 失 的 因 素 。 M 决策 r 采 用 神 经 网 络、 o z e 树以及回归技术来分析某一时间段内客户流失的可 能性 ; Y a n等