当前位置:
文档之家› 5-1 数据挖掘的步骤及实例(客户流失模型)
5-1 数据挖掘的步骤及实例(客户流失模型)
数据挖掘中的数据变换过程
解释/评估 数据挖掘
预处理 及变换 变换后的数据 数据清理筛选
目标数据
数据
1 需求分析
第一步:需求分析。明确挖掘目标和要求。
任务: 1)明确挖掘目标和要求。 2)确定数据挖掘的类别:关联、分类、回归、聚类? 3)初步判断挖掘所需要的数据质量如何 4)如何展示和应用挖掘结果。 5)挖掘系统部署后,对业务有哪些提升? 方法: 1)调查、访谈。 2)头脑风暴。头脑风暴会议应在充分的材料准备基础上,在 轻松的环境中进行,以充分发挥与会人员的才智。
客 户 代 码 客 户 性 姓 别 名 年 龄 学 职 历 业 单 位 收 入 手 机 … 号 码 号 码 套 品 餐 牌 付 款 方 式 入 网 渠 道 客 户 … 类 型
客户级别数据按月提供,每个客户一条记录。客户的年龄、职业、 学历、收入等数据准确性较低。
2 数据理解
通话详单数据:通话一次,记录一行数据。
由空属性集开始,每次都选择原属性集中最好的属性,将其添加 到集合中。
2.逐步向后删除:
由整个属性集开始,在每一步,删除掉尚在属性集中的最坏属性。
3. 向前选择和向后删除的结合: 每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属
性。
3 数据准备(数据预处理)
3. 缺值处理 缺值:某些对象在某些属性上缺少值。典型处理方法有:
1.直接删除 缺值实例数较少,而实例总数很大时采用。 2.新值法 将缺值作为一个新值看待。
例如:选择型问卷调查中,有些题调查者没有答。此时, 可增加一个选择E。如果没有选择,就认为他选择了E。
3.统计填充法 用该属性非缺值的均值,或中位点,或众数填充。 4.预测估计法
3 数据准备(数据预处理)
4.属性合成
4) MS公司的SQL Server 2005 Data Mining软件。
5 构建平台,具体挖掘
第五步:构建硬件、软件、数据平台,确定相关参数,并具体
挖掘。
6 挖掘结果展示、评价与应用
第六步:结果展示、评价、部署、维护。
含义:属性合成指将一个或若干个属性合并成一个或若干个属性。 1.比例法:通常用在两个具有主从关系或部分关系的属性上。 长话次数 电话:长话次数占的比例== —————— 通话总次数
2. 通过和-积-差等常规计算,产生衍生属性。 电话:被叫通话时长=通话总时长-主叫通话时长
3.通过汇总统计,产生新的属性 1)简单统计量 购物:一段时间内的平均每次购物额。 2)离散程度 电信:用户拨打不同电话号码的个数。
1 需求分析
手机客户流失预测需求分析:
发展十分重要。
一个电信企业在运营过程中,不可避免地要流 失部分客户。所以,可以从大量的与客户相关的数 据中,运用决策树等方法建立客户流失预测模型。 从而对初显流失客户特征的客户采取必要的挽留措 施,达到保值老客户的目的。
1)聚类分析部分:
非数值数据的数值化 标准化(归一化、规范化) 本节: 数据抽样 属性选择 缺值处理 属性合成
2)分类与预测部分: 连续数据离散化 离散数据的概念提升
3 数据准备(数据预处理) 1.数据抽样
由于数据挖掘算法有时间复杂度和空间复杂度的限制,
所以,当数据集过大时,需要对数据进行抽样。
方法: 1)随机抽样:一般采用无放回方法进行随机抽样。 2)分层抽样。先根据某个条件(如分类中的类别)将数
2)变动流失:因欠费,被电信公司关闭账户。
3)自然流失:因各种原因停止使用手机号码,有时可能还有少量通话。 前两类由系统自动标记,第三类形成比较复杂,可通过消费额的变 化,予以标记。
3 数据准备(数据预处理)
数据清理:
1)客户基本数据中的学历、职业等字段中有大量的缺值, 而且正确性难以保证,可以去掉,不参加建模。 2)有些客户的通话数据可能存在异常,可以删除这些客 户。 3)有些属性之间相关性较大,可进一步选择。
3)性能与计算复杂度。
4)处理连续数据或离散数据的能力、处理高维数据的能力等。
常见的算法都可对部分参数进行调整。 实际问题中,可使用多个算法对同一个问题进行建模。
4 挖掘算法与挖掘软件的选择
典型数据挖掘软件介绍:
1)SAS公司的Enterpride Miner软件。为SAS统计软件的一个模块。 2) IBM公司Intelligent Miner软件、 Clementine软件(原SPSS公 司)。 3)Oracle公司的Oracle Data Mining软件。为Oracle数据库管理系 统新增的模块,与数据库管理软件紧密集成。
手机号 码 对方 号码 呼叫类 型 主叫 被叫 长途类 型 漫游类 型 通话开 通话持 始时间 续时间 ….
短信详单数据:一条短信,记录一行。
手机号码 对方号码 数据量 发送时间 。。。
2 数据理解
投诉数据:
客户 号码 投诉 投诉 时间 类型 投诉 小类 投诉 处理 情况 客户 满意 度 …..
交费数据: 对后付费客户,主要是交费是否及时,对预付费客户, 主要是充值时间、金额等。
据集划分成若干个子集(每个子集称为一个层),再对每个
子集进行随机抽样。
3 数据准备(数据预处理)
2.属性选择
有些问题中,对象的属性很多。有些属性可能是无关的属性,这些 属性可能使学习算法受到干扰。另一方面,有些算法处理高维的数据也 有困难。所以,事先有必要在所有属性中,选择出比较重要的属性。 属性子集选择方法包括以下技术: 1.逐步向前选择:
短信详单可聚集出类似的变量。投诉信息可统计出投 诉次数等。
3 数据准备(数据预处理)
数据采样:
客户流失模型研究的目标是为了挽留客户。研究价值低的客户得不偿
失。因此,应选择满足一定价值标准的客户。例如,积分或历史消费数据 应大于某个标准。
客户“类标签”的确定:
在电信客户流失中,主要有三类流失: 1)主动流失:客户客户主动去营业厅要求销户
5-1 数据挖掘过程及实例
0 数据挖掘的步骤
第一步:需求分析。明确挖掘目标和要求。 第二步:数据理解。了解目前的数据状况。
第三步:数据准备:选择挖掘的数据并进行预处理
第四步:挖掘算法与挖掘软件的选择。 第五步:构建硬件、软件、数据平台,确定相关参数, 并具体挖掘。 第六步:结果展示与评价、导出。
0 数据挖掘的步骤
3 数据准备(数据预处理)
手机客户流失预测问题的数据与处理:
将详单数据聚集为月度数据:
客 户 号 码 月通 话总 长 月通 话次 数 月呼 出时 长 IP电 月呼 漫游 长途 话通 入次 通话 通话 话时 数 时长 时长 长 分时 分天 主叫 被叫 主叫 被叫 段通 通话 市话 市话 长话 长话 …. 话时 时长 个数 个数 个数 个数 长
2 数据理解
第二步:数据理解。即了解目前的数据状况。
1. 需要的数据及含义 2. 数据的分布情况: 需要的数据都分布在哪些系统(数据库、表)中,有多 少数据。 3. 数据的质量: 1)关键数据是否能够获取。 2)缺失值或无效值数量如何? 3)是否有足够的历史数据。
2 数据理解
手机客户流失预测数据理解: 预测需要的数据:客户数据、通话详单、短信详单、 投诉数据、交费数据等。 客户数据:
第四步:挖掘算法与挖掘软件的选择。
主要考虑因素: 1)算法的有效性:即算法对要解决的问题是否有效。数据集的特征是千变万 化的。目前,每个算法都对数据集有潜在假设。没有一种算法在所有类型的 数据集上都表现良好。因此,数据集的特征应与算法的假设比较吻合。
2)模型的可理解性:模型可解释,可增加人们对模型的信任度。例如,用决 策树算法生成的模型易于解释,而神经网络算法生成的模型则难以解释。
3 数据准备(数据预处理)
第三步:数据准备。按要求准备好需要挖掘的数据。
按照挖掘要求,通过抽取数据,转换,聚集以及数据预处理技术,将
数据整理成适合挖掘的形式。 在数据挖掘中,数据预处理指的是根据数据挖掘算法和软件的要求, 对已有的数据进行必要的加工,使其能满足挖掘要求的数据处理过程。 已讲过的数据预处理方面的内容:
3 数据准备(数据预处理)
时间窗口选择:
客户流失与时间有关。因此,需要选择时间窗口。例如,时间
窗口为3,就是取3个月的通话等相关数据。
第1个月数据 客 户 号 码 手 机 号 码 号 付 码 套 款 品 餐 方 牌 式 入 网 渠 道 客 月 月 户 … 通 通 类 话 话 型 总 次
长 数 月 呼 出 时 长 月 呼 出 次 数 漫 游 通 话 时 长
第2个月 第3个 数据 月数据 流 失 情 况
…
正 常
3 数据准备(数据预处理)
时间窗口的叠加:
为了提高模型的适应性,可使用不同的时间窗口的数据进行叠加。
4
5
6
7
8
9
10 11 12
1
2
3
4
5
6
7
8
9
10 11 12
1
2
3
4
4
5
5
6
6
7
7
8
8
9
9
10 11 12
10 11 12
1
1
2
2
3
3
4 挖掘算法与挖掘软件的选择