当前位置：文档之家› 5-1 数据挖掘的步骤及实例(客户流失模型)

5-1 数据挖掘的步骤及实例(客户流失模型)

数据挖掘中的数据变换过程
解释/评估数据挖掘
预处理及变换变换后的数据数据清理筛选
目标数据
数据
1 需求分析
第一步：需求分析。明确挖掘目标和要求。
任务： 1）明确挖掘目标和要求。 2）确定数据挖掘的类别：关联、分类、回归、聚类？ 3）初步判断挖掘所需要的数据质量如何 4）如何展示和应用挖掘结果。 5）挖掘系统部署后，对业务有哪些提升？方法： 1）调查、访谈。 2）头脑风暴。头脑风暴会议应在充分的材料准备基础上，在轻松的环境中进行，以充分发挥与会人员的才智。
客户代码客户性姓别名年龄学职历业单位收入手机 … 号码号码套品餐牌付款方式入网渠道客户 … 类型
客户级别数据按月提供，每个客户一条记录。客户的年龄、职业、学历、收入等数据准确性较低。
2 数据理解
通话详单数据：通话一次，记录一行数据。
由空属性集开始，每次都选择原属性集中最好的属性，将其添加到集合中。
2.逐步向后删除：
由整个属性集开始，在每一步，删除掉尚在属性集中的最坏属性。
3. 向前选择和向后删除的结合：每一步选择一个最好的属性，并在剩余属性中删除一个最坏的属
性。
3 数据准备（数据预处理）
3. 缺值处理缺值：某些对象在某些属性上缺少值。典型处理方法有：
1.直接删除缺值实例数较少，而实例总数很大时采用。 2.新值法将缺值作为一个新值看待。
例如：选择型问卷调查中，有些题调查者没有答。此时，可增加一个选择E。如果没有选择，就认为他选择了E。
3.统计填充法用该属性非缺值的均值，或中位点，或众数填充。 4.预测估计法
3 数据准备（数据预处理）
4.属性合成
4） MS公司的SQL Server 2005 Data Mining软件。
5 构建平台，具体挖掘
第五步：构建硬件、软件、数据平台，确定相关参数，并具体
挖掘。
6 挖掘结果展示、评价与应用
第六步：结果展示、评价、部署、维护。
含义：属性合成指将一个或若干个属性合并成一个或若干个属性。 1.比例法：通常用在两个具有主从关系或部分关系的属性上。长话次数电话：长话次数占的比例== —————— 通话总次数
2. 通过和-积-差等常规计算，产生衍生属性。电话：被叫通话时长=通话总时长-主叫通话时长
3.通过汇总统计，产生新的属性 1）简单统计量购物：一段时间内的平均每次购物额。 2）离散程度电信：用户拨打不同电话号码的个数。
1 需求分析
手机客户流失预测需求分析：
发展十分重要。
一个电信企业在运营过程中，不可避免地要流失部分客户。所以，可以从大量的与客户相关的数据中，运用决策树等方法建立客户流失预测模型。从而对初显流失客户特征的客户采取必要的挽留措施，达到保值老客户的目的。
1）聚类分析部分：
非数值数据的数值化标准化（归一化、规范化）本节：数据抽样属性选择缺值处理属性合成
2）分类与预测部分：连续数据离散化离散数据的概念提升
3 数据准备（数据预处理） 1.数据抽样
由于数据挖掘算法有时间复杂度和空间复杂度的限制，
所以，当数据集过大时，需要对数据进行抽样。
方法： 1）随机抽样：一般采用无放回方法进行随机抽样。 2）分层抽样。先根据某个条件（如分类中的类别）将数
2）变动流失：因欠费，被电信公司关闭账户。
3）自然流失：因各种原因停止使用手机号码，有时可能还有少量通话。前两类由系统自动标记，第三类形成比较复杂，可通过消费额的变化，予以标记。
3 数据准备（数据预处理）
数据清理：
1）客户基本数据中的学历、职业等字段中有大量的缺值，而且正确性难以保证，可以去掉，不参加建模。 2）有些客户的通话数据可能存在异常，可以删除这些客户。 3）有些属性之间相关性较大，可进一步选择。
3）性能与计算复杂度。
4）处理连续数据或离散数据的能力、处理高维数据的能力等。
常见的算法都可对部分参数进行调整。实际问题中，可使用多个算法对同一个问题进行建模。
4 挖掘算法与挖掘软件的选择
典型数据挖掘软件介绍：
1）SAS公司的Enterpride Miner软件。为SAS统计软件的一个模块。 2） IBM公司Intelligent Miner软件、 Clementine软件（原SPSS公司）。 3）Oracle公司的Oracle Data Mining软件。为Oracle数据库管理系统新增的模块，与数据库管理软件紧密集成。
手机号码对方号码呼叫类型主叫被叫长途类型漫游类型通话开通话持始时间续时间 ….
短信详单数据：一条短信，记录一行。
手机号码对方号码数据量发送时间。。。
2 数据理解
投诉数据：
客户号码投诉投诉时间类型投诉小类投诉处理情况客户满意度 …..
交费数据：对后付费客户，主要是交费是否及时，对预付费客户，主要是充值时间、金额等。
据集划分成若干个子集（每个子集称为一个层），再对每个
子集进行随机抽样。
3 数据准备（数据预处理）
2.属性选择
有些问题中，对象的属性很多。有些属性可能是无关的属性，这些属性可能使学习算法受到干扰。另一方面，有些算法处理高维的数据也有困难。所以，事先有必要在所有属性中，选择出比较重要的属性。属性子集选择方法包括以下技术： 1.逐步向前选择：
短信详单可聚集出类似的变量。投诉信息可统计出投诉次数等。
3 数据准备（数据预处理）
数据采样：
客户流失模型研究的目标是为了挽留客户。研究价值低的客户得不偿
失。因此，应选择满足一定价值标准的客户。例如，积分或历史消费数据应大于某个标准。
客户“类标签”的确定：
在电信客户流失中，主要有三类流失： 1）主动流失：客户客户主动去营业厅要求销户
5-1 数据挖掘过程及实例
0 数据挖掘的步骤
第一步：需求分析。明确挖掘目标和要求。第二步：数据理解。了解目前的数据状况。
第三步：数据准备：选择挖掘的数据并进行预处理
第四步：挖掘算法与挖掘软件的选择。第五步：构建硬件、软件、数据平台，确定相关参数，并具体挖掘。第六步：结果展示与评价、导出。
0 数据挖掘的步骤
3 数据准备（数据预处理）
手机客户流失预测问题的数据与处理：
将详单数据聚集为月度数据：
客户号码月通话总长月通话次数月呼出时长 IP电月呼漫游长途话通入次通话通话话时数时长时长长分时分天主叫被叫主叫被叫段通通话市话市话长话长话 …. 话时时长个数个数个数个数长
2 数据理解
第二步：数据理解。即了解目前的数据状况。
1. 需要的数据及含义 2. 数据的分布情况：需要的数据都分布在哪些系统（数据库、表）中，有多少数据。 3. 数据的质量： 1）关键数据是否能够获取。 2）缺失值或无效值数量如何？ 3）是否有足够的历史数据。
2 数据理解
手机客户流失预测数据理解：预测需要的数据：客户数据、通话详单、短信详单、投诉数据、交费数据等。客户数据：
第四步：挖掘算法与挖掘软件的选择。
主要考虑因素： 1）算法的有效性：即算法对要解决的问题是否有效。数据集的特征是千变万化的。目前，每个算法都对数据集有潜在假设。没有一种算法在所有类型的数据集上都表现良好。因此，数据集的特征应与算法的假设比较吻合。
2）模型的可理解性：模型可解释，可增加人们对模型的信任度。例如，用决策树算法生成的模型易于解释，而神经网络算法生成的模型则难以解释。
3 数据准备（数据预处理）
第三步：数据准备。按要求准备好需要挖掘的数据。
按照挖掘要求，通过抽取数据，转换，聚集以及数据预处理技术，将
数据整理成适合挖掘的形式。在数据挖掘中，数据预处理指的是根据数据挖掘算法和软件的要求，对已有的数据进行必要的加工，使其能满足挖掘要求的数据处理过程。已讲过的数据预处理方面的内容：
3 数据准备（数据预处理）
时间窗口选择：
客户流失与时间有关。因此，需要选择时间窗口。例如，时间
窗口为3，就是取3个月的通话等相关数据。
第1个月数据客户号码手机号码号付码套款品餐方牌式入网渠道客月月户 … 通通类话话型总次
长数月呼出时长月呼出次数漫游通话时长
第2个月第3个数据月数据流失情况
…
正常
3 数据准备（数据预处理）
时间窗口的叠加：
为了提高模型的适应性，可使用不同的时间窗口的数据进行叠加。
4
5
6
7
8
9
10 11 12
1
2
3
4
5
6
7
8
9
10 11 12
1
2
3
4
4
5
5
6
6
7
7
8
8
9
9
10 11 12
10 11 12
1
1
2
2
3
3
4 挖掘算法与挖掘软件的选择

e商务文档

5-1 数据挖掘的步骤及实例(客户流失模型)

相关文档推荐：