一、数据挖掘概述1、数据挖掘定义:通过自动或半自动化的工具对大量的数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律。
——数据挖掘是一门技能,不是一种现成的产品。
2、数据挖掘能做什么6种方法:分类(classification)、估计(estimation)、预测(prediction)、组合或关联法则(affinity grouping or association rules)、聚类(clustering)、描述与可视化(description and visualization)前三种方法属于直接的数据挖掘,目标是应用可得到的数据建立模型,用其他可得到的数据来描述我们感兴趣某一变量。
后三种方法属于间接的数据挖掘,没有单一的目标变量,目标是在所有变量中发现某些联系。
1)分类:其特点是先对不同的类别加以定义,并由预先分类的样本构成训练集。
任务是建立一个模型并应用这一模型对未分类数据进行分类。
分类处理的是离散的结果。
2)估计处理的是连续的结果。
3)组合法的任务是确认哪些事物会一起出现。
4)聚类的任务是将相似的事物分成一类,差异较大的事物分在不同的类中。
聚类与分类的区别是聚类并不依赖于事先确定好的组别。
3、技术层面的数据挖掘1)算法与技巧2)数据3)建模实践二、数据挖掘方法论:互动循环系统1、数据挖掘的两种类型一种是自上而下的方法,称之为有监督的数据挖掘方法,当明确知道要搜索的目标时,可以是用这种方法。
一种是自下而上的方法,称之为无监督的数据挖掘方法,实际就是让数据解释自己。
此方法是在数据中寻找模式,然后把产生的结果留给使用者去判断其中哪些模式重要。
数据挖掘的结果通常是这两种方法的结合。
1)有监督的数据挖掘黑匣子模型:使用一个或多个输入值产生一个输出的模型。
我们并不关心模型如何运作,那只是黑盒子,我们只关心可能的最优结果。
我们根据已知事例,分析其相关资料,将分析结果用在从未联络的潜在客户,这样的模型称之为预测模型。
预测模型使用历史记录来计算某些相应结果中的得分。
成功预测的要领之一是拥有足够支持结果的数据来训练模型。
2)无监督的数据挖掘半透明模型:有时需要使用模型能够得到与数据相关的重要信息,我们也需要了解模型的运作细节,这就好比一组半透明的盒子。
2、数据挖掘的互动循环过程数据挖掘的互动过程是一种高层次的流程,由四个重要的业务过程所构成:理解业务问题;将数据转换成可执行的结果;结果实施过程;评价结果的实施。
3、将数据转换成可操作的决策数据挖掘的核心是将数据转换为可操作的结果。
建立模型的第一步是确认和获得合适的数据。
首先要考虑得到的数据是否符合解决企业业务问题的需要;在建模的时候需要尽可能完整的数据。
------将数据转换成具有合适粒度的数据。
粒度是指建模数据的级别大小。
------加入衍生变量是数据挖掘过程的第三步。
衍生变量值是合并原始数据生成的结果。
------准备建模数据集,将数据集分成三部分:训练数据集、测试数据集、评估数据集。
------将结果生成决策。
可以赋之以行动的结果有如下几种不同的表现方式:新的认知;用于特定商业活动的结果;可被储存的结果;周期性预测结果;实时得分;修复数据。
预测模型在使用(生成得分)之前必须得到训练(构建):训练模型是使用历史数据和待预测信息已知的数据创建模型的过程。
较多的近期数据+ 预测模型 预测、可信度用预测模型产生评分是这样一个过程,它将模型应用到未来的数据中,预测未来。
预测模型的成功应用依赖于三个假定:1)过去是将来的预言家。
2)数据是可获得的。
3)数据中应包括我们的预期目标。
三、客户和他们的生命周期1、谁是企业的客户客户大致分为两种类型:消费者(consumer)和企业客户(business customer)。
1)消费者经济营销单位是市场营销中对客户的描述。
由于客户在经济活动中的多重身份,客户的答案也不统一,具体表现如下:行为身份(action role),表示对某项互动活动的个体或实体;所有权身份(ownership role),表示拥有某项经济活动所有权的个体或实体;决策身份(decision making role),表示具有制定和影响购买决策和行为的个体或实体,这种身份用于家庭。
2)企业客户消费者的身份是购买最终产品和服务,而企业客户的身份是向你行销、出售、提供产品和服务。
企业客户间的关系更加复杂。
市场行销中的间接关系,是客户的关系变得异常复杂。
由于客户关系的越趋复杂,分析这些关系时必须考虑到企业中介的作用。
普通消费者和企业客户最大区别在于有没有账户管理团队(account management team)的存在。
从合作的角度,数据挖掘必须能够支持账户管理系统。
3)客户市场细分指的是将客户划分为互不相交的不同的类别。
2、客户的生命周期1)客户的生命周期指的是一个客户和一个企业之间不同的关系阶段,它直接影响到客户对一个公司的长期价值。
一般认为有如下三种方法提升客户的价值:对客户已有产品增添新功能,或者说提升产品的购买价值;向客户出售更多、更容易升级的产品;使客户能长期购买本公司的产品。
客户的背景资料是客户和公司商业交往中的详细档案。
2)客户生命周期的不同阶段3)客户生命周期中的重要事件4)客户生命周期中不同时段所产生的资料未来潜在客户的资料通常最少。
响应资料指的是客户对促销活动所做出的反应的资料。
3、客户的生理生命周期除了客户的消费生命周期外,我们还要考虑客户本身的生理生命周期。
这些重要事件包括以下几个方面:更换工作、初为人母、结婚娶嫁、离职退休、搬迁新居、重疾有染等。
这些事件都为公司发展客户,改善客户关系提供了有利时机。
4、选择最佳时机,锁定最佳客户两种观点,来评价客户关系管理的好坏:一是将注意力放在客户身上,节支增收;二是将每一位客户的价值最大化。
1)预算最优化2)促销活动最优化3)客户最优化最好的下一个信息包括所能提供的任何类型,诸如:对新客户提供不一样的促销;选择适当的管道来传递信息;针对将要离开的客户,推出留念客户的方案;针对将要停止付费的客户,推出解决方案;针对客户不同的需求,推出量身定做的服务;所能提供的不同产品。
第二部分数据挖掘的三大支柱三大支柱:数据挖掘技术、数据和数据建模四、数据挖掘技术和算法1、不同的目标要求不同的技术数据挖掘功能可以是目标性的,也可以是描述性的,其差异取决于数据挖掘实践的目标。
1)目标性数据挖掘首要任务是创建一个可以预测、指定标记以及估计数值的预测模型,从而可以自动实现决策过程。
2)描述性数据挖掘的主要任务是增加对数据深入的了解,然后了解数据所反映的广泛的现实世界。
2、三种数据挖掘技术自动类别侦测(automatic cluster detection);决策树(decision trees);神经网络(neural networks)。
1)自动类别侦测区隔方法:把所有的记录认为是一个大类,然后这个类分成两个或更多较小的类,这些较小的类自身也被拆分,直到最后每个记录只属于一个类为止。
该过程的每一步都会记录下有关分群的度量值,直到最后能找到最佳的聚类集合。
凝聚方法:先把每个记录当作一个类,不断的组合新的类,直到最后所有的记录变成一个类。
K-均值聚类法(k-means),当输入变量是数值型时,这种算法效果更好。
K-均值算法是把数据集拆分成预先给定数目的类,这个数目就是“K-均值”中的“K”。
第一步:选择K个数据点作为种子点(seed),多少可任意。
每个种子点是只有一个元素的胚胎群。
第二步:把每个记录点归于离其质心最近的那个类。
初始种子间用虚线连接,由种子产生的类的界限(两个初始种子连线的中垂线)用实现表示,可完成以初始种子为中心的归类。
第三步:计算新类的质心(取每个字段的平均),再按照新类的界限(每队质心的中垂线)把每个点归类,依次迭代直到类与类之间的界限不再改变。
自动类别侦测是一种无监督的方法,即便没有对于问题的先验知识也可以应用,另一方面除了将数据映射到几何坐标体系,可以从一定程度上反映一些样本点彼此临近的程度外,我们无法得知这样做的道理,因此聚类的结果实际很难应用。
自动聚类算法产生的聚类结果并不都保证有实际价值,一旦产生类别就由我们自己来解释,三种最常用的是:把类别作为目标变量建一个决策树,并用它产生一些规则解释如何归类新的样品;使用可视化方法研究观察这些类别如何受输入变量变化的影响;检查一类到另一类变量分布的差异,每一次一个变量。
2)决策树按功能分决策树有两种类型:分类树,对样品进行标识并把它们正确归类。
同时还可以提供分类正确的信度。
回归树,对数值型的目标变量进行估计。
不同决策树算法的不同主要体现在三个方面:①树的每一层允许的拆分点的数目。
②建树时拆分点的选择原则。
③为了防止“过度拟合”,该怎样抑制树的成长。
决策树的工作原理:决策树的每个分枝相当于单变量的校验,结果将整个空间分成两个或更多空间。
例子:设定仅有两个变量X和Y,每个变量取值在0~100之间。
树的每个拆分点都是二分的,在每个拆分点处,根据对X或Y的校验,一个记录要么进入左枝要么进入右枝。
决策树的建立过程:决策树是通过递推分割的方式建立起来的。
递推分割是一种把数据拆分成不同小的部分的迭代过程。
①确定初始拆分点这个过程始于包含预分类样品的训练集。
所谓预分类,就是在这些数据集中,目标变量标识了已知的类别。
我们的目标就是建立一个能区分不同类别的树,也就是说根据其他变量或自变量的取值,这棵树能够对新样品的目标变量进行分类。
第一个步骤是选择哪一个字变量是最佳拆分变量。
评估一个可能的拆分点的度量是差异的减少。
------度量差异性:基尼系数,目地是度量总体的差异程度。
解释为从总体中有放回地随机取得两个样品属于不同类别的概率,一个种类被连续两次抽到的概率是P^2,差异系数就是1减去所有的P^2。
当只有两个类别时差异系数就是2P(1-P)。
差异总的减少为根部的差异减去后代加权的差异,最佳拆分点就是差异性减少最大的那一个。
②初始拆分点会形成两个节点,每一个节点会像根节点一样被再次拆分。
若某一个节点下的结果都是一样的,就没必要拆分下去了,这样的节点叫做叶节点。
③树的修剪,修剪是为了改善决策树各位而把一些枝叶修剪的过程。
树长到一定深度时,模型已经是对训练集的过度拟合。
如何处理过度拟合?解决方法主要是修剪法和盆栽法:a)盆栽法尽力限制树的成长以免它长得太深。
每个节点都会使用各种检验决定更深入的拆分是否有用。
检验方法可以是规定每个节点下最小的记录数目,也可以对每一个可能的拆分用统计检验其显著性。
b)修剪法可以允许初始决策树长的足够深,然后用一些规则剪掉不是一般性的枝节。
通常的方法是找到初始决策树的各种各样的越来越小的子树相关的分类错误率。