数据挖掘在各行业中的实务及应用案列数据挖掘建模过程与流程简介:业务定义明确(定义、判别标准、分类条件等)目标变量、输入变量(客户基本状况、业务指标等)、建模数据(选择预定义变量相关的数据)数据转换和整合、抽样、随机化、缺失值处理等决策树、神经网络、逻辑回归、聚类分析、关联分析、时间序列分解、RFM 模型、生存分析模型……专业的分析专家完成、模型修订和调整 商业问题不同模型不同、竞争模型的考虑 数据分布和属性不同模型不同选择对实际结果预测/识别能力强的模型对模型给出合理解释、模型推广应用试点、模型监控和调整、通用模型具体化实务及应用案列电信行业:1、 客户流失分析:根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,找出这些数据之间的关系,并给出明确的数学公式。
然后根据此模型来监控客户流失的可能性,如果客户流失的可能性过高,则通过促销等手段来提高客户忠诚度,防止客户流失的发生。
这业务问题定义选择数据 数据清洗和预处理 模型选择 模型建立和调整 模型评估和检验 模型解释和应用就彻底改变了以往电信运营商在成功获得客户以后无法监控客户流失、无法有效实现客户关怀的状况。
2、客户消费模式分析:客户消费模式分析(如固话话费行为分析)是对客户历年来长话、市话、信息台的大量详单、数据以及客户档案资料等相关数据进行关联分析,结合客户的分类,可以从消费能力、消费习惯、消费周期等诸方面对客户的话费行为进行分析和预测,从而为固话运营商的相关经营决策提供依据。
3、客户欠费分析和动态防欺诈:通过数据挖掘,总结各种骗费、欠费行为的内在规律,并建立一套欺诈和欠费行为的规则库。
当客户的话费行为与该库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低运营商的损失风险。
4、客户市场推广分析客户市场推广分析(如优惠策略预测仿真)是利用数据挖掘技术实现优惠策略的仿真,根据数据挖掘模型进行模拟计费和模拟出账,其仿真结果可以揭示优惠策略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。
5、其他:营销响应分析、市场细分、需求预测等等案例分享一:客户流失预警XXXX电信公司的客户流失建模。
该电信公司原本是市场的领先者,但目前正受到来自其它电信公司日益激烈的竞争。
由于竞争对手接连推出了一系列新产品,并进行了大量的促销活动。
最近半年来,XXXX电信公司的客户流失较为严重。
为了保持其战略性市场主导地位,该公司公司计划开展客户保留活动。
在活动进行之前,为了尽可能提高活动收益,该公司需要对现有的客户的数据进行分析,从众多客户中找出流失可能性高的优质客户并针对其开展活动。
而对于流失可能性低或者保留成本大于收益的客户,则可以不展开活动。
此外,客户流失预测也能帮助其发现那些申请服务后不久就欠费停机的客户,从而减少这类客户带来的损失。
一、前期数据理解、字段选用、数据清洗过程(略)二、数据准备:分析人员根据数据理解的结果准备建模用的数据,包括数据选择、新属性的派生,数据合并等三、模型建立:首先利用C5.0决策树模型进行属性约减,然后以约减后的属性为自变量,以是否流失为因变量,训练神经网络模型,得到相应的客户流失预测模型。
对检验集应用该模型,并根据预测结果的准确性评价模型。
下图是模型建立和评估的数据流图。
四、后根据公式:价值=长途通话时间*2 +国际通话时间*5 + 本地通话时间*1派生出每个客户的价值大小。
分析客户价值和流失概率之间的关系,对高价值高流失概率的客户进行采取措施,如给与一定的优惠,进行挽留,对低价值的客户可以任其流失。
评估部署流程图:对高价值高流失概率的客户采取营销活动进行挽留的成本和收益如图所示。
因此,通过及时地发现要流失的客户并根据客户价值及时采取挽留措施,可以避免因客户流失而带来的损失。
案例分享二:营销响应模型为提升业绩,某电信公司要决定执行直接营销活动。
为此,分析人员需要识别出可能回应直接营销活动的客户,从而展开有针对性的直接营销。
目的:识别出可能回应直接营销活动的客户,提高营销活动的响应率。
一、前期数据理解、字段选用、数据清洗过程(略)二、数据准备三、模型建立:对数据进行预处理之后,分别使用C5.0决策树模型,神经网络模型,C&RT决策树分类模型,以客户属性为输入变量,以客户是否响应为目标变量进行分类。
然后对测试集分别应用这三个模型,选取效果最好的模型部署到企业中。
四、模型结果与部署使用C5.0决策树对是否响应建模,发现与客户响应相关的共有4条规则,与客户不响应相关的共有8条规则。
响应的客户有如下特点:有孩子,相对收入大于49997元;或者有孩子,有车,居住在郊区,在该银行开有储蓄账户,相对收入大于25563元;或者是年龄大于45岁,没有抵押贷款,在该银行开有储蓄账户,相对收入大于25563元;或者是年龄大于45岁,没孩子,没贷款,收入小于25563元。
神经网络模型在输入层、隐藏层和输出层分别有20个、3个和2个神经元。
此外,最重要的输入变量包括(按照重要性降序排列):相对收入,孩子数目,收入等。
其估计精度达到了87.77%。
使用C&RT对是否响应建模,得到的规则包括:当相对收入小于25564.5元时,客户倾向于不响应;当相对收入大于25564.5元,孩子数目小于等于0.5(需根据实际业务情况进行解释),没有抵押贷款,且年龄小于等于45时,倾向于不响应;当收入大于25564.5元,孩子数目小于等于0.5,没有抵押贷款,且年龄大于45的客户响应率高。
这三个模型中,C5.0的预测精度是最高的,达到了95.29%以上。
最后,还可以查看不同模型预测结果的一致性。
部署流程图:零售行业:1、顾客流失:分析顾客流失的原因2、交叉销售:销售额外或更重要的产品3、客户获取:识别新的顾客4、市场细分:理解顾客群体的特征5、需求预测6、业绩预测案例分享三:卷烟消费者购买行为分析目的:在细分市场不明的条件下,通过数据数据挖掘方法细分市场、提取客户特征,为有针对性营销活动提供依据。
(数据有问卷调查方式收集)购买决策影响因素:一、前期数据理解、字段选用、数据清洗过程(略)二、数据准备三、模型建立:特征规则挖掘,运用(K均值、C5.0决策树)分析四、模型结果说明:通过K-均值法进行市场细分,得到两类市场,在根据决策树方法提取出每一类用户的特征。
特征提取中,产生一些列规则,如属于其中一类市场的特征规则:每次购买1包卷烟、且本人或家人从事的是“烟最后得到结果:对于第一类消费者,他们认为烟草特性方面如口味浓、劲大等对于吸烟比较重要;对于第二类消费者,对于焦油含量、烟碱量、口味等内在品质不太重视,他们对价格也不敏感而且一直习惯自己的品牌。
因此,对第一类消费者,可在产品口味上注意,提升内在品质;针对第二类消费者,可从香烟外在包装等方面入手,突出香烟品味、包装上讲究精美等促销手段上多下功。
制造业:1、产品设计与质量控制2、欺诈发现:直销商欺诈行为识别3、缺陷预警:作为SPC(质量控制)过程的一部分4、需求预测:预测使用情况5、营销活动响应模型:识别哪些经销商可能会进货6、……案例分享四:产品设计方法应用正交试验设计方法来进行产品的质量设计,可以用尽可能少的试验次数,确定哪些因数位级(水平)或组合影响质量特性,从而优选出最佳机型、流程或配方等,找出组成比较合适的生产条件的各个因素的合适的生产水平。
这样可以减少工作量,降低生产误差和生产费用。
应用试验设计可以找出各个因素对考核指标的影响规律,比如,哪些因素是起主要作用,哪些因素是起次要作用的的?那些因素只起单独作用,哪些因素除了自己单独作用以外,它们之间还产生综合作用?这种作用的效果有多大?SPSS提供的实验设计法、多变量解析法、方法研究、抽样调查方法、功能检查方法等可以实现以上的分析和设计方法。
SPSS的强大的方差分析工具,如单因素方差分析(NOVA)、协方差分析(ANCOVA)、多因素方差分析(MANOVA)是高级产品设计分析的最佳选择。
案例分享五:质量控制通过SPSS可以实现全面的统计质量控制管理,并且使质量管理过程变得简单、直观、易于实现。
日本著名的质量管理专家石川馨曾说过,企业内95%的质量管理问题,可通过企业上上下下全体人员活用质控七工具而得到解决。
SPSS可以实现统计质量控制的七个基本工具(或叫品管七大手法),它们是控制图、因果图、直方图、帕累托图(Pareto)、统计分析表、数据分层法、散布图。
运用这些工具,可以从经常变化的生产过程中,系统地收集与产品质量有关的各种数据,并用统计方法对数据进行整理,加工和分析,进而画出各种图表,计算某些数据指标,从中找出质量变化的规律,实现对质量的监测和控制。
如下图,展示分析生产过程是否处于统计控制状态,帮助找到失控的部件或失控的生产时刻。
银行业:1、客户挽留2、营销响应:识别谁能买3、客户获取:识别新客户4、风险评估:信用风险、收费管理5、……案例分享六:xx银行预测客户流失的可能性目的:预测现有用户中哪些客户在未来六个月中可能流失以及对哪些流失客户采取保留措施。
数据选取:客户号、储蓄账户余额、活期账户余额、日均交易次数、信用卡支付方式、是否有抵押贷款、是否有赊账额度、客户年龄、客户年收入、客户流失状态……数据描述:利用描述及可视化来帮助探索模式、趋势和关系,数据理解流图:分析各属性与流失状态间的联系。
模型建立及评估:建立尤其适用于对房贷客户的流失的神经网络和决策树模型。
结果展示:通过数据挖掘表明:xx银行的房贷客户中,那些39以上、在投资账户中余额超过37320元的女性客户更可能主动流失。
最终结果来看,决策树客户流失预测模型能够更精确地根据交易和人口统计的信息判断出流失客户和非流失客户,从而产生增值效益。
因此,XX银行可以用决策树模型判断哪些客户倾向于主动流失,然后向他们提供优惠措施或采取其它预防措施,按照客户流失概率的大小,对客户进行排序,建立优先级别。
互联网行业:1、用户细分2、用户流失管理3、个性化推荐4、客户生命周期管理5、交叉营销分析6、……案例分享七:基于RFM模型的电商客户细分R—客户最近一次购买距离分析点的时间F—客户一定时期内购买该企业产品的次数M—客户一定时期内购买该企业产品的总金额对于电子商务公司而言,不同的客户具有不同的潜在价值,企业的首要问题就是采取有效方法对客户进行分类,发现客户内在价值的变化规律与分布特征,并以此制定客户的差别化服务营销政策,通过政策的实施将客户分类的结果作用于企业实践。
一、前期数据理解、字段选用、数据清洗过程(略)二、数据准备三、模型建立:数据处理后,构建RFM模型,对基础数据进行重构和整理,继续对新产生的R、F、M三个字段进行标准化后,采用:R:F:M=4:4:3的权重,实行聚类分析,采用C5.0规则来识别不同聚类的特征。