当前位置：文档之家› 车险客户流失分析方法

车险客户流失分析方法

车险客户流失分析预测通过建立一个关于保险客户流失的预测模型，可以分析出主要有哪些因素导致他们想要退保并可以有针对性的挽留那些有退保倾向的客户，进而节约开支。

客户流失预测考虑的主要因素如下：（1）客户购买频率：客户购买保单的频率越高，说明流失率低；反之流失率高；（2）客户付费历史：交纳保费方式，有没有过欠费历史，欠费多久才补缴保费等对客户流失都具有影响；（3）客户自然属性：教育程度，职业，家庭人口，收入等等；（4）客户工作的变化：包括工作性质的变化，工资的变化，职位的变化等等；（5）客户理赔处理情况：理赔的迅速、准确就会降低客户流失率，反之会提高客户流失率；（6）竞争对手促销策略：如果竞争对手采取新的促销策略，那么就会提高客户流失率。

利用数据挖掘中的分类方法建立客户流失分类预测模型对潜在流失客户进行分析预测。

分类方法是一种有监督的学习方法，它通过在客户样本数据集上建立预测模型，得到区分客户是否具有流失倾向的预测模型，预测客户未来的流失倾向。

该类研究主要应用了以下分类方法：支持向量机、人工神经网络、Logistic回归、贝叶斯网络、决策树等。

决策树模型决策树模型保险客户流失预测考虑主要因素可以选择决策树的方法进行客户流失的预测，选择这种方法的原因是因为这种方法得出的模型可以很容易的被人们理解。

尽管其他的一些数据挖掘技术，比如神经网络也可以产生很好的预测模型，但是这些模型很难理解。

当用这些模型作预测分析的时候，很难对客户流失原因有深入的了解，更得不到任何对付客户流失的任何线索。

如果附加其他算法，过程会比较复杂。

在客户流失趋势的预测上，利用信息论中的信息增益赖寻找数据库中具有最大信息量的字段，作为决策树的一个节点，再根据字段的不同取值建立树的分支；再每个分支子集中重复建立树的下算法是相同的，不过在运用的场景上不同而已。

通过决策树预测，可以发现特征客户群的流失比例，从而对具有相似特征的客户预测其流失趋势。

为了挽留那些客户，保险公司可以有针对性的采取措施，保护自己的客户，有效的防止客户流失。

基本原理是这样的，数据挖掘工具会先根据保险公司客户的基本资料进行划分，产生若干细分群，每个细分群都会有一些特征，比如客户持有的保单类型、客户教育背景等等。

根据历史记录，某个细分群中，会有三个客户数。

一个是该群中的客户总数T，一个是现在还活动的客户数A，最后一个是已经离去的客户数L。

那么该群的客户流失率就可以用I＝L/A来计算获得。

这样通过客户特征将他们分属于不同的决策树树叶中，就可以估算出他们的流失率，即流失趋势，同时，可以找出关于客户流失的主要特征。

C4.5算法的决策树构造和剪枝方法此方法分为了两个部分：第一部分是决策树的建造过程，第二部分是决策树的剪枝过程。

第一部分：决策树构建：首先将样本数据集作为决策树的根节点，计算当前节点中样本数据集的每个属性的信息增益比率，选择所有属性中具有最大信息增益的属性，作为当前节点的最佳分裂属性。

然后为被选取的最佳分裂属性的每个值创建一个分支，并将样本数据集划分成若干个子集，为每个子集创建一个新的节点。

递归的执行以上步骤，直到最后所有的节点符合以下三个终止条件之一：1）每个节点的样本集合中所有的属性都属于同一类，并以该类作为该节点的类标签。

设定该节点为叶节点2）每个节点的所有样本的剩余属性取值完全相同，但所属类别却不同。

选取属性属于最多的类作为该节点的类标签，并设定其为叶节点。

3）每个节点的样本集合中所有的属性都已将处理完毕。

选取节点中最多样本所属于的类作为该节点的类标签，并设其为叶节点。

第二部分：C4.5算法采用的决策树剪枝方法是EBP 剪枝算法，该算法通过比较决策树剪枝前和剪枝后的期望错误样本率的估计来判断是否进行剪枝。

从概率的角度，计算出关于错误样本率的一个置信区间[L ]CF CF U ，其中，CF 为该区间的置信水平。

CF 的值可以用来控制剪枝的程度，CF 设定的越高，当前错误样本率越易被接受，即若CF=1，则不需要进行剪枝，而CF 值越低则表明有更多的错误样本，更需要对决策树剪枝。

（C4.5算法默认CF 值为0.25）Logistic 回归分析Logistic 回归方法是一种描述多种独立变量（只有两种结果）之间关系的模型逼近法，其主要目的是为了进行分类，同时预估事件发生的概率，它可以考虑多个属性变量在识别将要流失客户方面的集成贡献。

应用Logistic 回归方法，可以深入理解客户流失的原因，分析哪些因素对于客户流失有影响，从而得到如何处理客户流失的线索。

Logistic 回归模型的因变量或结果变量是分类的而不是连续的，是由分析者构造的，正在被模拟的“感兴趣的事件”。

对于一个给定的客户，我们设个体选择方案Y=1表示客户正常使用，Y=0表示客户流失：用X=（X1,X2,X3,….Xn）表示可以在用户消费数据库中得到的描述性变量，那么我们所建立的逻辑回归模型的数学表达式为：1122331ln(P(Y 1|X)/P(Y 0|X))...nn n i i F X X X X X αββββαβ=====+++++=+∑（1）11exp{}(Y 1|X)1exp{}ni i i n i i i X P X αβαβ==+===++∑∑ （2）11(Y 0|X)1exp{}n i i i P X αβ====++∑式（1）就是常用的统计指标指数比的对数，i X 是自变量，代表参与逻辑回归分析的各项描述性字段；i β是逻辑回归后各个自变量的系数，其意义是：当因素i X 每改变一个测量单位时所引起的对数自然该变量；α代表截距。

式（2）表示某类客户的流失概率，其中P （Y=1|X ）表示客户正常使用的概率，P （Y=0|X ）表示客户流失的概率。

通过统计软件，得出α和i β的值，将i X 代入式（1），得出某类客户流失与否以及对其产生影响的关键变量。

生存分析法“生存分析”原本是流行病学术语，用于理解、预测种群的死亡率。

20 世纪50 年代开始,统计学家对工业产品可靠性问题的广泛研究,促使寿命数据分析在理论、方法和应用得到了迅速的发展。

在市场营销活动中，顾客关系会经历建立（born ）、持续（live ）、最终破裂（die ）的过程，分别对应生命体的诞生、生命持续、最终死亡过程。

在这一框架下，死亡率（mortality ）被定义为顾客的流失。

比例风险回归模型（proportional hazard regression models ）是最常用的一种生存分析技术，由Cox 于1972 首次提出。

没有时间依赖共变量的基本模型可被写作：0112233445566(t)(t)exp{}i i i i i i hi X X X X X X λββββββ=+++++该模型意味着，对于个体i ，在时间t 时间事件发生的风险等于如下两个因子的乘积：1. 基准风险函数0(t)λ。

与多元回归分析的截距β0相似，基准风险函数可被看作是对于共变量都被设定为零的一位被调查者的风险函数。

2. 共变量线性函数的幂。

该模型与普通回归模型的区别在于：(1) 该模型能够容纳缺失数据;(2）因变量包含顾客关系的终止以及顾客关系终止前的持续时间两方面的信。

支持向量机模型SVM 算法是由Cortes 等人提出的, 由于其在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势, 得到了广泛的研究和应用。

SVM 以训练误差作为优化问题的约束条件, 以置信范围值最小化作为优化目标, 即SVM 是一种基于结构风险最小化准则的学习方法。

针对两分类问题, 其主要思想是通过一个核函数把非线性问题映射到高维空间, 在高维空间中寻找一个超平面, 使它能够最大限度地把两类数据正确地分开。

对于两分类问题, 设样本数据集(x ,),x ,{1,1},i 1,2,...,N d i i i i y R y ∈∈-+=。

能被分类超平面(x)0i f w x b =⨯+= 划分为两类, 求最优分类面问题转换为下列优化问题:1min :1/2(),s.t.y (b)1,0NTT i i i i i i w w C w x ξξξ=⨯++≥-≥∑ 其中：w 为权重向量；i ξ为松弛因子；C 为用于平衡经验风险和结构风险的惩罚系数；b 为偏置系数。

BP 神经网络模型建立神经网络分析方法+神经网络参考属性影响因子客户流失预测主题模型计算客户流失度，归根结底是要找出客户流失的KPI 。

对于KPI 选取，采用三级选取的策略。

第一级，参考属性先由业务人员给出所有可能会对客户流失有影响的因素并建立数据仓库。

第二级，影响因子在参考属性的基础上通过联机分析处理（OLAP ）分析，找出对客户流失影响比较大的属性。

第三极，计算因子采用敏感度分析同神经网络相结合的方法，对剩余的每一个属性进行敏感度分析，得出影响客户流失的关键绩效指标（KPI ），以这些KPI 作为计算客户流失度的依据。

1）将神经网络的各输入属性指标分别记为12,,...,n x x x 。

网络输出记为y ，将他们之间的映射关系可以记作12(,,...,)n y f x x x 。

这样就可以根据映射关系f 计算出输入值表变量i x 改变后的输出值y 。

2）取各输入属性的平均值作为输出指标的中点估计y ，当其中一个输入属性i x 变化100%时，可求出相应的输出变量y 的绝对变化量var iy ，再根据下列公式可求出输入属性i x 对输出值y 的相对变化量x var i y ：x var var i i y y y = 3）比较所有输入指标变量对输出变量的相对变化量，进而得出输入指标变量i x 对输出变量y 的相对贡献率(i 1,2,...,n)i c =4）根据80/20法则，选取其中贡献率达到80左右的属性作为计算客户流失度的KPI 。

最后得到p 个计算因子（即KPI ）作为训练BP 神经网络的输入。

x var x var1i i n i i y c y==∑ 得到计算因子之后就来计算客户流失度，通过BP 神经网络来刻画流失客户的特征与流失度的关系，下图是使用KPI 计算流失度的计算模型。

网络的输入端为客户流失的关键影响因素，输出端即为计算出的客户流失度大小。

KPI1KPI3KPI2KPI4客户层客户流失度客户流失度计算模型提升车险续保服务的办法(一)加强保险理赔服务质量和效率以服务是发展生命线高度，重视开展保险服务建设工作，进一步加强、深化与交警、司法、医院、4S店、汽修厂、加油站、银行等良好合作关系，建立事故救援和处理机制，制定工作实施方案，以客户端登录服务流程控制系统，协作实施应急事故处理工作，达到救援处理及时快捷的目的；以快速解决客户问题为第一要务，主动建设自助理赔管理系统，对小额赔案推进手机自助查勘和理赔，对大额赔案跟进流动办公车作业，将受损车辆电子图像通过网络系统直接传送到理赔中心，中心利用专业知识估算修理费用，把修理估算费用传回客户手机或办公车，保证使90%以上的小额赔案赔款于事故发生后限时交到客户手中，切实缩短赔案处理周期，提供结案效率，有效减少理赔费用和服务投诉情况，同时也相应减少医药理赔、欺诈行为以及客户流失。

e商务文档

车险客户流失分析方法

相关文档推荐：