2013年广东工业大学大学生数学建模竞赛承诺书我们仔细阅读了2013年广东工业大学大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。
如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛的题目是:A题航空客运数据挖掘我们的参赛报名号为:00号参赛队员(打印并签名) :姓名____袁嘉蔚__学号__3111008344__院系班级应数11统2姓名___王文冲__ 学号_3111008197___院系班级应数11信安1姓名____庄楚贤__学号_3211008315__院系班级___应数11统1日期:2013 年 5 月 13 日航空客运数据挖掘模型摘要随着交通工具的不断发展,目前航空公司的主要竞争对手已不局限于同行业之间,而更多的倾向于其他的交通行业,如:火车,长途汽车等。
为了使自己能在目前的激烈竞争中取得更大的优势,航空公司大都采取自己独特的经营策略,虽然他们的形式各异,但最终都是通过降低自己的空座率来提高自己的盈利。
然而要降低空座率,首先需要对客户进行一定的分析,其中包括:客户的流失预测,客户的细分和客户的价值评估等方面。
因此本文着重建立客户流失模型,客户细分模型以及客户价值评估模型,以供航空公司参考。
对于客户流失模型,本文首先通过定义流失度来衡量某一客户的流失情况,再找出客户某些固有的属性与流失度之间的映射关系,来判断客户的流失情况。
由于每个顾客的属性较多,所以就要对这些属性进行塞选,并从中找出一些主要的影响因素。
首先是通过查找相关资料及与专业人士交流,把一些明显无关紧要的因素给去除掉;再利用神经网络算法,找出剩下的对流失度影响较大的属性。
最后将这些主要因素与流失度建立一个较好的映射关系。
针对客户价值评估模型,本文通过参考相关文献确定几个能对航空公司营业产生影响的主要因素进行综合评价,根据客户综合得分的高低对其价值作出判断。
基于所给的数据量较大,我们运用随机抽样原理,采用因子分析方法,确定主要因子的个数和各因子的权重,导出衡量客户价值大小的总表达式,在断定该表达式有较好的稳定性后,用它来计算各个客户的价值大小。
根据上面的流失预测以及客户价值评估这两方面对客户进行细分,并且根据所分不同类别的客户采取不同的优惠策略,从而来实现降低空座率。
关键词:数据挖掘,客户流失,客户细分,价值评估,神经网络,因子分析一.问题重述航空公司要降低空座率,就要先对客户进行定量和定性的分析,并针对不同的客户实施不同的优惠措施,从中来提高其乘机人数。
而对客户的分析主要有三个方面,即:客户流失预测、客户细分、客户价值评估。
客户流失预测,讲的就是由于每个客户并不一定一直都会乘坐某一固定航空公司的飞机,我们需要借助现有的历史数据,通过对客户某些属性值,如会员卡积分,会员卡级别,乘坐路程等等的分析,来预测他是否会有流失倾向。
客户价值评估主要是对所有的客户对公司价值量大小的评估,其中的价值量主要是针对于盈利的多少为指标,所以此问题也将转化为对分析每个顾客对公司盈利额的作用。
客户细分则通过对所有的客户进行分类,使得航空公司可以根据具体的某一类实施一定的优惠策略,从而来降低空座率。
二.符号说明第i个季度的乘机次数n i,i=1,2,3,4,5,6,7,8客户的流失度r i会员卡级别:x1飞行次数:x2观测窗口总基本积分:x3第一年总票价:x4第二年总票价:x5观测窗口总飞行公里数:x6观测窗口季度平均基本积分累积:x7最后一次乘机时间至观察窗口末端时长x8观测窗口中第1年其他积分x9观测窗口中第2年其他积分x10积分兑换次数x11平均折扣率x12观测窗口中其他积分x13三、模型的建立与求解1.客户流失预测1.1模型分析客户流失管理是航空公司通过对客户需求满意度调查进行有针对性的挽留客户的一个重要方法,其中最关键的就是对客户流失行为做出预测,即通过对客户的一些属性进行分析,从中进行预测出客户是否会有流失趋势,从而实施一些具有针对性的挽留措施。
在航空公司对顾客的流失进行分析时,由于顾客是一个具备多属性的个体,其中包括会员卡号,入会时间,性别,会员卡级别,飞行次数,观察窗口积分等。
对于客户的流失情况,这些属性都可能对其有着一定的影响。
然而根据所给数据里面顾客的属性有很多,首先应当从里面根据一般常识以及专业人员从里面剔除掉一些属性,再通过两次神经网络,从原始数据上几十个属性中提炼出与客户流失度相关性较大的属性,并且计算分析变量的权重值,建立客户流失预测模型并对客户流失趋势进行预测。
图1.11.2模型建立1.2.1流失度顾客流失度是对顾客对企业保持度的一个定量描述,它在一定程度上能够反映顾客的忠诚情况,其数值越大表示对企业的忠诚程度越小。
在此模型中根据顾客在八个季度中每个季度的乘机次数,对其进行分析,统计得到相关的进行流失度。
设这八个季度分别的乘机次数为:n1、n2、n3、n4、n5、n6、n7、n8,第i个客户的流失度记为:r i根据分析,当顾客长期乘坐此飞机,还有乘坐的次数越多且不断增加那么其忠诚度将会相对的越高,即在计算流失度r i的时候应当综合考虑顾客的乘机次数及其乘机次数的变化趋势。
所以综合考虑上面的因素,可以有下面一些式子来表示:第i个客户的变动累加值记为:R iR i=∑m j+1 m j8j=1,其中m j表示第j各非零的季度的乘机次数再对R i进行归一化处理得到相应的流失率r i。
根据600个客户在八个季度中的乘机次数,计算利用相关数据进行计算得到相应的流失度(限于篇幅,罗列了其中的20个)如下表1:由上表可以看出所得到的流失率与分析的一致,如:第1名顾客他只有在第三季度乘过一次飞机,其余的都没有坐过,所以流失率很高;而对于第10名顾客,他经常乘坐飞机,且每个季度都有去,所以流失率很低,这与计算的结果r=0.03完全符合。
所以上面这个式子可以作为评价顾客流失率的一个标准。
1.2.2主因素的提取在原始数据中根据相关的业务人员经验,可以初步剔除掉其中的一些无关因素,例如年龄,性别,卡号,工作所在地等因素。
在剩下的这些属性的基础上,我们需要再次寻找影响客户流失的显著特征,这就需要对里面的大量数据进行计算,分析。
作为一个综合评价的系统,因素的提取是否客观合理也将称为一个关键点。
在此我们应用神经网络算法来解决此类问题。
相对与其他算法,神经网络可以通过训练来实现任意的非线性映射,且具有较强的泛化能力。
因为这些数据没有一定的线性关系,且变量之间的关系相对较为复杂,常常是有相互关联而非独立的,各种变量之间也隐藏着各种不明确关系。
所以在此用神经网络算法会相对较好。
具体算法如下:1. 将神经网络的输入值为顾客的属性指标,分别记为:x 1、x 1、···、x n 。
而网络的输出值记为y ,其中y 表示顾客的流失率,即y=r 。
并且通过大量的数据进行测试,可以得到顾客属性与流失率的关系,即映射函数:y =f(x 1,x 1,···,x 1)。
2. 在这个函数关系式中,假定只改变其中的一个变量x i (i =1,2,···,n),其他的变量保持不变,我们就可以根据映射关系f 计算出指标x i 改变后的输出值y 。
3. 将各输入属性的平均值作为输入指标,并计算出相应的输出,记为中点估计值:y ̅。
当其中一个输入属性x i 变化100%时,可求出相应的输出值y的绝对变化量:y var i =|y −y ̅|,再相应的求出输入属性x i 对输出值y 的相对变化量: y xvar i =y vari y ̅。
4. 比较所有输入指标变化对输出变量的相对变化量,进而得出输入指标变量x i 对输出变量y 的相对贡献率c i (i =1,2,···,n )。
其中c i =y xvar i ∑y xvar i n i=1,选取其中贡献率高达80%的因子作为主要因素,并且作为下一步的BP 神经网络训练的输入值。
1.2.3 基于神经网络的客户流失度计算使用上面计算得出的因子来评估客户的流失度,通过BP神经网络,即由一个输入层,若干个隐藏层和一个输出层构成,来刻画用户特征与流失度之间的关系,如下图1,网络的输入值为每个顾客的关键影响因素,输出端为计算得出的客户流失度大小。
图1.2假设通过上面的方法提取到了N,随机在总体中抽取K各个体作为样本,并用X i和 Y i分别表示输入和输出值,对于某一输入X i=*x1k,x2k,···,x Nk+,k=1,2,···,K,网络的输出值为:Y i。
节点i的输出记为O ik,其输入为net ik=∑w ji O j。
输j入与输出的关系为:O ik=f(net ik)对于隐层节点和输出节点,激活函数f一般采用Sigmoid函数即为S型函数,因为从数学角度看,S型函数具有可微分性,正是因素S型函数更接近与生物神经元信号输出形式。
同时BP算法本身也要求网络的输入输出函数是可微的,并且我们要计算的客户流失度需要现在在(0,1)之间,所以选择用这S型函数作为输出层函数。
通过上面的步骤,利用计算因子和系那个关样本数据来训练用于计算客户流失度的神经网络模型。
训练好的神经网络模型即可作为我们以后用来计算流失度的计算模型。
1.3 模型的计算在总体数据中我们随机抽取其中的600个数据作为一个样本,同时根据人工评价选取顾客属性中的会员卡级别、查测窗口总基本积分、第一年精英资格积分、第二年精英资格积分、第一年总票价、第二年总票价、观测窗口总飞行公里、观测窗口总加权飞行公里数、观测窗口季度平均飞行次数、平均折扣率、第一年乘机次数、第二年乘机次数、第一年里程积分、第二年里程积分、观测窗口总精英积分、观测窗口中其他积分、非机动积分总和等这35个因素作为一开始的影响指标。
1. 计算每个顾客的流失度。
2. 顾客的所有属性中的数据进行归一化处理。
3. 对上面列举的35个属性进行神经网络学习,并得到相应顾客属性与流失率之间的映射函数O i =f(net i )。
4. 计算每个属性的平均值x i ̅,i 表示第i 个属性的平均值。
5. 将*x 1̅̅̅,x 2̅̅̅,···,x 35̅̅̅̅+,这组数据带入上面学习得到的神经网络函数,得到y ̅。