当前位置:文档之家› 客户期望寿命的乘积限估计

客户期望寿命的乘积限估计

ISSN 1000-0054CN 11-2223/N 清华大学学报(自然科学版)J T singh ua Un iv (Sci &Tech ),2005年第45卷第12期2005,V o l.45,N o.1232/321704-1707客户期望寿命的乘积限估计周生炳1, 成 栋2(1.空军指挥学院,北京100089;2.中国人民大学商学院,北京100872)收稿日期:2004-11-17基金项目:教育部人文社会科学“十五”规划课题(01JD 630005)作者简介:周生炳(1962-),男(汉),湖南,副教授。

E-mail:ab ing88@摘 要:采用生存分析中的非参数方法估计客户在其每个交易期内的维系概率、客户的期望寿命和客户终生价值。

在将客户采购“日历”记录转变成“年龄”记录后,针对数据删失导致的流失、未流失和部分流失等3种客户生存状态,应用K aplan -M eier 乘积限方法估计其生存概率,进而计算客户的期望寿命。

在此基础上,提出结合净收益时间序列或加权平均计算客户终生价值。

借助主流统计软件包(如SAS 系统)进行乘积限估计,可以有效地实现该文提出的模型。

关键词:客户终生价值;生存分析;乘积限估计中图分类号:F 27;O 21文献标识码:A文章编号:1000-0054(2005)12-1704-04Product limit estimator for the expectedduration of a customer lifetimeZH OU Shengbing 1,CHE NG Don g 2(1.Air Force Command College ,Beijing 100089,China ;2.Bus iness School ,Renmin University of China ,Beij ing 100872,China )Abstract :Nonparametric es timation in the sur vival analys is were used to estimate the retention probability of customers at every tran saction period,and the ex pected dur ation of the cu stomer lifetim e,i.e.,the exp ected value of th e n umber of cu stomer tran saction periods ,and the customer lifetime value.Pur chase data in the “calendar ”time extracted from cus tom er datab as es was tran sformed into recor ds in the “age ”time.Th e s urvival prob ability of the customers (and ,con sequently,each customer's expected lifetim e)w as estim ated b y th e Product Limit estimator for three sur vival states-los t,non-los t,and partly lost-caus ed by censorin g of the data.T he cu stomer lifetime value w as calculated by integrating the expected duration of a customer's lifetime with the tim e s eries or w eigh ted average of the net revenue from the customer in each per iod.Th is model can b e efficiently implemented us ing a Product Limit es timators in popular statis tical softw are packages.Key words :cus tom er lifetim e value;su rvival analys is;produ ct lim ites timator随着客户终生价值(custo mer lifetim e value,CLV )成为营销科学研究热点,研究者提出了众多CLV 模型[1]。

这些CLV 模型大致分为两类:确定型模型和随机型模型。

为便于客户数据的数学处理,这些模型大多对客户采购历史及未来采购倾向作了过分简化,忽略了数据中隐含的大量信息,没有充分利用客户的历史数据资料。

例如,确定型模型假定客户每个时间周期有相同的维系率或迁移率,有相同的收入或支出[2];随机型模型则假定客户采购模式的无记忆性(Markov 链模型[3])或客户采购率、流失率等服从某种概率分布[4,5]。

笔者认为,对客户终生价值的估计应建立在客户历史采购数据分析基础上。

本文从客户过去的采购行为和细分市场分析出发,把客户的维系和流失分别对应“生存”和“死亡”状态,推断如下几个方面:1)客户在其每个交易期内的维系(或流失)概率;2)客户的期望寿命,即客户交易期数量的期望值;3)客户终生价值。

评估客户终生价值时,一个至关重要的问题是,客户的“终生”——即客户的交易期或生存期或寿命——究竟有多长?通常的作法是指定一个时间周期上限或假定客户具有无限长的“生命”。

从生存分析的角度看,客户关系(维系或流失)与生存状态(生存或死亡)非常相似,因此,如果能为客户关系建立一个生存模型,则可估计客户的期望寿命,进而计算客户的期望寿命。

1 流失客户首先建立流失客户的概念。

假设客户数据库中保存某客户群一段时间的采购记录,这段时间就是观测周期。

设定一个时间周期,如日、周、月等,可以从记录中提取每个客户在各周期是否采购、采购额度、采购频率(次数)等数据。

假设共有n个周期,即从周期d1至周期d n。

客户生存与否的惟一依据是其采购记录。

客户寿命是从初次采购到流失(如果观测到流失的话)之间的周期数。

因为流失的客户一般不明确通知公司,所以,流失的客户不可直接观测到。

那么,如何得知哪些客户流失了呢?这里,本文遵循CLV研究者通行的作法,以最近连续缺席周期数(recency)r作为衡量客户流失的参数。

所谓最近连续缺席周期数,是指上次采购以后到目前未采购的周期数。

例如,如果观测结束周期是d n,客户上次采购周期是d i(i≤n),则r=n-i就是最近连续缺席周期数。

指定一个数k> 0,当r≥k时,认为该客户从周期d i+1开始流失了。

如果客户连续缺席r(≥k)周期后又回来采购,此时认为他是一个新客户。

2 删失数据客户进入观测(即首次采购)时间不一定相同。

到观测结束(周期d n)时,未流失客户的生存时间至少是从进入观测到周期d n那段时间,这种观测构成广义I型右删失[6]。

例如,假设5个客户的采购情况如表1所示(假设k=5)。

表1 5个客户的采购情况周期客户采购情况客户1客户2客户3客户4客户51●2●3⊙●⊙4⊙5◎⊙⊙●6◎7⊙⊙8⊙●910⊙⊙ 注:●表示该客户在相应周期首次采购(新客户);⊙表示客户在该周期有采购活动;◎表示客户在此周期流失。

客户1和客户3虽然不同时进入观测,但其寿命相同(均为4个周期)。

客户2、客户4和客户5在退出观测(观测结束)时删失,则客户2至少生存8个周期,客户5至少生存3个周期,客户4生存周期不确定。

对这种删失,将所有观测对象的开始时间重新调节为0,即将客户采购的“日历”时间转换为客户生存的“年龄”时间。

这样,流失时间(周期)就是他的寿命。

转换后,表1的客户生存状态如表2所示。

表2 5个客户的生存状态年龄客户生存状态客户1客户2客户3客户4客户5 0√√√√√1√√√√√2√√√√√3√√√√×4◎√◎?5√?6√×7√8× 注:√表示生存状态,◎表示流失状态,×表示删失,?表示状态不确定。

从表2可见,客户有3种生存情况:1)流失 观测终止前已确定流失(r≥k),如客户1;2)未流失 观测终止前未确定流失,且r=0,如客户2;3)部分流失 观测终止前未确定流失,但r> 0,因此可能“部分”流失,如客户4。

对流失客户,年龄是确定的,即客户流失前的周期数。

对未流失客户,至少生存到观测终止时的年龄。

对部分流失客户,不能确定其生存年龄。

因为如果延长观测,该客户可能生存,也可能流失。

这种情况有赖于对缺席采购的理解,将在估计生存概率时提出不同的处理方法。

3 客户生存概率的乘积限估计设T表示客户从t=0到他流失的时间,这是一个随机变量。

如果T是流失时间,那么在时间t,该客户仍然生存(即维系)的概率等于流失时间不迟于t的概率,这个概率记为S(t)=P(T>t).其中P表示概率。

称S(t)为生存函数。

若已知生存时间T服从某种概率分布,则可应用参数估计方法建立生存模型(SM C模型[5]可归入这类方法),否则必须使用非参数方法。

典型的非参数估计方法是Kaplan-Meier的乘积限(pro duct lim it)方法。

对客户关系而言,目前只有少数文献采用参数估计方法[4,5]。

本文拟采用一种变通的乘积限1705周生炳,等: 客户期望寿命的乘积限估计(PL)方法估计客户的生存函数,在此基础上,计算不同“年龄”客户的期望寿命。

假设客户日历采购数据已经转换成年龄数据。

下面,将在年龄数据基础上估计客户在每个年龄t 的生存概率S(t)。

令p x表示在年龄x时生存,到年龄x+1仍生存的条件概率,q x是相应的流失概率,显然p x=1-q x。

由p x的定义,有S(t)=p0p1…p t-1. 于是,若估计出i(0≤i<t),则S(t)的一个自然估计是S(t)=01…t-1. 但更方便的是估计q i(0≤i<t)。

若设年龄i生存、流失和删失的客户数分别为n i、l i、c i,则n0= N n,l0=0(假设在周期d n终止观测),c0=0。

n i为进入年龄i时尚生存的客户数,l i为在年龄i-1最后一次采购的客户数,c i为在年龄i-1退出观测的客户数(这些客户的年龄最多为i-1)。

因此,各年龄生存客户数有递推关系为n i+1=n i-l i-c i, i≥0.于是q⌒i=l i/n i, i≥0. 可见,估计条件概率q⌒i的关键是确定每个年龄生存和流失的客户数。

相关主题