第4卷第1期2004年2月交通运输系统工程与信息Jo ur nal of T r anspo rt atio n Sy stems Eng ineer ing and Infor matio n T echno lo gyVo l.4No.1Febr uar y 2004文章编号:1009-6744(2004)01-0071-05LOGIT 模型参数估计方法研究金 安(广州市规划局交通研究所,广州510030)摘要: 离散选择模型,特别是L OG IT 模型在交通需求模型建立过程中,应用非常广泛,许多实际的交通政策问题都涉及到方式选择,然而L OG IT 模型的建立非常困难,尤其是效用函数及参数估计.本文重点就L O GIT 模型参数估计的有关问题进行讨论,特别是运用统计方法如何对效用函数的变量进行选取及比较不同形式效用函数.关键词: L O GI T 模型;参数估计;t 检验;似然率检验中图分类号: N 945.12On Methodology of Parameter Estimation in L OGIT ModelJIN An(Instit ute o f T r aspo r tatio n,G uang zho u P la nning Bur eau,Guang zho u 510030,China )Abstract : Disagg reg ate choice mo del ,especially L O GIT m odel ,hav e been used w idely in dev elo pment of tr avel demand mo del ,many pr actical tr anspor tation policy issues ar e concerned w ith mode choice.But pro cedure o f development of L OG IT mo del is difficult,especially mo del calibr atio n and for m of utility functio n.T his paper discuss r elat ional pr oblems o n development of L OG IT model,P articular emphasis is placed o n pr actical pr ocedur es for selection the co rr ect ex planato ry var iables and on compar ing differ ent ver sions of utility functio n using st atistical metho ds.Keywords : L OG IT mo del;par ameter est imation;t -test;likeliho od testCLC number : N 945.12收稿日期:2003-11-24金安:广州市规划局交通研究所工程师,工学硕士.研究方向为交通规划及交通需求模型.1 引 言实践过程中,LOGIT 模型效用函数不可能预先知道,模型师在建立LOGIT 模型最初阶段几乎没有效用函数任何信息,最多认为在效用函数中会有哪些可能的变量,但也不能确定所有的变量是否都需要,更不可能知道哪些变量需要进行函数变换或效用函数参数的具体数值是多少.这些问题只有通过拟合合适的观测数据,并检验这些模型来确定哪一个最能够描述观测数据.本文主要介绍拟合和测试LOGIT 模型方法.2 数据的要求估计和检验过程的第一步是选择合适的观测数据,用于建立LOGIT 方式选择模型所需的数据有:(1)对个体实际方式选择行为的观测.例如,要建立工作出行方式选择模型,需要对上班出行者方式选择进行观测的数据.(2)所有被选择和没有被选择方式的相关属性值.这些属性可能作为模型中的变量.例如,假设总出行时间被认为是模型中的一个变量,则对于样本中每一个个体而言,所需数据包括每一种可能方式的总出行时间.如果属性数据仅包含被选择方式,LOGIT 模型就不能建立.(3)任何可能作为变量的个体属性值.例如,汽车拥有水平,则需要样本中每个个体家庭汽车拥有水平数.3 模型的设定所需数据收集后,下一步工作是设定一种或多种效用函数形式.设定步骤包括确定效用函数中变量、属性的函数变换以及效用函数的形式.这个步骤通常不确定效用函数参数值.例如,建立LOGIT 方式选择模型,可以设定如下两种比选效用函数形式:形式1V DA=a1T DA+a2A+a3(1a)V CP=a1T CP+a4A+a5(1b)V B=a1T B(1c) 形式2V DA=b1log(T DA)+b2A+b3(2a)V CP=b1log(T CP)+b4A+b5(2b)V B=b1lo g(T B)(2c) 在这些等式中,T表示出行时间(分),A表示出行者家庭汽车拥有量,a1~a5和b1~b5是参数.这个阶段设定的形式(1)和(2)并不意味着模型师必然相信其中一个是正确的,而是(1)和(2)都是模型师认为值得去估计和检验的效用函数形式.在估计和检验过程中,可以获取有助于确定是否这些形式应该修正的信息(例如从一个或两个形式中剔除一个或几个变量),以及提供确定哪一种函数形式能够更好地解释观测样本值.4 估计结果的解释——模型检验LOGIT模型一般采用最大似然估计法进行参数估计,LOGIT估计软件输出结果,除了模型参数的估计值外,还有许多用来解释估计参数的信息,用来决定哪一个参数应该包含在模型中,以及模型之间的比较.4.1 估计的精确度——估计的标准误大多数LOGIT估计软件的输出结果,除了参数估计值外,还有一套称为估计值的标准误.由于随机抽样误差的存在,某一参数估计值的标准误用来指示参数估计值偏离真值的大小.因此,估计值标准误是被估计参数精确度的指标.假如模型被正确的设定,则有0.95的概率相信真参数值落在估计值的1.96s(估计的标准误)范围内.换句话说,假如b est是参数的估计值,b tr ue是未知真值,s是估计的标准误,下面不等式以0.95的概率满足:b est- 1.96s<b tru e<b est+ 1.96s(3)改变数值1.96到1.645或2.575将认为不等式以0.90或0.99的概率满足.4.2 决定是否保留变量——t统计量除了参数估计的标准误外,大多数LOGIT软件还输出称为参数的t统计量.参数的t统计量通过参数估计值除以估计标准误来获取,即t=b est/s.参数的t统计量用来确定与参数相对应变量在描述或解释观测值是否显著,因此t统计量决定一个变量是否应该留在还是剔除出模型非常有用.有显著解释能力的变量应该留下,而那些没有什么解释能力的变量应该剔除.一般来说,具有较大正或负t统计量的变量比t统计量在1和-1之间的变量更具有解释能力.因此,具有较大正或负t统计量的变量应该保留,而t统计量在1和-1之间的变量则可以从模型中剔除.不存在唯一t统计量分界线来区分变量去留与否.经验表明,t统计量大于1.0或小于-1.0的变量一般应当保留.但是如果参数的t统计量在这范围之外,它的符号却同理论不一致,则该模型不正确.例如方式选择模型中,出行费用的参数应该是负数,然而在模型中出行费用的参数是+0.50,t统计量为2.7,这个模型是不正确的,应该重新建立.现实中t统计量较小并意味着相应的变量必须从模型中剔除.错误设定效用函数也可能引起一个或多个t统计量较小,甚至这些变量所表示的属性值对方式选择非常重要.例如,假如某一属性正确的表示是ln(X),但是在估计模型中,该属性被错误表示成X,则X参数的t统计量可能比较小,甚至X所表示的属性对方式选择非常重要,在这种情况下,假如用变量ln(X)代替X重新进行估计就有可能获得非常高的t统计量,因此,在根据t 统计量推断某一属性是否出现在效用函数中之前,应使用属性的不同函数变换进行比较实验.另外一种情形,虽然是小的t统计量,但与此同时有两个或多个参数也是小的t统计量,这时就不表明该变量应该剔除.有这种可能,几个参数的t统计量比较小,但与之对应变量联合一起却有显著解释能力.换句话说,单个变量有低的解释能力,但一组这样的变量却有很高的解释能力.在这种情形下,就不能剔除其中的任何变量,尽管它们参数的t统计量比较小.假设在汽车(A)和公交车(B)的方式选择模型中,效用函数表示成:V A=b1+b2IVT T A+b3OVT T A+b4C A+b5A+b6D(4a) V B=b2IVT T B+b3OVTT B+b4C B(4b)其中IVTT表示车内出行时间,OVTT表示车外出行时间,C表示出行费用,A表示出行者家庭汽车拥有量,D等于1假如出行的工作地在中央商务区,否则为0.假设估计结果如表1所示.72交通运输系统工程与信息2004年2月表1 t统计量估计结果参数变量估计值标准误t统计量b1In tercept 1.450.39 3.72b2IVTT-0.00897-0.00632-1.42b3OVT T-0.0308-0.0106-2.91b4C-0.115-0.0262-4.39b5A0.770.244 3.16b6D-0.5610.783-0.716b6的t统计量在-1.0和1.0之间,这意味着变量D解释能力很低,该变量可以从模型中剔除.没有其他变量的t统计量在- 1.0和1.0之间,因此,再没有其它变量可以剔除.4.3 决定是否保留一组变量——似然率检验大多数LOGIT估计软件输出样本LOG似然值.这个最大LOG似然值提供了决定一组变量是否可以从模型中剔除,这个过程称为似然率检验.直观地工作流程如下:假如一组变量几乎没有什么解释能力,那么将它们从模型中剔除应该对最大LOG似然值没有什么影响,剔除一个或多个变量一般来说使最大LOG似然值减少,但如果变量没有什么解释能力的话,最大LOG似然值减少应该很少.换句话说,假如一组变量没什么解释能力,有、无这些变量对估计模型的LOG似然值差值接近于0.似然率检验按以下步骤进行:(1)对包括所有变量的模型进行估计.令LOG L1表示最大LOG似然值.(2)剔除有问题的变量,重新估计模型.令LOG L2表示最大LOG似然值.(3)计算LR=2(LOG L1-LOG L2).LR 称为似然率检验统计量,通常手工计算,一般为正值.(4)假如LR超过合适的临界值CV,则被检验的变量应该保留在模型中,尽管它们所有的参数值的t统计量在-1.0和1.0之间.假如LR小于CV,则可以将这些变量从模型中剔除.临界值CV,对于似然率检验统计量来说,同检验的变量数目有关.表2列出检验2到5个变量的合理临界值.单变量的似然率检验相当于4.2中所描述的t-检验.因此,对单个变量就没有必要实施似然率检验.表2 似然率检验统计量的临界值检验变量数临界值2 2.4083 3.6654 4.8785 6.064 假设LOGIT模型的估计满足表3结果.表3 L OG IT模型的估计值参数变量估计值标准误t统计量b1Intercept 1.450.39 3.72b2IVTT-0.00897-0.00632-1.42b3OVT T-0.0308-0.0106-2.91b4C-0.115-0.0262-4.39b5A0.770.244 3.16b6D-0.5610.783-0.716log L=-374.4假设无法确定变量IVT T和D对模型是否有显著的解释能力.为了确定是否这些变量应该从模型中剔除,利用如下的效用函数重新估计模型: V A=b1+b3OVT T A+b4C A+b5A(5a)V B=b3OVTT B+b4C B(5b) 假设估计的结果如表4.则似然率检验统计量表4 利用新效用函数的估计值参数变量估计值标准误t统计量b1Intercept 2.670.438 6.1b3OVT T-0.0291-0.0143-2.04b4C-0.175-0.0482-3.63b5A0.5670.163 3.48log L=-377.2是LR=2[(-374.4)-(-377.2)]= 5.60.两个变量被检验,根据表2,两个变量似然率统计量的临界值是2.408.因此LR超过这个值,变量IVT T和D联合在一起具有显著的解释能力,尽管它们中的任何一个t统计量都在- 1.0和1.0之间.虽然每一个变量对选择结果的影响非常不准确,两变量任何一个都不能从模型中剔除.如果剔除这两个变量,会在剩余的参数估计上产生重大偏差,导致更大的预测误差.换句话,该模型不能够精确预测改变车内时间或工作地对方式选择影响,但是必须将这些变量保留在模型中防止其它变量变化影响预测的偏差.73第1期L O GIT模型参数估计方法研究4.4 模型的比较——修正的似然率检验到目前为止,所有模型检验的讨论都只是检验是否某一或一组变量应该从模型中剔除.并不是所有的检验都可以采用这种方法.例如,假设有两套方式选择LOGIT模型,要求确定哪一个模型能够更好地解释观测数据.假设这些模型的效用函数如下:M odel1:V=a1T+a2C(6)M odel2:V=b1lo g T+b2C(7)其中T和C分别表示出行时间和出行费用,a1、a2和b1、b2是常参数.前面讨论的t和似然率检验就不能用来确定哪一个模型更好,这是因为没有一个模型能够通过增加一个变量或剔除一个变量从另外一个中推导出来.这种不能通过增加一个变量或剔除一个变量从另外一个中推导的模型称为No n-Nested.直觉上认为,假如两个Non-Nested模型中一个比另外一个能更好解释观测数据,则更好的模型应该有更大的LOG似然值.因此,期望建立有如同似然率检验类似的一种检验来测试No n-Nested 模型.修正的似然率检验过程如下:假设No n-Nested模型叫做模型1和2,LOG L1和LOG L2分别表示模型1和2的最大LOG 似然值,K1和K2分别表示两个模型中参数的数目,(例如在等式(6)和(7)中,K1=K2=2),假如LOG L2<LOG L1,则模型1优于模型2,反之亦然.定义修正的似然率检验统计量如下:M LR=(lo g L1-K1/2)-(lo g L2-K2/2)(8)假如M LR> 1.35,则模型1在解释观测数据优于模型2.考虑LOGIT方式选择模型,其效用函数如下:M odel1:V=a1logIVT T+a2log OVTT+a3C(9) M odel2:V=b1T+b2C(10)其中T、IVT T、OVT T和C分别表示总出行时间,车内出行时间,车外出行时间和出行费用,a1、a2、a3和b1、b2、b3是常参数.假设两个模型的最大似然估计结果是log L1=-437.7和log L2=-440.2.模型1中有3个参数,模型2中有2个参数,因此K1 =3和K2=2.修正的似然率检验统计量是:M LR=(-437.7-3/2)-(-440.2-2/2)= 2.00由于MLR超过1.35,模型1比模型2更好解释观测数据.5 另外一些估计的问题有几种设定错误使LOGIT模型不能用最大似然法估计,这时估计软件将会异常终止,并产生错误或警告提示,在这些情况下的任何估计都是无意义的.(1)使用太多的特定方案(alter native-specific)常量.在大多数的实际问题中,LOGIT方式选择模型的效用函数包括特定方案常量,而模型中这些常量的数目不应超过交通方式数减1.假如特定方案常量等于交通方式数,则就不可能有唯一的参数解集满足样本LOG似然值最大.这通常会引起估计软件异常中断或产生一些提示估计发生的问题.(2)错误设定社会经济变量.社会经济变量,如收入和汽车拥有水平,对于所有的方案来说都是相同的.这些变量当且仅当以特定方式(mode specific)或乘以或除以一个属性值(其值在各方案中是不同的)进入到LOGIT模型中.假如它们以一般性(g eneric)变量进入到LOGIT模型的效用函数中,则这些变量对选择概率不发生作用.结果一般性的社会经济变量同LOGIT模型中其他变量不发生相互作用,也就不存在唯一的参数解集满足样本LOG似然值最大,估计软件将会异常终止.以特定方式表示的社会经济变量的数目不能超过模型中交通方式数减1,违反这条规则将导致参数估计失败,LOGIT估计软件异常终止或产生错误信息.(3)变量的完全多种相关性.完全多种相关性指的是这样情形,效用函数中一个或多个变量恰恰是其它几个变量的线性组合.例如,假设T,IVTT,和OVTT分别表示全部出行时间,车内出行时间和车外出行时间.假设LOGIT的效用函数设定如下:V=b1T+b2IVT T+b3OVT T+其它项(11)则完全多种相关性存在,因为T恰恰是IVTT和OVT T的线性组合.即T=IV TT+OVT T.完全多种相关性对估计引起的问题可以通过重写74交通运输系统工程与信息2004年2月(11)解释:V=b1(IVT T+OVT T)+b2IVTT+b3OVT T+其它项(12) =(b1+b2)IVT T+(b1+b3)OVT T+其它项(13)等式(13)显示选择预测仅仅依赖b1+b2和b1+b3的值.但是有无穷多种b1、b2、b3组合满足相同的b1 +b2和b1+b3的值.结果就不可能找到唯一b值满足样本LOG似然值最大.6 结论本文着重解释了估计LOGIT选择模型的方法.同时也描述了统计过程,用来指导变量的选择和LOGIT模型的检验.这些统计过程在建立模型时非常关键,但必须清楚地认识到任何统计方法都不能孤立保证建立一个满意的模型.与其说建模是门科学,不如说更像一门艺术,判断和经验都是其重要组成部分.即使有客观的统计方法存在时,也需要判断和经验,这主要是统计检验不能确定一个模型正确与否,它们仅能确定一个模型是否错误,统计方法很少能够洞察为什么模型是错误的,以及如何修正.模型师必须用判断和经验确定错误最有可能来源,之后修改模型消除错误.修改后的模型也需进一步统计检验以确定它们错误与否.因此,实际建立模型的过程经常是统计分析和判断交替进行的活动.参考文献[1] M Ben-A kiva and S.R.L erman.Discr ete ChoiceAnalysis:T heor y and A pplication to T rav elDemand[M].T he M.I.T.Pr ess,Cambr idg e,M A,1985.[2] Br uce D.Spear.A pplications of New T rav elDemand F or ecast ing T echniques t o T ranspo rt atio nPlanning:A Study o f Indiv idua l Choice M odels.U.S.Depar tment of T ranspo r tatio n,1977.[3] J.d.D.O r t zar and L.G.W illumsen.M odellingT r anspor t[J].John Wiley&So ns,1994.[4] Hag ue Consulting Gr oup.A L OG IT 4.0help-file.(上接第70页) 在此基础上,参考华北地区其它收费公路的费率标准,拟定低费率方案如表3所示。