当前位置:文档之家› 模型参数估计方法研究

模型参数估计方法研究

LOGIT模型参数估计方法研究金安摘 要 离散选择模型,特别是LOGIT模型在交通需求模型建立过程中,应用非常广泛,许多实际的交通政策问题都涉及到方式选择,然而LOGIT模型的建立非常困难,尤其是效用函数及参数估计。

本文重点就LOGIT模型参数估计的有关问题进行讨论,特别是运用统计方法如何对效用函数的变量进行选取及比较不同形式效用函数。

关键词 LOGIT模型 参数估计 t检验 似然率检验1、引言实践过程中,LOGIT模型效用函数不可能预先知道,模型师在建立LOGIT模型最初阶段几乎没有效用函数任何信息,最多认为在效用函数中会有哪些可能的变量,但也不能确定所有的变量是否都需要,更不可能知道哪些变量需要进行函数变换或效用函数参数的具体数值是多少。

这些问题只有通过拟合合适的观测数据,并检验这些模型来确定哪一个最能够描述观测数据。

本文主要介绍拟合和测试LOGIT模型方法。

2、 数据的要求估计和检验过程的第一步是选择合适的观测数据,用于建立LOGIT方式选择模型的所需的数据有:1)对个体实际方式选择行为的观测。

例如,要建立工作出行方式选择模型,需要对上班出行者方式选择进行观测的数据。

2)所有被选择和没有被选择方式的相关属性值。

这些属性可能作为模型中的变量。

例如,假设总出行时间被认为是模型中的一个变量,则对于样本中每一个个体而言,所需数据包括每一种可能方式的总出行时间。

如果属性数据仅包含被选择方式,LOGIT模型就不能建立。

3)任何可能作为变量的个体属性值。

例如,汽车拥有水平,则需要样本中每个个体家庭汽车拥有水平数。

3、 模型的设定所需数据收集后,下一步工作是设定一种或多种效用函数形式。

设定步骤包括确定效用函数中变量、属性的函数变换以及效用函数的形式。

这个步骤通常不确定效用函数参数值。

例如,建立LOGIT方式选择模型,可以设定如下两种比选效用函数形式:形式1: V DA= a1T DA+ a2 A + a3(1a)V CP = a1T CP + a4 A + a5(1b)V B = a1T B(1c) 形式2: V DA= b1 log(T DA) + b2 A + b3(2a)V CP = b1 log(T CP) + b4 A + b5(2b)V B = b1 log(T B). (2c) 在这些等式中,T表示出行时间(分),A表示出行者家庭汽车拥有,a1 - a5和b1 - b5是参数。

这个阶段设定的形式(1)和(2)并不意味着模型师必然相信其中一个是正确的,而是(1)和(2)都是模型师认为值得去估计和检验的效用函数形式。

在估计和检验过程中,可以获取有助于确定是否这些形式应该修正的信息(例如从一个或两个形式中剔除一个或几个变量),以及提供确定哪一种函数形式能够更好解释观测样本值。

4、估计结果的解释—模型检验LOGIT模型一般采用最大似然估计法进行参数估计,LOGIT估计软件输出结果,除了模型参数的估计值外,还有许多用来解释估计参数的信息,用来决定哪一个参数应该包含在模型中,以及模型之间的比较。

4.1 估计的精确度—估计的标准误大多数LOGIT估计软件的输出结果,除了参数估计值外,还有一套称为估计值的标准误。

由于随机抽样误差的存在,某一参数估计值的标准误用来指示参数估计值偏离真值的大小。

因此,估计值标准误是被估计参数精确度的指标。

假如模型被正确的设定,则有0.95的概率相信真参数值落在估计值的±1.96s(估计的标准误)范围内。

换句话说,假如b est是参数的估计值,b true是未知真值,s是估计的标准误,下面不等式以0.95的概率满足:b est - 1.96s <b true<b est + 1.96s. (3)改变数值1.96到1.645或2.575将认为不等式以0.90或0.99的概率满足。

4.2 决定是否保留变量—t统计量除了参数估计的标准误外,大多数LOGIT软件还输出称为参数的t统计量。

参数的t统计量通过参数估计值除以估计标准误来获取,即t = b est /s。

参数的t统计量用来确定与参数相对应变量在描述或解释观测值是否显著,因此t统计量决定一个变量是否应该留在还是剔除出模型非常有用。

有显著解释能力的变量应该留下,而那些没有什么解释能力的变量应该剔除。

一般来说,具有较大正或负t统计量的变量比t 统计量在0之间的变量更具有解释能力。

因此,具有较大正或负t统计量的变量应该保留,而t统计量在0之间的变量则可以从模型中剔除。

不存在唯一t统计量分界线来区分变量去留与否。

经验表明,t统计量大于1.0或小于-1.0的变量一般应当保留。

但是如果参数的t统计量在这范围之外,它的符号却同理论不一致,则该模型不正确。

例如方式选择模型中,出行费用的参数应该是负数,然而在模型中出行费用的参数是+0.50,t统计量为2.7,这个模型是不正确的,应该重新建立。

现实中t统计量较小并意味着相应的变量必须从模型中剔除。

错误设定效用函数也可能引起一个或多个t统计量较小,甚至这些变量所表示的属性值对方式选择非常重要。

例如,假如某一属性正确的表示是ln(X),但是在估计模型中,该属性被错误表示成X,则X参数的t统计量可能有比较小,甚至X所表示的属性对方式选择非常重要,在这种情况下,假如用变量ln(X)代替X重新进行估计就有可能获得非常高的t统计量,因此,在根据t统计量推断某一属性是否出现在效用函数中之前,应使用属性的不同函数变换进行比较实验。

另外一种情形,虽然是小的t统计量,但与此同时有两个或多个参数也是小的t统计量,这时就不表明该变量应该剔除。

有这种可能,几个参数的t统计量比较小,但与之对应变量联合一起却有显著解释能力。

换句话说,单个变量有低的解释能力,但一组这样的变量却有很高的解释能力。

在这种情形下,就不能剔除其中的任何变量,不管它们参数的t统计量比较小。

假设在汽车(A)和公交车(B)的方式选择模型中,效用函数表示成:V A= b1 + b2 IVTT A+ b3 OVTT A+ b4 C A + b5A + b6 D (4a)V B= b2 IVTT B + b3 OVTT B+ b4 C B, (4b)其中IVTT表示车内出行时间,OVTT表示车外出行时间,C表示出行费用,A表示出行者家庭汽车拥有,D等于1假如出行的工作地在中央商务区,否则为0。

假设估计结果如下:表1参数变量估计值标准误t统计量b1 Intercept 1.45 0.39 3.72-1.42-0.00632b2 IVTT-0.00897-0.0106 -2.91 b3 OVTT -0.0308b4 C -0.115-4.39-0.02623.16b5 A 0.770.244-0.716 b6 D -0.5610.783b6 的t统计量在-1.0和1.0之间,这意味着变量D解释能力很低,该变量可以从模型中剔除。

没有其他变量的t统计量在-1.0和1.0之间,因此,再没有其它变量可以剔除。

4.3 决定是否保留一组变量 — 似然率检验大多数LOGIT估计软件输出样本LOG似然值。

这个最大LOG似然值提供了决定一组变量是否可以从模型中剔除,这个过程称为似然率检验。

直观地工作流程如下,假如一组变量几乎没有什么解释能力,那么将它们从模型中剔除应该对最大LOG似然值没有什么影响,剔除一个或多个变量一般来说使最大LOG似然值减少,但如果变量没有什么解释能力的话,最大LOG似然值减少应该很少。

换句话说,假如一组变量没什么解释能力,有、无这些变量对估计模型的LOG似然值差值接近于0。

似然率检验按以下步骤进行:1)对包括所有变量的模型进行估计。

令LOG L1表示最大LOG似然值。

2)剔除有问题的变量,重新估计模型。

令LOG L2表示最大LOG似然值。

3)LR = 2(LOG L1 - LOG L2)。

LR称为似然率检验统计量,通常手工计算,一般为正值。

4)假如LR超过合适的临界值,CV则被检验的变量应该保留在模型中,尽管它们所有的参数值的t统计量在-1.0和1.0之间。

假如LR小于CV,则可以将变量从模型中剔除。

临界值,CV,对于似然率检验统计量来说,同检验的变量数目有关。

表2列出检验2到5个变量的合理临界值。

单变量的似然率检验相当于5.2中所描述的t-检验。

因此,对单个变量就没有必要实施似然率检验。

表2 似然率检验统计量的临界值检验变量数临界值2 2.4083 3.6654 4.8785 6.064假设LOGIT模型的估计满足以下结果:参数变量估计值标准误t统计量b1 Intercept 1.45 0.39 3.72-0.00632-1.42 b2 IVTT-0.00897-0.0106 -2.91 b3 OVTT -0.0308-4.39-0.0262b4 C -0.1153.160.244b5 A 0.77-0.716 b6 D -0.5610.783log L = -374.4假设无法确定变量IVTT和D对模型是否有显著的解释能力。

为了确定是否这些变量应该从模型中剔除,利用如下的效用函数重新估计模型:V A= b1 + b3 OVTT A + b4 C A+ b5 A (5a)V B= b3 OVTT B + b4 C B, (5b)假设估计的结果如下:参数变量估计值标准误t统计量b1 Intercept 2.67 0.438 6.1b3 OVTT -0.0291-0.0143 -2.04-3.63 b4 C -0.175-0.04823.48b5 A 0.5670.163log L = -377.2则似然率检验统计量是LR = 2[( -374.4) - ( -377.2)] = 5.60 。

两个变量被检验,根据表2,两个变量似然率统计量的临界值是2.408。

因此LR超过这个值,变量IVTT和D联合在一起具有显著的解释能力,尽管它们中的任何一个t统计量都在-1.0和1.0之间。

虽然每一个变量对选择结果的影响非常不准确,两变量任何一个都不能从模型中剔除。

如果剔除这两个变量,会在剩余的参数估计上产生重大偏差,导致更大的预测误差。

换句话,该模型不能够精确预测改变车内时间或工作地对方式选择影响,但是必须将这些变量保留在模型中防止其它变量变化影响预测的偏差。

4.4模型的比较 — 修正的似然率检验到目前为止,所有模型检验的讨论都只是检验是否某一或一组变量应该从模型中剔除。

并不是所有的检验都可以采用这种方法。

例如,假设有两套方式选择LOGIT模型,要求确定哪一个模型能够更好解释观测数据。

假设这些模型的效用函数如下:Model 1: V = a1T + a2C (6)Model 2: V = b1log T + b2C (7)其中T和C分别表示出行时间和出行费用,a's 和 b's是常参数。

相关主题