第10章模型设定与实践问题10.1 模型设定误差有哪些类型?如何诊断?答:模型设定误差主要有以下四种类型:1.漏掉一个相关变量;2.包含一个无关的变量;3.错误的函数形式;4.对误差项的错误假定。
诊断的方法有:1.侦察是否含有无关变量;2.残差分析,拉姆齐(Ramsey)的RESET检验法,DM(Davidsion-MacKinnon:戴维森麦-克金龙)检验;3.拟合优度、校正拟合优度、系数显著性、系数符合的合理性。
10.2 模型遗漏相关变量的后果是什么?答:模型遗漏相关变量的后果是:所有回归系数的估计量是有偏的,除非这个被去除的变量与每一个放入的变量都不相关。
常数估计量通常也是有偏的,从而预测值是有偏的。
由于放入变量的回归系数估计量是有偏的,所以假设检验是无效的。
系数估计量的方差估计量是有偏的。
10.3 模型包含不相关变量的后果是什么?答:模型包含不相关变量的后果是:系数估计量的方差变大,从而估计量的精度下降。
10.4 什么是嵌套模型?什么是非嵌套模型?答:如果两个模型不能被互相包容,即任何一个都不是另一个的特殊情形,便称这两个模型是非嵌套的。
如果两个模型能互相包容,即其中一个是另一个的特殊情形,便称这两个模型是嵌套的。
10.5 非嵌套模型之间的比较有哪些方法?答:非嵌套模型之间的比较方法有:拟合优度或校正拟合优度、AIC(Akaike’s information criterion)准则、SIC(Schwarz’s information criterion)准则和HQ(Hannnan-Qinn criterion)准则。
拉姆齐(Ramsey)的RESET检验法,DM(Davidsion-MacKinnon:戴维森麦-克金龙)检验。
习题10.6 对数线性模型在人力资源文献中有比较广泛的应用,其理论建议把工资或收入的对数作为因变量。
如果教育投资收益率为r ,则接受一年教育的工资为10(1)w r w =+,0w 是基准工资(未接受教育)。
如果接受教育的年限为s ,则工资为0(1)t t w r w =+,取对数012ln ln ln(1)t w w t r t ββ=++=+。
工龄可能有类似的影响。
但年龄的影响可能有差异,直观上看,往往呈现“低-高-低”的特征,于是可用二次关系检验(看是否有峰形关系)。
对于教育年限和工龄或许也有二次效应。
因此,一般模型构建如下2123452267ln(wage)DEUC EXPER AGE EDUC EXPER AGE uβββββββ=+++++++请你利用DATA10-5中的数据尝试估计出最恰当的模型。
你有什么结论? 答:估计方程(1):2212345627ˆˆˆˆˆˆn()+ˆ L wage DEUC EXPER AGE EDU EXPER AGE uβββββββ=++++++可得:222n()7.330.090.010.00040.011+0.0004(2.1105) (9.06) ( 1.077) (0.57) (0.01) (1.84) (0.38) (0.L wage DEUC EXPER AGE EDUCEXPER E AGEt t =-+-++-=--=2206) 0.3806 0.292R R ==从其显著性可知,AGE 及其平方是不显著的。
去除AGE 和2AGE ,得到模型(2):222n()7.330.090.010.01+0.0004 (25.20)( 1.07) (0.63) (1.87) (0.39) 0.379L wage DEUC EXPER EDUC EXPER t R =-++=-=从其AIC ,SIC ,HQ 指标都下降可以看出,模型(2)比模型(1)要好。
但是从其显著性可以看出,EXPER 及其平方是不显著的。
利用瓦尔德检验,可以看出EXPER 及其平方是联合显著的。
去掉2EXPER ,可得:22n ()7.290.090.020.01t ( 1.05) (3.89) (1.88) 0.33L wage DEUC EXPER EDUC R =-++=-=可以看出AIC ,HQ ,SIC 指标均下降,校正拟合优度上升。
(3)才是最恰当的模型。
10.7 根据DATA4-6中的数据,利用拉姆齐的RESET 方法比较下面的两个模型:1234price lotsize sqrft bdrms u ββββ=++++1234ln()ln()ln()price lotsize sqrft bdrms u ββββ=++++还有什么其它方法可用来比较这两个模型?答:估计方程:1234ˆˆˆˆprice lotsize sqrft bdrms ββββ=+++ 得:221.770.0020.12213.85 (0.74) (3.22) (9.28) (1.54)0.6724p r i c e l o t s i z e s q r f t b d r m st R =-+++=-=拟合方程:23123456ˆˆˆˆˆˆprice lotsize sqrft bdrms price price ββββββ=+++++ 可得:23166.100.00020.018 2.1750.0003 (1.5506) (0.523) (0.030) (0.059) (0.064) (0.049)(0.236) price lotsize sqrft bdrms priceE pricet t =+++++-==2 0.706R =222()/()(0.7060.6724)/(64) 4.6857(10.706)/(886)(1)/()U R c U R R k m F R n k ----===---- 给定显著性水平为0.05,则查表知:*c F F ≥,则拒绝零假设。
则56ββ和是联合显著的。
由此可知函数形式是误设的。
估计方程:1234ln()ln()ln()price lotsize sqrft bdrms u ββββ=++++ 可得:2ln() 1.2970.168ln()0.700ln()0.037 ( 1.99) (4.39) (7.54) (1.34) 0.643price lotsize sqrft bdrmst R =-+++=-= 加入估计值的平方项和立方项: 可得:3l n ()87.89 4.18l n ()17.35l n (0.93(0.37) (0.33) (0.33) (0.33)2+3.91log()0.19log() price lotsize sqrft bdrms t price price =---=---⎡⎤⎡⎤-⎣⎦⎣⎦)2 (0.30) (0.26) 0.664t R =-=则222()/()0.6640.643/22.625(10.664)/(886)(1)/()U R c U R R k m F R n k ---===----() 则给定显著性水平0.05,查表可知* 3.108c F F ≤=,由此可知56ββ和是联合不显著的,模型设定正确。
通过上述方法,我们可以看出对数模型比线性模型更好。
另外,我们还可以用戴维森-麦金龙检验。
10.8 对于给定的两个非嵌套模型,是否一定可以构造一个糅合模型使其包含两个非嵌套模型作为特殊情形?如果回答是否定的,请举例说明。
答:不一定,比如模型:12Y X u ββ=++,12log log Y X v αα=++10.9 如果对模型(10.8)做如下修正:21234Y X year year u ββββ=++++(1) 估计这个模型。
(2) 如果2year 的系数是统计显著的,你如何评价回归方程(10.8)?(3) 2year 的系数为负,其直观含义是什么?答:(1)估计方程为:22ˆ17727350.4031826.380.470(0.82) (3.18) (0.83) (0.84)0.984Y X y e a r y e a r t R =-++-=--=(2)如果2year 的系数是统计显著的,则说明10.8遗漏变量。
(3)2year 的系数为负的直观含义是进出口商品的支出随着时间是以递减的速率变化的。
10.10 再论公共汽车需求的影响:在第四章的例4-2中(DATA4-2),把所有变量都取对数,构建合适的对数模型。
将你得到的对数模型与例4-2中的模型进行比较(用你能想到的所有方法),能用F -包容检验方法吗?答:在第四章中取对数之后的一般模型(1)为:1234567ln(BusTravl)ln(Fare)ln(Gasprice)ln(Income)ln(Pop) ln(Density)ln(Landarea)+uβββββββ=++++++估计该模型可得:ln()44.710.48ln() 1.73ln() 4.85ln() 1.69ln() (2.15) (1.12) (0.69) ( 4.63) (0.63) BusTravl Fare Gasprice Income Pop t =+--+=--2 0.28ln()0.82ln()(0.10) (0.30) 0.657 2.385 2.681 2.492Density Landarea t R AIC SIC HQ +-=-====可以看出,ln()Density 是最不显著的,删掉ln()Density 有模型(2):l n (B u s T r a v l )46.610.49l n (F a r e ) 1.71l n (G a s p r i c e ) 4.85l n (I n c o m e )+1.96l n (P o p )(4.82) (1.26) (0.70) ( 4.70) (7.06) 1.t =+--=---209ln(Landarea)( 4.58) 0.6572.34 2.59 2.43t R AIC SIC HQ =-====目前,ln(Gasprice)的系数估计量是最不显著的,则删掉此变量有模型(3):l n (B u s T r a v l )46.200.43l n (F a r e ) 4.77l n (I n c o m e ) 1.87l n (P o p ) 1.02l n (L a n d a r e a ) (4.82) (1.15) ( 4.69) (7.84) ( 4.85) t =+-+-=--20.6522.30 2.51 2.38R A I C S I C H Q ====删掉不显著的ln()Fare ,有模型(4):2ln()45.85 4.73ln() 1.82ln()0.97ln() (4.77) ( 4.63) (7.72) ( 4.70) 0.639 2.29 2.46 2.35BusTravl Income Pop Landarea t R AIC SIC HQ =-+-=--====所有的系数都是显著的,而且AIC ,SIC ,HQ 是几个模型中最小的。