20世纪70年代中期,美国能源 部门试图基于各地过去的汽油消耗量和人口变动情况以及其他一些因素给各地区、各州甚至各零售点直接分配汽油。
实现这种分配必须将大量因素作为各州(各地区)的燃油消耗量(应变量)的函数而建立模型。
而对于这样的横截面 模型,即使是估计的模型,也很可能会具有异 方差问题。
在模型中,应变量为各州的燃油消耗量,可能的解释变量包括:与各州规模大小相关 的变量(例如公路里程数、注册的机动车数量和人口),以及与各州规模大小无关的变量(例 如燃油税率和最高限速)。
因为在模型中反映各州规模大小的变量不应多于一个(如果包含 过多变量容易导致多重共线性),因为有许多州的最高限速相同(但在时间序列模型中,它 将是一个有用的变量)。
因此,一个合理的模型为:PCON i f (REG,TAX ) i oiREG i2TAX i i( 10-20)式中 PCON i ――第i 个州的燃油消耗量(百万 BTU ),REG i ――第i 个州的注册机动车数量(千辆), TAX i ――第i 个州的燃油税率(美分/加仑),i ――经典误差项。
我们可以认为一个州注册的汽车数量越多, 该州所消耗的燃油也越多; 而一个州的燃油税率越高则该州的燃油消耗量越小 (10-20),得到:二我们搜集那一时期的数据(见表 10-1 )用于估计方程 PCON i 551.70.1861REG i 53.59TAX i( 10-21)(0.0117)( 16.86)t 15.883.18R 1 2 0.861 N 50表10-1燃油消费例子中的数据PCONUHMTAX REGPOPe state270 2.2 9 743 1136 62.335 Maine 122 2.4 14 774 948 176.52 New Hampshire 580.7 11 351 520 30.481 Vermont 82120.6 9.937505750101.87Massachusetts1在方程中我们也可用TAX * REG 或者TAX * POP ( POP 代表第i 个州的人口)取代TAX 作为方程的解释变量。
我们在第7.5节中讨论虚拟变量斜率时曾介绍了一个关于交互项的更为复杂的例子。
对于一个给 定的税率,它对一个大州的燃油消耗的影响要比对一个小州的影响大得多,而用反映州的规模大小的变量 乘以TAX 会使所得到的新变量(交互项)能够更好地度量这一效应。
10.5 —个更完整的例子让我们来看一个更完整的基于横殿面的异方差的例子。
98 3.6 13 586 953 133.92 Rhode lsland450 10.1 11 2258 3126 67.527 Connecticut 1819 36.4 8 8235 17567 163.24 New York 1229 22.2 8 4917 7427 190.83 New lersey 1200 27.9 11 6725 11879 -13.924 Pennsylvania 1205 29.2 11.7 7636 10772 -140.98 Ohio650 17.6 11.1 3884 5482 -29.764 lndiana 1198 30.3 7.5 7242 11466 -299.72 minois760 25.1 13 6250 9116 -258.33 Michigan 460 13.8 13 3162 4745 16.446 Wiscolnsin 503 13.0 13 3278 4133 37.855 Minnesota 371 8.1 13 2346 2906 79.330 lowa571 13.9 7 3412 4942 -240.63 Missouri 136 1.6 8 653 672 -108.50 North Dakota 109 1.6 13 615 694 139.52 South Dakota 203 4.3 13.9 1215 1589 170.08 Nebraska 349 8.4 8 2061 2408 -157.58 Kansas118 1.4 11 415 600 78.568 Delaware 487 9.8 13.5 2893 4270 120.31 Maryland 628 12.4 11 3705 5485 -23.806 Uirginia 192 2.9 10.5 1142 1961 -9.5451 West Virginia 642 17.1 12 4583 6019 -119.64 North Carolina 320 7.1 13 1975 3227 97.385 South Carolina 677 15.6 7.5 3916 5648 -201.65 Ceorgia 1459 28.5 8 8335 10446 -215.37 Florida 434 6.9 10 2615 3692 -68.513 Kentuchy 482 11.9 9 3381 4656 -216.68 Temmessee457 13.7 11 3039 3941 -70.842 A;aba,a 325 6.3 9 1593 2569 -40.877 Mississippi 300 7.4 9.5 1481 2307 -18.235 Arkansas 1417 10.1 8 2800 4383 772.87 Louisiana 451 11.4 6.58 2780 3226 -265.51 Oklahoma3572 59.9 5 11388 15329 1168.6 Texas131 2.3 9 758 805 -79.457 Montana105 2.2 7.5 873 977 -207.25 Idaho163 1.5 8 508 509 -54.515 Wyoming323 9.2 9 2502 3071 -212.07 Coiorado192 4.4 11 1193 1367 7.7577 New mexico291 8.9 10 2216 2892 -137.25 Arizona169 5.0 11 1038 1571 13.608 Utah133 2.4 12 710 876 92.250 Nevada562 14.8 12 3237 4276 50.895 Washington364 8.4 8 2075 2668 -145.18 Oregon2840 62.5 9 17130 24697 -417.81 California155 1.2 8 319 444 -27.336 Alaska214 1.3 8.5 586 997 8.7623 Hawaii资料来源:1958 Statistical Abstract (U.S. Department of Commerce),except the residual.注:Data File = GAS10这一方程看起来没什么问题。
所有的系数在假设的方向上都是显著的,方程在统计上也是总体显著的。
回归结果没有给出德宾—沃森(Durbi n-Wats on )d统计值,因为这些观测值不存在“固有的”顺序因而勿需进行序列相关检验(如果你想知道,根据表10-1中的顺序所计算的d统计值为2.20 )。
根据前面所讨论的,让我们考察方程是否存在由各州规模差异引致异方差的可能性。
为了检验这种可能性,我们从方程(10-21 )中得到残差,(这些残差被列于表10-1中),对其进行帕克检验。
在进行帕克检验之前,我们必须首先确定比例因子乙。
几乎所有与规模大小有关的变量都可以考虑作为比例因子乙,但注册机动车数量(REG肯定是一个比较合理的选择。
注意,以燃油税率(TAX)作为帕克检验的比例因子乙将是错误的,因为没有证据表明燃油税率明显随着州的规模的不同而变化。
相反,税收总额倒是可以替代REG乍为比例因子Z j。
我们观察残差和注册机动车数量之间的关系(见图10-7 ),从残差看的确可能存在潜在的异方差。
下一步就是要进行帕克检验:2ln( e i )0 1 In REG i i (10-22)式中e ——从方程(10-21)中获取的残差,经典(具有同方差性)误差项。
进行帕克检验的辅助回归,我们得到:2In(u ) 1.650 0.9521n REG j (10-23)(0.308)t 3.092R 0.148 N 50从统计表B-1中可以看出,在显著性水平为 1 %时,双侧检验的t统计量临界值为2.7,这样我们可以拒绝同方差的虚拟假设,因为合适的判定过程为:拒绝H。
: 1 0 如果t pARK〔 2.7不拒绝H。
:如果t PARK 2.7由于方程(10-20 )的残差显示存在异方差,我们应该如何处理呢?首先,我们应该考察方程的设定看是否存在遗漏的变量。
对于这一方程,尽管存在遗漏变量的可能性,但估计方程非常清晰的显示出纯的异方差。
因此,我们用变量作为比例因子,利用方法来重新估计方程():PCON i/REG i 218.54/REG i 0.168 17.398TAX i / REG i (10-25)(0.014 ) (4.682 )t 12.27 3.71R20.333 N 50把所得到的结果与方程(10-21)认真进行比较,注意:3注意这时整个方程两边都除以了REG i。
这实际上是假定误差项为i Z i i。
然而,帕克检验中ln REG的系数接近于1,显示误差项适当的函数形式应为,Z,,当然我们也不能仅仅根据帕克检验中的系数就采取该种形式的变换。
如果理论基础支持这种形式的变换,则整个方程两边应该除以x Z ,但在本例中,理论并不支持这样的变换。
要更深入地了解这一问题,请参考脚注7。
比较方程(10-28 )和方程(10-21 )。
注意,正如你所预料的那样,他们的斜率系数是相同1方程(10-25 )中1/REG的斜率系数实际上是方程(10-21 )中的截距。
因此,尽管在OLS估计程序中它被当作一个斜率系数看待,但这里并没有计算其t统计值。
2方程(10-25 )中的截距项实际上是方程(10-21 )中REG的斜率系数。
注意,我们所得到的估计值在大小和显著性上都与方程(10-21 )中的结果很接近。
3在WLS估计的方程中,比例因子REG的t统计值比其在潜在异方差方程(10-21 )中的t 统计值要小;总体拟合优度也较低,但这一点非特别重要,因为两个方程的应变量并不相同。
然而,正如在1043节中所提到的,为了避免由于样本规模差异导致谬误相关所引起的异方差,可供选择的方案是重新思考回归的目的和对方程的变量进行重新定义。