1.ADF单位根检验2.Engle-Granger协整检验3.Da-vdson误差修正模型4.Granger因果关系检验1、简单回归;2、工具变量回归;3、面板固定效应回归;4、差分再差分回归(difference in differnece);5、狂忒二回归(Quantile)。
大杀器就这几种,破绽最少,公认度最高,使用最广泛。
真是所谓的老少皆宜、童叟无欺。
其他的方法都不会更好,只会招致更多的破绽。
你在STATA里面还可以看到无数的其他方法,例如GMM、随机效应等。
GMM其实是一个没有用的忽悠,例如估计动态面板的diffGMM,其关键思想是当你找不到工具变量时,用滞后项来做工具变量。
结果你会发现令人崩溃的情况:不同滞后变量的阶数,严重影响你的结果,更令人崩溃的是,一些判断估计结果优劣的指标会失灵。
这GMM的唯一价值在于理论价值,而不在于实践价值。
你如果要玩计量,你就可以在GMM的基础上进行修改(玩计量的方法后面讲)。
有人会问:简单回归会不会太简单?我只能说你真逗。
STATA里面那么多选项,你加就是了。
什么异方差、什么序列相关,一大堆尽管加。
如果你实在无法确定是否有异方差和序列相关,那就把选项都加上。
反正如果没有异方差,结果是一样的。
有异方差,软件就自动给你纠正了。
这不很爽嘛。
如果样本太少,你还能加一个选项:bootstrap来估计方差。
你看爽不爽!bootstrap就是自己把脚抬起来扛在肩上走路,就这么牛。
这个bootstrap就是用30个样本能做到30万样本那样的效果。
有吸引力吧。
你说这个简单回归简单还是不简单!很简单,就是加选项。
可是,要理论推导,就不简单了。
我估计国内能推导的没几个人。
那些一流期刊上论文作者,最多只有5%的人能推导,而且大部分是海龟。
所以,你不需要会推导,也能把计量做的天花乱坠。
工具变量(IV)回归,这不用说了,有内生性变量,就用这个吧。
一旦有内生性变量,你的估计就有问题了。
国际审稿人会拼了老命整死你。
国内审稿人大部分不懂这东西(除了经济研究季刊等等这类刊物的部分审稿人以外)。
工具变量的选择只要掌握一个关键点就行:找一个和内生性变量有数据相关的,但是和残差没有关系的东西,这就是你的IV了。
例如贸易量如果是内生的,那么你找地理距离作为IV。
北京到纽约的距离,那是自然形成的,没人认为是由你的Y或者残差导致的。
但是你会发现贸易量和地理距离在数据上具有相关性。
这就很好。
这种数据相关性越强,IV的效果就越好。
就这么一段话,IV变量回归就讲完了。
在STATA里面,你直接把原回归方程写出来,然后把IV填进去就可以了,回车就得到你的结果。
关键是你不一定能找到这样的工具变量。
你能找到,这个工具也不大能用。
不过要注意,IV不灵不代表你不能发表。
你只要找到一个IV,效果不是差的太离谱,一般都能发。
当然不能发国际一流了。
国内是没问题。
国内审稿人没人会重复你的结果看看是否有问题,因此你说这个IV效果已经是最好的了,世界上还找不到第二个比这个更好的了,审稿人也没的话说。
就发表呗!如果审稿人说,另外一个IV效果可能要比你的好。
那你就采纳他的建议用他的IV(尽管他的建议会更差),然后感谢他一下。
第二次审稿,难道他还会说自己上次是胡说八道所以就发表了,哈哈哈哈!有人又会问:面板不是还有个随机效应嘛?我只能说,你是看过书的人,所以才知道随机效应。
其实随机效应压根就没什么用处。
有人信誓旦旦说可以用hausman来检验。
我只能告诉你,这检验压根就不可靠。
可靠也是理论上可靠,实践上根本没人信。
当然中国人都信,不信的都是美国欧洲这样的计量经济学家。
你难道不知道hausman还会出现负值!做过这个检验的人都很头疼这个负值,不知道该怎么做。
你如果看看一些高手的建议,或者一些书籍,你就会发现,最权威的建议就是:当你无法判断该用固定效应还是随机效应的时候,选择固定效应更可靠。
随机效应不是任何时候都可以做,但是固定效应是任何时候都可以做。
所以你知道该怎么做了吧。
差分再差分(Difference-in-Differences),或者叫作差差分法、双差分法,是固定效应的一个变种,在估计某个事件发生带来的效应时最有用的方法,特简单。
关键思想是通过差分的方法把相同的固定效应差分掉,就剩下来事件的净效应了。
举一个例子你就明白怎么回事了。
大家都知道买房子靠不靠学校医院等设施还是有很大差别的。
ZF为了拉动某个地方的房价,直接把地铁建到那里。
但是你不知道这种设施到底导致价格有多少差别。
你看到学校旁边的学区房价格上升,难道一定是学区房因素导致的吗?北京房价一直飙升,很可能是学区房以外的因素导致的。
现在你要检验一个假设:学区房因素导致房价上升。
差分再差分,这个方法要凑效的秘诀是:学区房因素发生变化,而其他因素基本维持不变。
例如ZF重新划分学区,一个著名小学突然在某个没学校的地方建分校,或者一个著名小学搬迁,这些因素导致房子是否属于学区房发生了变化。
以建分校为例。
建校后周围一片区域A的房子都属于学区房,这个区域以外附近区域(B)的其他房子就不算该校学区房。
然后收集建校前后两个时间点上、A和B区域房价的数据。
所谓的差分再差分法,就是:A区域两个时间点上的平均房价差距 - B区域两时间点上的平均房价差距 = d,这个d就是建校对房价的影响了。
d是两个差距之间的差距,所以才叫做差分再差分。
用计量回归把这个d给估计出来,是有办法的:P= b0 + b1*Da + b2*Dt + d*(Da*Dt) + Xb + eP是房价,Da是虚拟变量,在区域A则为1,否则为0,Dt是时间虚拟变量,建校后为1,建校前为0。
STATA一跑,就把d估计出来了。
为什么d可以如此表示?自己思考一下啦。
实在想不出来,Wooldridge的书上有精确严格的解释。
这里给出一个直观的粗略解释:北京所有区域的房价每个月都在上升,因此需要控制这部分因素,这就是时间因素Dt;区域不同自然也有差别,需要控制区域位置因素,这就是Da,这就控制了即使不建校也存在的差距;控制住其他因素X,那么剩下的Da*Dt就是建校带来的房价提升效应了。
这下明白了哦。
狂忒二回归(Quantile)是一般均值回归的一个推广。
看名字挺吓人,其实很简单。
如果你知道OLS是一个均值回归,那类推就可以知道1/2分位数回归。
你知道的,正态分布下,均值就是1/2分位数的地方。
均值回归就是1/2分位数回归。
知道了1/2回归,你自然知道1/4和3/4分位数回归了。
如果还不懂,翻开伍德里奇的书,讲到简单OLS回归时,我记得有一个图,上面对不同位置的x位置画了不同的正态分布密度函数(第2版是figure 2.1,pp26,见下面)。
如果是异方差问题,那么不同x位置的正太分布图的方差就有变化。
这个图上注明了预测值是E(Y|X),就是Y的条件期望,就是那根回归预测直线啦。
在正态分布下就是Y的密度函数的中心点的连线,就是1/2分位数点的连线。
如果那条预测线画在密度函数的1/4和3/4分位数点上,那么预测结果就不是Y的均值(在非正态下可能是均值),而是1/4和3/4分位数点的预测值。
这下明白狂忒二回归了吧。
分位数回归就是看看那根预测直线在不同的分位数点上有什么结果,得到什么样的回归系数。
通常的OLS预测直线,仅仅是一个特例而已。
进一步推广,可以推广到任意分位数点回归的情况。
道理一样。
quantile回归还可以推广到带bootstrap的quantile回归哦,想起来是不是很过瘾啊道理还是一样的,具体怎样操作,耐心往下看,到最后有quantile的速成秘诀哦,包你10分钟能在STATA里面跑出quantile回归来。
伍德里奇《计量经济学导论——现代观点》的图2.1(解释Quantile回归的意义)不过要注意,大杀器要用对。
有内生性变量,你就不要用简单回归了,你得用IV回归。
这几种大杀器的精髓一领会,基本上其他东西就难不倒你了。
就是STATA里面的选项多选几个或者少选几个的问题。
你所要做的就是在STATA里面打钩、设置参数。
对付一般的CSSCI论文,已经是绰绰有余了。
如果你提了一个大家很感兴趣的问题,就是一个重要问题,那么用用IV,或者固定面板,发个一流基本没问题。
如果你的问题不是很重要,还想发一流,那你就要简单问题复杂化。
上面大杀器能解决的问题,你就用更复杂的方法去解决吧。
这就是传说中的瞎折腾。
你要是想折腾,接着往下看吧。
四、瞎折腾计量的秘诀瞎折腾有三种水平,第一种是低水平,第二种,高水平瞎折腾。
第三种,当然是中等水平折腾。
当然,我必须承认,我基本不用瞎折腾的方法。
因为最简单的方法往往是最安全的方法,就像五种大杀器一样。
各位网友自己要折腾,责任自负。
低水平瞎折腾,就是大杀器不够过瘾,要用摄人魂魄、但容易走火入魔的计量方法达到发表一流期刊的目的。
例如,没事弄弄协整,搞一把单位根检验之类的。
听起来头头是道,其实都是杞人忧天。
你想想,要是有协整,时间序列你根本不用着急,超一致收敛的呀,比一般的OLS估计要快准狠。
要是没有协整,你着急也没用。
那你还协整个啥!面板来说,你有协整,也没有一个完美的估计方法。
事实上目前很多人把面板协整当序列协整做,理由是协整下OLS超一致收敛。
不信你查查期刊上是不是还有很多人在用固定效应OLS?不会还有人用随机效应OLS估计吧?一般不带这么玩的。
大家都以为存在面板协整,那OLS岂不是一样超一致收敛?诸不知差以毫厘失之千里。
那有木有办法?有木有?这个,可以有!纠偏OLS可以。
但立马有人跳出来说,这个真木有,并且证明了纠偏OLS不可以,晕倒!有木有其他办法?这个有~~还是木有?有人说充分纠偏OLS可以。
窃喜。
但又有人不合时宜地跳出来证明:偏差不可能被充分纠正。
咣当彻底晕倒。
到底有木有?!这个或许可能估计仿佛有吧!像时间序列一样撒一把动态项能不能纠偏?看偏差方向推断行不行?是啊,不要去纠啥偏了,只要这偏差不影响你的结论,你急个啥!例如估计量往左偏,你得到的结果是系数显著大于0,那真实系数肯定显著大于0.一般假设检验不就是检验系数不为0嘛,现在你都得到真实系数显著大于0了,这结论还不够强悍啊!所以,使用纠偏的各种方法,你还得要协整存在,不存在还纠不了偏。
哎~~存在了也纠不了偏。
但根据偏差方向来判断的方法,面板协不协整都无所谓。
看方向推断,事实上是国际一流期刊上发现的最可靠的方法。
不但可以对付面板估计偏差,还可以对付任何因素引起的偏差。
例如内生变量,要找IV多难呀,但按方向推断,一切迎刃而解。
真是“无为而无不为!”所以,俺从来不玩协整。
一般就用加强版简单OLS或者面板固定效应OLS一做,分析一下偏差方向就万事大吉了。
如果审稿人说:你的估计有偏差。
我就说:这又不影响我的结论,关我屁事。