横截面数据、时间序列数据、面板数据
横截面数据:(时间固定)
横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。
横截面数据是按照统计单位排列的。
因此,横截面数据不要求统计对象及其范围相同,但要求统计的时间相同。
也就是说必须是同一时间截面上的数据。
如:
时间序列数据:(横坐标为t,纵坐标为y)
在不同时间点上收集到的数据,这类数据反映某一事物、现象等随时间的变化状态或程度。
如:
面板数据:(横坐标为t,斜坐标为y,纵坐标为z)
是截面数据与时间序列数据综合起来的一种数据类型。
其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排
在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data译作“面板数据”。
举例:
如:城市名:北京、上海、重庆、天津的GDP分别为10、11、9、8(单位亿元)。
这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。
如:2000、2001、2002、2003、2004各年的北京市GDP分别为8、9、10、11、12(单位亿元)。
这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。
如:2000、2001、2002、2003、2004各年中国所有直辖市的GDP分别为:
北京市分别为8、9、10、11、12;
上海市分别为9、10、11、12、13;
天津市分别为5、6、7、8、9;
重庆市分别为7、8、9、10、11(单位亿元)。
这就是面板数据。
关于面板数据的统计分析
启动Stata11.0,Stata界面有4个组成部分,Review(在左上角)、Variables (左下角)、输出窗口(在右上角)、Command(右下角)。
首先定义变量,可以输入命令,也可以通过点击Data----Create new Variable or change variable。
特别注意,这里要定义的变量除了因素1、因素2、……因素6、盈余管理影响程度等,还要定义年份和公司名称两个变量,这两个变量的数据类型(Type)最好设置为int(整型),公司名称不要使用中文名称或者字母等,用数字代替。
定义好变量之后可以输入数据了。
数据可以直接导入(File-Import),也可以手工录入或者复制粘贴(Data-Data Edit(Browse)),手工录入数据和在excel中的操作一样。
以上面说的为例,定义变量 year、 company、 factor1、 factor2、 factor3、factor4、 factor5、 factor6、 DA。
变量company 和year分别为截面变量和时间变量。
显然,通过这两个变量我们可以非常清楚地确定panel data 的数据存储格式。
因此,在使用STATA 估计模型之前,我们必须告诉它截面变量和时间变量分别是什么,所用的命令为tsset,命令为:
tsset company year
输出窗口将输出相应结果。
由于面板数据本身兼具截面数据和时间序列二者的特性,所以对时间序列进行操作
的运算同样可以应用到面板数据身上。
这一点在处理某些数据时显得非常方便。
如,
对于上述数据,我们想产生一个新的变量Lag _factor1 ,也就是factor1 的一阶滞后,那么我们可以采用如下命令:
gen Lag_factor1=L.factor1
统计描述:
在正式进行模型的估计之前,我们必须对样本的基本分布特性有一个总体的了解。
对
于面板数据而言,我们至少要知道我们的数据中有多少个截面(个体) ,每个截面上有
多少个观察期间,整个数据结构是平行的还是非平行的。
进一步地,我们还要知道主
要变量的样本均值、标准差、最大值、最小值等情况。
这些都可以通过以下三个命令
来完成: xtdes 命令用于初步了解数据的大体分布状况,我们可以知道数据中含有多
少个截面,最大和最小的时间跨度是多少。
在某些要求使用平行面板数据的情况下,
我们可以采用该命令来诊断处理后的数据是否为平行数据。
Xtsum用来查询对组内、
组间、整体计算各个变量的基本统计量(如均值、方差等)。
为了方便,以下的举例
都只用factor1,factor2两个自变量。
xtdes DA factor1 facto2
xtsum DA factor1 facto2
模型回归。
常用的处理面板数据的模型有混合OLS模型、固定效应模型、随机效应模型。
各个模型的区别请上网查查。
下面说说各个模型的命令:
混合OLS模型输入命令:
regress DA factor1 facto2
固定效应模型输入命令:
xtreg DA factor1 factor , fe
随机效应模型输入命令:
xtreg DA factor1 factor , re
模型的选择及检验
固定效应模型要检验个体效应的显著性,这可以通过固定效应模型回归结果的最后
一行的F统计量看出,F越大越好,可以得出固定效应模型优于混合OLS模型的结论。
随机效应模型要检验随机效应是否显著,要输入命令:
xttest0
如果检验得到的p值为0,则随机效应显著,随机效应模型也优于固定效应模型。
至
于固定效应模型与随机效应模型选哪一个,则要通过hausman检验来得出。
Hausman检验
Hausman检验的原假设是固定效应模型优于随机效应模型,如果hausman检验的p值为0,则接受原假设,使用固定效应模型。
相关命令:
qui xtreg DA factor1 factor2 ,fe
est store fe
qui xtreg DA factor1 factor2 ,re
est store re
hausman fe
检验序列相关
固定效应模型使用xtserial命令,随机效应模型使用xttest1命令:
qui xtreg DA factor1 factor2 ,re
xttest1…………对于随机效应模型
xtserial DA factor1 factor2
如果没有xtserial命令即输入上面的命令后弹出no command,则输入findit xtserial.ado可以自动搜索到进行安装。
检验截面相关性及截面异方差性
由于面板数据都是针对国家或公司的,因此截面间往往会存在相关性,我们可以利用xttest2 命令来检验固定效应模型中截面间的相关性是否显著。
qui xtreg DA factor1 factor2 ,fe xttest2
检验截面异方差性输入命令
Xttest3。