当前位置：文档之家› 横截面大数据、时间序列大数据、面板大数据

横截面大数据、时间序列大数据、面板大数据

横截面数据、时间序列数据、面板数据
横截面数据：（时间固定）
横截面数据是在同一时间，不同统计单位相同统计指标组成的数据列。

横截面数据是按照统计单位排列的。

因此，横截面数据不要求统计对象及其范围相同，但要求统计的时间相同。

也就是说必须是同一时间截面上的数据。

如：
时间序列数据：(横坐标为t,纵坐标为y)
在不同时间点上收集到的数据，这类数据反映某一事物、现象等随时间的变化状态或程度。

如：
面板数据：(横坐标为t,斜坐标为y,纵坐标为z)
是截面数据与时间序列数据综合起来的一种数据类型。

其有时间序列和截面两个维度，当这类数据按两个维度排列时，是排在一个平面上，与只有一个维度的数据排
在一条线上有着明显的不同，整个表格像是一个面板,所以把panel data译作“面板数据”。

举例：
如：城市名：北京、上海、重庆、天津的GDP分别为10、11、9、8（单位亿元）。

这就是截面数据，在一个时间点处切开，看各个城市的不同就是截面数据。

如：2000、2001、2002、2003、2004各年的北京市GDP分别为8、9、10、11、12（单位亿元）。

这就是时间序列，选一个城市，看各个样本时间点的不同就是时间序列。

如：2000、2001、2002、2003、2004各年中国所有直辖市的GDP分别为：
北京市分别为8、9、10、11、12；
上海市分别为9、10、11、12、13；
天津市分别为5、6、7、8、9；
重庆市分别为7、8、9、10、11（单位亿元）。

这就是面板数据。

关于面板数据的统计分析
启动Stata11.0，Stata界面有4个组成部分，Review（在左上角）、Variables （左下角）、输出窗口（在右上角）、Command（右下角）。

首先定义变量，可以输入命令，也可以通过点击Data----Create new Variable or change variable。

特别注意，这里要定义的变量除了因素1、因素2、……因素6、盈余管理影响程度等，还要定义年份和公司名称两个变量，这两个变量的数据类型（Type）最好设置为int（整型），公司名称不要使用中文名称或者字母等，用数字代替。

定义好变量之后可以输入数据了。

数据可以直接导入（File-Import），也可以手工录入或者复制粘贴（Data-Data Edit(Browse)），手工录入数据和在excel中的操作一样。

以上面说的为例，定义变量 year、 company、 factor1、 factor2、 factor3、factor4、 factor5、 factor6、 DA。

变量company 和year分别为截面变量和时间变量。

显然，通过这两个变量我们可以非常清楚地确定panel data 的数据存储格式。

因此，在使用STATA 估计模型之前，我们必须告诉它截面变量和时间变量分别是什么，所用的命令为tsset，命令为：
tsset company year
输出窗口将输出相应结果。

由于面板数据本身兼具截面数据和时间序列二者的特性，所以对时间序列进行操作
的运算同样可以应用到面板数据身上。

这一点在处理某些数据时显得非常方便。

如，
对于上述数据，我们想产生一个新的变量Lag _factor1 ，也就是factor1 的一阶滞后，那么我们可以采用如下命令：
gen Lag_factor1=L.factor1
统计描述：
在正式进行模型的估计之前，我们必须对样本的基本分布特性有一个总体的了解。

对
于面板数据而言，我们至少要知道我们的数据中有多少个截面(个体) ，每个截面上有
多少个观察期间，整个数据结构是平行的还是非平行的。

进一步地，我们还要知道主
要变量的样本均值、标准差、最大值、最小值等情况。

这些都可以通过以下三个命令
来完成： xtdes 命令用于初步了解数据的大体分布状况，我们可以知道数据中含有多
少个截面，最大和最小的时间跨度是多少。

在某些要求使用平行面板数据的情况下，
我们可以采用该命令来诊断处理后的数据是否为平行数据。

Xtsum用来查询对组内、
组间、整体计算各个变量的基本统计量（如均值、方差等）。

为了方便，以下的举例
都只用factor1，factor2两个自变量。

xtdes DA factor1 facto2
xtsum DA factor1 facto2
模型回归。

常用的处理面板数据的模型有混合OLS模型、固定效应模型、随机效应模型。

各个模型的区别请上网查查。

下面说说各个模型的命令：
混合OLS模型输入命令：
regress DA factor1 facto2
固定效应模型输入命令：
xtreg DA factor1 factor , fe
随机效应模型输入命令：
xtreg DA factor1 factor , re
模型的选择及检验
固定效应模型要检验个体效应的显著性，这可以通过固定效应模型回归结果的最后
一行的F统计量看出，F越大越好，可以得出固定效应模型优于混合OLS模型的结论。

随机效应模型要检验随机效应是否显著，要输入命令：
xttest0
如果检验得到的p值为0，则随机效应显著，随机效应模型也优于固定效应模型。

至
于固定效应模型与随机效应模型选哪一个，则要通过hausman检验来得出。

Hausman检验
Hausman检验的原假设是固定效应模型优于随机效应模型，如果hausman检验的p值为0，则接受原假设，使用固定效应模型。

相关命令：
qui xtreg DA factor1 factor2 ,fe
est store fe
qui xtreg DA factor1 factor2 ,re
est store re
hausman fe
检验序列相关
固定效应模型使用xtserial命令，随机效应模型使用xttest1命令:
qui xtreg DA factor1 factor2 ,re
xttest1…………对于随机效应模型
xtserial DA factor1 factor2
如果没有xtserial命令即输入上面的命令后弹出no command，则输入findit xtserial.ado可以自动搜索到进行安装。

检验截面相关性及截面异方差性
由于面板数据都是针对国家或公司的，因此截面间往往会存在相关性，我们可以利用xttest2 命令来检验固定效应模型中截面间的相关性是否显著。

qui xtreg DA factor1 factor2 ,fe xttest2
检验截面异方差性输入命令
Xttest3。

e商务文档

横截面大数据、时间序列大数据、面板大数据

相关文档推荐：