第十讲经典面板数据模型一、面板数据(panel data)一维数据:时间序列数据(cross section data):变量在时间维度上的数据截面数据(time series data):变量在截面空间维度上的数据)。
二维数据:面板数据(同时在时间和截面空间上取得的,也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。
面板数据=截面数据+时间序列数据。
面板数据用双下标变量表示。
例如y i t, i = 1, 2, …, N; t = 1, 2, …, TN表示面板数据中含有N个个体。
T表示时间序列的最大长度。
若固定t不变,y i ., ( i = 1, 2, …, N)是随机变量在横截面上的N个数据;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。
平衡面板数据(balanced panel data)。
非平衡面板数据(unbalanced panel data)。
例1998-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1。
人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。
表1.中国部分省级地区的居民数据(不变价格,元)二、面板数据模型及其作用1.经典面板数据模型建立在古典假定基础上的线性面板数据模型.2.非经典面板数据模型(1)非平稳时间序列问题的面板数据模型(面板数据协整模型)(2)非线性面板数据模型(如面板数据logit模型, 面板数据计数模型模型)(3)其他模型(如面板数据分位数回归模型)3.面板数据模型作用(1)描述个体行为差异。
(2)Panel Data能够提供更多信息、更多变化性、更少共线性、更多自由度和更高效率。
反观时间序列经常受多重共线性的困扰。
(3)Panel Data能够更好地研究动态调节,横截面分布看上去相对稳定但却隐藏了许多变化,Panel Data由于包含较长时间,能够弄清诸如经济政策变化对经济状况的影响等问题。
(4)Panel Data能更好地识别和度量纯时间序列和纯横截面数据所不能发现的影响因素。
(5)相对于纯横截面和纯时间序列数据而言,Panel Data能够构造和检验更复杂的行为模型。
(6)通常,Panel Data可以收集到更准确的微观单位(个人、企业、家庭)的情况。
由此得到的总体数据可以消去测量误差的影响。
尽管Panel Data研究的理论和应用发展很快,但目前仍然存在一些问题需要解决。
例如,变量设计和收集数据困难;存在测量误差;存在选择性困难;时间序列较短;等等。
4.目前有关Panel Data的学术专著主要有:1.Analysis of panel data / Cheng Hsiao. 1986.2.Econometric analysis of panel data / Badi H.Baltagi. 1995.3.The Econometrics of panel data : a handbook of the theory with applications / Matyas & Sevestre. 1996.应用程序软件:stata、EViews。
三、经典面板数据模型的参数估计不变系数模型:y it=α+βx it+u it变截距模型:y it=αi+βx it+u it(时间变截距模型?双变模型?)变系数模型:y it=αi+βi x it+u it(时间变截距模型?双变模型?)(一)不变系数模型(混合估计模型)如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,即各回归系数不随个体或截面的变化而变化,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数,建立不变系数模型(混合估计模型)。
y it = α+βx it +u it, i = 1, 2, …, N; t = 1, 2, …, Tα和β不随i,t变化。
称模型为混合估计模型。
数据形式变为:例以表1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:输出结果1Dependent Variable: Y?Method: Pooled Least SquaresIncluded observations: 5Number of cross-sections used: 15Total panel (balanced) observations: 75Variable Coefficient Std. Error t-Statistic Prob.C 73.81960 84.48351 0.873775 0.3851X? 0.761465 0.011710 65.02895 0.0000 R-squared 0.983030 Mean dependent var 5291.7730.982798 S.D. dependent var 1745.640 AdjustedR-squaredS.E. of regression 228.9535 Sum squared resid 3826637. F-statistic 4228.764 Durbin-Watson stat 0.864366 Prob(F-statistic) 0.000000ˆ73.820.76it it yx =+ 15个省级地区的人均支出平均约占收入的76%,自发消费为73.82。
(二)变截距模型(variable intercept model )即自变量对因变量的效应(斜率)随个体或时间的变化而变化,而截距项却在不同的个体或时间上有所不同,此时可以建立变截距模型。
按照样本数据性质的不同,具体分为固定效应模型和随机效应模型。
1.固定效应模型(fixed effects regression model ) 在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型。
3种类型:1.个体固定效应模型2.时刻固定效应模型3.时刻个体固定效应模型下面只以个体固定效应模型为例进行介绍。
个体固定效应模型就是对于不同的个体有不同截距的模型。
如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型。
012it it i it y x z u βββ=+++其中,Z i 是不随时间变化的潜在变量,不可观察,但与x 相联系。
上式可以变化为:012021()it it i it i it it i it ity x z u z x u x u ββββββαβ=+++=+++=++由于i α与每一个个体中一个确实存在(但不可观测)的变量有关,所以称为个体固定效应模型。
等价于每一个个体有一个方程:y 1t =α1 +βx 1t +u 1t , i = 1(对于第1个个体,或时间序列),y 2t =α2 +βx 2t +u 2 t , i = 2(对于第2个个体,或时间序列),…y N t =αN +βx N t +u N t , i = N (对于第N 个个体,或时间序列),t = 1, 2, …, T其中εit , i = 1, 2, …, N ; t = 1, 2, …, T ,表示随机误差项。
y it , x it , i = 1, 2, …,N ; t = 1, 2, …, T 分别表示被解释变量和解释变量。
引入虚拟变量W i =⎩⎨⎧=其他个个体如果属于第。
,,0,...,2,1,1N i i写为:y it = β1 x it +α1 W1 +α2W2 + … +αN W N+u it,(t = 1, 2, …, T)如果满足如下4个假定条件,上述面板数据模型可以用OLS方法估计:(1)E(u it|x i1, x i2, …, x iT,αi) = 0。
以x i1, x i2, …, x iT,αi为条件的u it的期望等于零。
(2)x it,和u it不相关。
(3)不同解释变量之间不存在完全共线性。
(4)Cov(u it,u is|x it,x is, αi) = 0, t ≠s。
在固定效应模型中随机误差项u it在时间上是非自相关的。
数据结构:对模型进行OLS估计,全部参数估计量都是无偏的和一致的。
模型的自由度是N T–N–K (k是解释变量个数)例:表1的固定效应模型EViews估计结果:输出结果2Dependent Variable: Y?Method: Pooled Least SquaresDate: 02/14/06 Time: 17:18Sample: 1998 2002Included observations: 5Number of cross-sections used: 15R-squared0.993390 Mean dependent var 5291.773 Adjusted R-squared 0.991709 S.D. dependent var 1745.640t y1ˆ= γˆ安徽+ˆβ x 1t = 456.2 + 0.704 x 1tt y2ˆ= γˆ北京+ˆβx 2t = 1091.3 + 0.704 x 2t ……t y 15ˆ= γˆ浙江+ˆβx 15t = 566.4 + 0.704 x 15t北京、上海、浙江是消费函数截距(自发消费)最大的3个地区。
相对于既定的面板数据样本来说,是否有必要建立个体固定效应模型可以通过约束条件的F检验完成。
…………………………………………………………约束条件的F检验在同一样本数据下,记无约束样本回归方程为ˆY Xβe+记无约束样本回归方程的残差平方和为RSS无记有约束样本回归方程为ˆ=Y **Xβe + 有约束样本回归方程残差平方和为RSS 约,可以证明RSS 约≥RSS 无。
这意味着,通常情况下,对模型施加约束条件会降低模型的解释能力。
但是,如果约束条件为真,则受约束回归模型与无约束回归模型具有相同的解释能力,RSS 约 与 RSS 无的差异变小。
于是我们可以构造如下统计量:(RSS -RSS )(df -df )F RSS df =无无约约无无其中,df 约、df 无分别为受约束回归模型与无约束回归模型的残差自由度(即样本容量减去待估计参数个数)。
根据数理统计学知识,当约束条件为真时,~(,)F F df-df df无无约可以利用这个统计量检验约束条件是否成立。
不变系数模型和变截距模型哪一个是受约束模型?……………………………………………………………………………………………………………原假设H0:不同个体的模型截距项相同(建立混合估计模型)。