当前位置:文档之家› 面板数据的因子分析

面板数据的因子分析

第26卷第6期贵州大学学报(自然科学版)Vol.26No.6 2009年 12月Journal of Guizhou University(Natural Sciences)Dec.2009文章编号 1000-5269(2009)06-0010-04面板数据的因子分析王 培3,王焱鑫,崔 巍(贵州大学理学院,贵州贵阳550025)摘 要:主要应用多元数理统计中的因子分析方法,对多指标面板数据进行了分析,并应用综合评分法对各地区的工业企业生产效率进行了分类。

结果表明,应用因子分析的结果与现实基本相符。

关键词:面板数据;因子分析中图分类号:O212 文献标识码:A 因子分析是主成分分析的推广和发展,也是多元统计分析中降维的一种方法。

因子分析是研究相关阵或协方差阵的内部依赖关系,它将多个变量综合为少数几个因子,以再现原始变量与因子之间的相关关系[1]。

面板数据是同一截面单元数据集上对不同时间段上的重复观测值,是时间序列和截面数据的混合数据。

面板数据的独特优点,使之在理论及应用领域都得到了长足的发展。

然而,很少有学者考虑面板数据在多元统计中的分析。

从Bonze D.C和Her2 mosilla A.Y开创性的将多元统计的方法引入到面板数据的分析中来,并用概率连接函数和遗传算法改进了聚类分析的算法,此后,国外对相关问题的研究一直停滞不前;国内学者朱建平、郑兵云分别对单指标面板数据及多指标面板数据的聚类分析进行了一定的研究,并做了实证分析[2,3]。

本文将因子分析与面板数据结合,利用实例解释面板数据的因子分析的结果。

1 因子分析的基本原理1.1 正交因子模型设X=(X1,…,X p)′是观测的随机向量, E(X)=μ,D(X)=∑,且设F=(F1,…,F m)′, (m<p)是不可观测的随机向量,E(F)=0, D(F)=I m.又设ε=(ε1,…,εp)′与F互不相关,且E(ε)=0,D(ε)=d iag(σ21,…,σ2p)≡D假定随机向量X满足以下模型:X1-μ=a11F1+a12F2+…+a1m F m+ε1X2-μ=a21F1+a22F2+…+a2m F m+ε2… … … … … … …X p-μ=a p1F1+a p2F2+…+a p m F m+εp(1)以上模型(1)称为正交因子模型,用矩阵表示如下 X=μ+A F+ε(2)其中F1,…,F m称为X的公共因子;ε1,…,εp 称为X的特殊因子。

公共因子一般对X的每一个分量Xi都有作用,而εi只对Xi起作用[1,4]。

1.2 模型的参数主成分估计方法1)由样本数据阵X计算样本均值X_、样本协差阵S、样本相关阵R.2)求相关阵R的特征值和标准化特征向量。

记λ1≥λ2≥…≥λp≥0为R的特征值,其相应的单位正交特征向量为l1,l2,…l p.3)求因子的载荷矩阵AⅠ确定公因子的个数m(如m=2).Ⅱ令ai=λi l i(i=1,2,…m),则A=(a1,…,am)为因子的载荷矩阵。

4)估计特殊因子方差σi^和共同度h2i,其中h2i =∑mj=1a2ij(i=1,2,…p).5)对公共因子做解释。

以上是因子分析的基本原理,关于因子分析的收稿日期:2009-08-25基金项目:贵州省自然科学基金项目(700121);贵州省教育厅基金项目(2008043)作者简介:王 培(1987-),女,江苏淮安人,硕士研究生,研究方向:应用数理统计,Email:pei w ang1129@. 3通讯作者:王 培,Email:pei w ang1129@.其他内容请参阅参考文献[1][4].2 面板数据的因子分析2.1 面板数据的数据结构多指标面板数据的数据结构相对于单指标面板数据要复杂的多,不同于单指标面板数据的二维表格而言,多指标面板数据除了具有截面维度和时间维度外,还增加了指标维度,因此多指标面板数据实际上是一张三维表格。

在平面上的表示如表1[3]。

设总体由N个体组成,每个个体的特征含有p项指标,时间长度为T,则X ij(t),i=1,2,…n;j =1,2,…p;t=1,2,…T表示第i个个体第j个指标在时刻t的数值。

表1 多指标面板数据的数据结构 样本编号测量时间与各指标测量值1…t…TX1…X j…X p…X1…X j…X p…X1…X j…X p1X11(1)…X1j(1)…X1p(1)…X11(t)…X1j(t)…X1p(t)…X11(T)…X1j(T)…X1p(T)…… … … … … ……… … … … ……… … … … …i X i1(1)…X ij(1)…X ip(1)…X i1(t)…X ij(t)…X ip(t)…X i1(T)…X ij(T)…X ip(T)……… … … … ……… … … … ……… … … … …n X n1(1)…X nj(1)…X np(1)…X n1(t)…X nj(t)…X np(t)…X n1(T)…X nj(T)…X np(T) 面板数据的因子分析相对于多元统计中的总体及样本的因子分析要复杂很多,目前没有现成的软件可供使用,本文试图寻求一种途径将多指标面板数据的结构转换为现有软件能够处理的数据类型。

这是一种“降维”的思想,即当我们多研究问题的要求不是非常严格时,我们可以通过取均值的方法将多指标面板数据的三维表格降为二维表格。

具体的做法如下,对每一个指标在时间维度上取均值,抽象为某一个特定时刻的情形,从而消去时间维度的影响,退化成截面数据。

显然地,这种“降维”的处理方法主要存在两个缺陷。

第一,信息损失,均值只能描述平均动态,不能反映其他统计特征,如方差等;第二,这样的方法存在一种潜在的假设,即各个体在每一相同指标在时间维度上的变化方向相同,否则会出现错误[3]。

本文将利用Evie ws 软件对以上分析进行验证。

2.2 实例应用国有及规模以上的非国有企业在工业经济中占有绝对比重,国家每年都对这类企业进行详细的调查。

本文仍将选取这类企业作为研究对象;选取全员劳动生产率、固定资本占有率、流动资本占有率三个指标考察国有及规模以上非国有企业的生产效率。

本文使用的数据来自中国统计年鉴(2001年—2006年)。

通过对2000至2005年31个地区的三个指标的面板数据观测,能够看出这六年来工业全员劳动生产率不断提高,但固定资本及流动资本的占有率却呈降低趋势。

文献[3]用聚类分析的方法对各地区工业生产效率的层次及类型进行了粗略的判别。

本文采用因子分析的方法给出各地区工业生产效率的综合得分,从而指出造成文献[3]中分类结果的根本原因。

1)应用K MO和球形Bartlett检验数据因子分析适应性。

结果如表2所示。

由检验结果可以看出,应拒绝各变量独立的假设,因子分析的方法值得尝试。

2)应用碎石图判断各因子的特征根大小及因子的重要程度。

由图1可以很明显的看出结果。

表2 K MO和球形Bartlett检验结果相关矩阵 全员劳动生产率固定资本占有率流动资本占有率相关 全员劳动生产率1.000-.179-.202 固定资本占有率-.1791.000.906 流动资本占有率-.202.9061.000K MO和Bartlett的检验取样足够度的Kaiser-M eyer-OLkin度量.520 Bartlett的球形度检验 近似卡方49.653 df3 Sig.000图1 各因子的碎石图·11·第6期王 培等:面板数据的因子分析 3)计算因子载荷矩阵及因子空间载荷图,如表3及图2所示。

表3 因子载荷矩阵成份矩阵a成份123全员劳动生产率-.373.928.006固定资本占有率.957.194-.216流动资本占有率.962.168.217提取方法:主成分分析法。

(a )已提取了3个成份。

旋转成份矩阵a成份123全员劳动生产率-.096.995.003固定资本占有率.974-.087-.209流动资本占有率.969.110.223提取方法:主成分分析法。

旋转法:具有Kaiser标准化的正交旋转法。

a .旋转在此次迭代后收敛。

图2 因子空间载荷图 4)因子得分及因子表达式,如表4所示。

表4 因子得分矩阵成份得分系数矩阵成份123全员劳动生产率.1021.015.054固定资本占有率.536.044-2.302流动资本占有率.504.0562.321提取方法:主成分分析法。

旋转法:具有Kaiser 标准化的正交旋转法。

构成得分。

成份得分协方差矩阵成份12311.000.000.0002.0001.000.0003.000.0001.000提取方法:主成分分析法。

旋转法:具有Kaiser 标准化的正交旋转法。

构成得分。

利用表4中的因子得分系数矩阵可以写出各公因子表达式如下:F 1=0.102x 1+0.536x 2+0.504x 3F 2=1.015x 1+0.044x 2+0.055x 3F 3=0.054x 1-2.302x 2+2.321x 35)结合表3、4可以看出以上三个因子分别从不同方面反映了我国工业企业生产效率水平。

单独使用某一个指标不能对工业企业的生产效率做出正确的评价,这里我们按各公因子的对应方差贡献率为权重计算综合评价统计量:F =λ1λ1+λ2+λ3F 1+λ2λ1+λ2+λ3F 2+λ3λ1+λ2+λ3F3(3)6)利用公式对我国31个地区的工业企业生产效率进行综合评分排名,并按评分结果进行分类,见表5.表5 各地区工业生产效率分类第一类第二类第三类地区排名地区排名地区排名山东1安徽11甘肃22江苏2北京12内蒙古23广东3江西13云南24浙江4吉林14新疆25福建5广西15山西26河北6重庆16贵州27河南7辽宁17陕西28天津8湖北18宁夏29上海9黑龙江19青海30湖南10海南20西藏31四川21 从分类结果可以看出,首先,工业企业的生产效率具有较强的地区差异。

经济较发达地区生产效率一般较高,这是因为经济发达地区一般拥有丰富及高水平的人力物力,在第一类中我们可以看出山东、江苏、、浙江在这方面的优势。

其次经济开放程度对工业生产效率也有一定的正面影响,经济开放程度越高,特别是外资的流入,一定程度上提高了经济效益及生产效率。

在分类中可以看出广东、上海、天津等地合理的利用开放带来的优势,提高了生产效率。

最后,经济欠发达地区也有一些例外,如云南、新疆、贵州等地的工业企业生产效率表现优于山西、陕西,这是因为云南的烟草加工、新疆的食品加工、贵州的军工企业在我们选取的各指标上一直表现良好,并且在各地的整个企业中所占份额较大。

·21·贵州大学学报(自然科学版)第26卷3 结论与展望从以上的分析我们看出,由于我们选取的三个指标:全员劳动生产率、固定资本占有率及流动资本占有率在因子中的得分不同,为我们进行分类提供了依据。

相关主题