第26卷第1期2009年2胃贵州大学学报(自然科学版)JournalofGuizhouUniversity(NaturalSciences)V01.26No.1Feb.2009文章编号1000—5269(2009)01-0021-03面板数据的主成分分析及其应用王培,王焱鑫(贵州大学理学院,贵州贵阳550025)摘要:主要翅多元统诗孛魏主成分分析方法,将各地区生产效率层次进行分类,验证聚类分析结果的同时指出影响我国工业企业生产效率的主要原因。
关键词:面板数据结构;主成分分析方法;多元统计分析牵图分类譬:0212。
l文献标识码:B面板数据是同一截面单元数据集上对不同时闯段上的重复观测值,是对闻序列和截面数据的混合数据。
因此筒板数据麟时具有时间维度和截面维度的特征,从截面维度上看,是有若干个体往某一爨寸刻形成的截嚣观测煎;从对闻维度上看是溆某一个体在同一截面上形成的时间序列。
由予面板数据的独特优点,使面板数据模型在理论及应用领域都得到了长足的发展。
然{嚣,这些研究戆出发点都是从计量建模的角度考虑的,且研究成果大多集中于计量经济学及社会学等领域。
很少有学者考虑嚣板数据在多元统计巾的分折。
放BortzeD.C和HermosiUaA.Y开创性的将多元统计的方法引入到面板数据的分析中来,并用概率连接函数和遗传算法改进了聚类分橇的算法,我恁,国外对裰关问题的研究一直停滞不前;国内学者朱建平、郑兵云分别对单指标面板数据及多指标面板数据的聚类分析进行了~定的骚究,并徽了实证分析H强引,为面板数据的多元统计分析开创了新的局面。
然而,聚类分析只是将已知数据、观测样本或变挺进行分类,两不熊告诉我船哪一个变燕是影l蠢分橱的主要因素,这就要求我们进一步进行面板数据的主成分分析。
在困内,面板数据在主成分分析中的研究尚淄空自。
本文尝试了对嚣板数据的主成分分析作了一些基础性的研究和简单的实证分析。
l面板数据的数据格式及数字特征面板数据因同时含有时闯序梦lj数据和截面数据,所以其统计特性既带有时间序列的性质又具有一定的横截露特点,是一辩较为复杂魏数据结构。
在进行下面的分析之前。
需要对面板数据的数据格式及数字特征有一个充分的认识,了解其基本的统计特性,这对我翻即将进行的主成分分析建立基础。
1.1单指标面板数据单指标面板数据的数据格式与截面数据的数据格式颇为相似。
对于面板数据X。
,i=l,2…。
N;t=l,2….r来说,如果从横截面上看,每一个变量都有观测值;从纵割面上看,每一期都有观测值,这样的面板数据可以又一张二维表掺显示。
而对于截面数据Yd,i=l,2….N;j=l,2….P而言,从横截厩上看,每一个指标都有观测傣;跌指标维度看每一个截蘧也郝有观测值,显这样的截面数据同样可以用一张二维表格照示。
比较发现,当单指标面板数据的时间维度转换为指标维度是,魏耪数据无论跌数据终槐还是统计特征都是相同的。
在主成分分析中两者的样本协方差阵S及样本相关阵冠都是相同的,因此单指标的面板数据主成分分析可以瓒鉴截面数据主成分分折结暴,这里不再赘述。
1.2多指标面板数据多措探嚣板数据懿数据结构程对于单指标覆板数据要复杂的多,不同于单指标面板数据的二维表格而言,多指标面板数据除了具有截面维度和时阙维度外,逐灌加了籀标维度,因越多指标嚣板数据实际上是一张三维表格。
在平面上的而表示如表l【1J。
设总体由Ⅳ个体组成,每个个体的特征禽有P顼捺标,时阔长度为≯,殿Xij(£),i=l,2….凡;_『=l,2….P;£=I,2….r表示第i个个体第_『个指标在时刻t的数值。
数璃瓣麓:2009一激一26作者简介:王墙(1987一),女,江苏淮安人,磷士研究生,研究方向:应餍数理统计。
万方数据�9�9 22�9�9 贵捐大学警报(鑫然秘擎版)第26卷表1测量露溺与鍪指标溺鼙煎样本ltr编号X一.鼍…墨Xl…Xr..XPXt…Xr..x》1Xti(1)…黾(1)…Xx,(1)XlI(班..Xu五…Xb(f)X11(丁)…Xb(妁…X坤(T)}Xd(1)…≮(1)…墨(1)鼍,(1)…蠢(£)…墨(£)X|l(F)…Xv(r)…疋(T),IX一(1)…X《(1)…X,(1)以l(£)…X嘻(1)…X,(£>X砒(F)…X,(?)…X。
(r)2面板数据的主成分分析瑟板数据的主成分分析相对于多元统计中的总体及样本的主成分分析要复杂很多,目前没有现成的软件可供使用,本文试图寻求一种途径将多指标面板数据的结构转换为现有软件能够处理的数据类型。
这是一种“降维”的思想,鼯当我们多研究问题的要求不是非常严格时,我们可以通过取均值的方法将多指标面板数据的三维表格降为二维表格。
其体的徽法如下,对每一个指橼在时间维度上取均值,抽象为某一个特定时刻的情形,从而消去时间维度的影响,退化成截面数据。
显然地,这种“降维”的处理方法主要存在两个缺陷。
第一,信息损失,均值只能描述平均动态,不能反映其他统计特征,如方差等;第二,这样的方法存在一种潜在的假设,即各个体在每一相同指标在时闻维度上的变化方向相同,否则会出现错误【lJ。
2.1主成分分桥的基本思想主成分分析是将多指标化为少数几个综合指标的一种统计分析方法【2J。
由于指标(变量)的个数太多,并且彼此闻存在一定戆耜关性,使褒测篡在很大程度上反映着重复信息。
而且变量较多,在高维空间中研究样本的分布规律是很难实现的。
自然她,入们希望瘸较少的综合变量采代替较多的原始变量,而这几个综合变量又足够多的反映了原始变量包含的信息并且彼此相互独立。
2。
2样本主成分豹求法及性质定理I设X(;)=(XIl‟…,X。
)7(t=1….,搀)是来自总体x的样本.D(X)=S,S的特征值为左l≥A2≥…》Ap≥0,al,a2,..。
ap力穗应懿鼙位正交向量,则第i个主成分为Zi=聪‟lX(i=I,2…。
,P){^一~性质l2=†∑Z(1)=(而….,~)=0,而z,Z—f0,当i≠J,…。
【(rt一1)A;,当i=_『,墨i≠歹时,第i个主成分的毒嚣分向量五与第歹个燕成分的得分向量Z,相互正交。
Pl性质2∑A;=P。
称等为样本生成分Zk酶贡i=1r献率;又称巫±』上生∑些为样本主成分P五….,Z。
?(m<尹)懿累积贡献率以上的定理1为我们接下来的实证分析提供了依托,性质1主要用来对样本进行分类,性质2为我们确定主成分酶个数提供依据。
在本文我们是按累积贡献率答案达到一定程度(90%)来确定主成分的数目的。
关于主成分分析的其他虑容觅参考文献〔2】。
2.3实证分析国有及规模以上的葛}国有企蠛在工业经济中占有绝对眈重,国家每年都对这类企监进行详细的调查。
本文仍将选取这类企业作为研究对象;选取全员劳动生产搴、固定资本占有率、流动资本占有率三个指标考察嚣有及规模以上非国有企业的生产效率。
本文使用的数据来自中国统计年鉴(2001年—2006年)。
具体的分析结果见熙l及表1.2001年一2006年各地区生产效率愈形图圈1分析结桑万方数据第1期王培等:面板数据的主成分分析及其应用�9�9 23�9�9 表2固定资产占有率与流动资产占有率从图l中可以看出,六年以来,我国工业企业中固定资产占有率与流动资本占有率变化较全员劳动生产率大,这与现实相符。
下面我们针对主成分分析结果表2作进一步的解释。
从相关阵的特征值可以看出,第一主成分了的贡献率已高达97.64%,前两个主成分的累计贡献率已达99.84%.因此只需一个主成分就能很好的概括统计年鉴中六年以来相关指标的数据。
由最大特征值对应的特征向量可以写出第一主成分:Z1=0.008836Xl” 一0.938207Xf一0.345963X;输出图2是第二主成分得分对第一主成分得分的散点图,从图中可以看出,按生产效率指标可以将全国31个地区大致分成三类。
表中的结果与文献〔1〕结果相似,主要表现为经济发达地区的工业企业生产效率一般较高(云南和新疆例外,尽管二者经济不发达,但生产效率却与北京等发达城市归属一类)。
然而,产生该分类结果除了文献〔1〕中提到的外部环境因素外,由表1知,主要由于各地区的资本占有率不同造成的。
当然,还有其他如各地区的禀赋差异,竞争机制等原因综合作用的结果。
图2输出图4结束语面板数据的主成分分析与聚类分析都是面板数据在多元统计分析应用中的一个方面,本文在文献的基础上对面板数据的主成分分析做了研究,相关的内容还有很多,如各类面板数据的因子分析、判别分析等。
甚至可以将面板数据与应用统计中的实验数据如退化数据等结合,得到面板数据全新的应用领域,进一步的研究有待探讨!参考文献:〔1〕郑云兵.多指标面板数据的聚类分析及其应用〔J〕.数理统计与管理,2008,27(2):265—270.〔2〕商惠璇.应用多元统计分析〔M〕.北京:背景大学出版社.2006,265—290.〔3〕ChengHsiao.AnalysisofPanelData〔M〕.Cambridge:CambridgeUniversityPI‟L镕8,1986.〔4〕朱建平,陈民肯.面板数据的聚类分析及其应用〔J〕.统计研究。
2007(4):11—14.ThePrincipalComponentAnalysisofMultivariablePaneldataanditsApplicationWANGPei,WANGYan.xin(TheScienceCollegeofGuizhouUniversing,Guiyang550025,China)Abstract:Thisarticlemainlyusedtheprincipalcomponentanalysisofthemultivariatestatisticaltoclassifytheregionalproductivitylevelsandverifytheresultsoftheclusteranalysis.Thenthemainreasonsforproductionet‟-ficicnc)rofChinawerepointedout.Keywords:paneldata;principalcomponentanalysis;multivariatestatistical万方数据面板数据的主成分分析及其应用作者:王培,王焱鑫,WANG Pei,WANG Yan-xin 作者单位:贵州大学理学院,贵州,贵阳,550025 刊名:贵州大学学报(自然科学版)英文刊名:JOURNAL OF GUIZHOU UNIVERSITY(NATURAL SCIENCE) 年,卷(期):2009,26(1) 被引用次数:0次参考文献(4条) 1.郑云兵多指标面板数据的聚类分析及其应用[期刊论文]-数理统计与管理2008(02) 2.高惠璇应用多元统计分析2006 3.Cheng Hsiao Analysis of Panel Data 1986 4.朱建平.陈民肯面板数据的聚类分析及其应用[期刊论文]-统计研究2007(04) 本文链接:/Periodical_gzdxxb20090100 6.aspx 授权使用:东南大学图书馆(wfdndx),授权号:10e6b5f2-664f-4601-b1df-9e97010e4fb3 下载时间:2011年2月27日。