2800年3月第27卷第2期数理统计与管
理
APPliationofStatistisandManagmntMa2800
V627No2
文章编号:002一566(2500)02刁265刁6
多指标面板数据的聚类分析及其应用
郑兵云`,
(1南京航空航天大学经济与管理学院南京21001;62安徽财经大学安徽蚌埠233041)摘要多指标面板数据的多元统计分析在国内研究中尚属空白本文分析了面板数据的数据格式
和数字特征根据聚类分析原理重新构造了多指标面板数据的距离函数和离差平方和函数在此
基础上说明了多指标面板数据的聚类分析过程最后对我国各地区工业企业生产效率进行了聚类实证分析显示了良好的效果关橄词多指标;面板数据;聚类分析;生产效率
中图分类号:C
s
lZ文献标识码
A
TheClusteringAnalysisofMultivariablePanelDataandItsAPPlieatio
n
ZHENGBi
n片yun
(1ColegeofcEonomiesandManagementNanjingUniversityofAeronauticsandAstronauties
Nanjing210016China:2AnhuiUniversiytofFinaneeandEeonomiesBengbuAnhui233041Chi
na
)
Abstract:It15wellknownthatifnaneedatatendtohevaytialedInthisP即eronabasiso
fan
exPonentialregresionmodelfor109spacingsweProPoseanextremequantileestimatorofhevay
tialed
distributionandatt山nanestimationofval-ueatriskAsanemPiriealexampleweeonsideravalu-eatriskealeulationsforChinastockindexKeywords:multivariable;paneldata;elusteringanalysis:Produetiveeifeiene
y
0引言
面板数据同时包含截面数据和时间序列具有空间维度和时间维度的特征面板数据具有优良的特性在研究中日益受到重视近几年在理论研究和应用研究上都得到了广泛而深入的发展相关研究也表明利用面板数据建模取得了良好的效果然而现有的理论和应用主
要是从计量建模的角度研究l[]很少学者考虑面板数据在多元统计中的分析BonzeDC和eHmr
osil
a
.AY开创性地将多元统计方法引入到面板数据的分析中来并用概率连接函数和
遗
传算法改进了聚类分析的算法zI]在此之后国外对此相关的研究也还是比较少的国内学者朱建平曾对单指标面板数据的聚类分析进行了一定的研究并做了实证分析s[]单指标面板
数据的聚类分析在理论研究上是问题的一个简化其聚类算法和聚类过程类似于截面数据的聚类分析相对比较简单数据易于处理显然自然现象和社会现象是复杂的单指标包含的信息量太少不能充分反映现象的特征因此单指标面板数据的聚类分析在实际应用中受
收稿B期:2007年7月26日;收到修改稿日期2007年1
1月2
6日
DOI:10.13860/j.cnki.sltj.2008.02.014266数理统计与管理第27卷第2期2005年3月
到很大限制多指标可以充分反映面板数据的优良特性但因其复杂性在很大程度上阻碍了
面板数据在多元统计分析中的的相关研究在国内多指标面板数据在多元统计分析中的研
究可以说是一个空白本文尝试对多指标面板数据的聚类分析作一些基础性的研究和简单的实证分析
1面板
数据的数据格式和数字特征
面板数据是一种复杂的数据结构形式在进行深入分析之前需要对面板数据作
预处理
充分认识面板数据的数据格式了解其统计描述特征初步获得面板数据的一些有用信息这对下一步进行聚类分析是一个基础
11单指标面板数据
单指标面板数据的数据格式可以用一个二维表来表示设总体共由N个样品每个样
品
的特征用一个指标X来表示时间长度为T则凡(t)表示第坛个样品在亡时间的指标值而
截面数据的数据格式也是用一个二维表来表示的设总体共由N个样品每个样品的特征用p个指标来表示则与表示第乞个样品第j个指标的数值经比较易发现将单指标面板数
据的时间维度转换为截面数据的指标维度表示两种数据的统计描述特征相似其平均值方
差和协方差等统计量的函数表现形式都是相同的在聚类分析中二者关于样品距离的算法聚类过程都是相同的因此单指标面板数据的聚类分析可以借鉴截面数据的聚类分析其
聚
类结果和聚类谱系图可以直接运行相关软件获得可见单指标面板数据处理比较容易
12多指标面板数
据
多指标面板数据的结构要复杂一些不同于上述的数据可以由一个简单的二维表来表示严格上应该用三维表来表示在平面上我们可以将其转换为一个二级二维表的形式如表1研究总体共有N个每个样品的特征用p个指标表示(Xl儿…凡…凡)时间长度为
T则凡只t)表示第葱个样品第J个指标在t时间的
数值
农1单指标面板数据时间
样本Xl…凡…凡12Xll(1)X2:(1)…凡X:,(1)X::(亡)…Xij(t)…Xip(尤)卜二义2,(1)…XZp(1)X21(亡)…X2,(亡)XZp(t)Xl一ùùX,(l)…X`J(1)…从p(l)卜二}X`:(t)…X`,(t)…X`p(t)N】X、l(1)…X、,(1)…X、p(l)卜二}X、l(亡)…X、,(亡)…X、p(亡)Txl…凡…
凡
Xll(T)…Xl,(T)…X:p(T)
瓜l(T)…xZJ(刀…XZp(T)
X`,(T)…凡j(T)…X`p(T)
X、l(T)…X、,(T)…X、p
(T)
下面给出多指标面板数据的几个统计量其中乞〔【1川;Jc【1才t〔{1刘在聚类分析中需要用到这几个统计量1第J个指标在t时间的均值
(1)丸N艺阁l一N凡(亡)=郑兵云:多指标面板数据的聚类分析及其应用2第j个指标的均值
TN凡一会命艺艺介t()
亡=1云=
1
3第夕个指标在t时间的方
差
VAR凡`
!
,一
击菩`
X汀
“,一
凡(`,,
’
(3)
4第j个指标的
方差
(4)
一凡
一心
N艺倒
VAR
x,
1l
TN一
1
认识了多指标面板数据的数据格式定义了几个基本统计量之后我们就可以根据实际研究的需要进行多指标面板数据的计量建模分析和多元统计分析本文只讨论其聚类分
析
2多指标面板数据的聚类分析
多指标面板数据的聚类分析比较复杂目前没有相应的分析软件可供使用这也是面板数据在多元统计方面研究很少的一个重要原因当对间题的要求不是太严格时可以采用一
种“退化”的思路对每一指标在时间维度上取均值抽象为某一特定时
间的情形从而消去
时间维度退化为截面数据当然这种“退化”的处理方法至少存在两个缺陷:一是信息损失间题均值只能表现事物平均变动情况不能反映其他分布特征如离散程度等;二是存在
一个隐形假设即各样品的每一相同指标在时间维度上同方向变化否则会得出不准确或错
误的结论
21聚类分析的墓本思想
根据已知数据观察各样品或变量之间亲疏关系的相似程度依照某种准则把一些相似程度较大的样品或变量聚合为一类把另外一些相似程度较大的样品或变量聚合为另外
一
类……使同一类内差别较小而类与类之间的差别较大最终将观察样品或变量分为若干类14]聚类分析需要处理两个核心问题:用什么统计量来表征样品之间的相似程度;采用何种具
体系统聚类方法或者说采用何种准则确定类与类之间的相似程度
.22相似性指标
从一组复杂数据产生一个相当简单的类结构必然要求进行相似性”的度量当对样
品进行聚类时靠近”可以由某种距离来刻画总体中第:样品与第k样品之间的距离记为
公;心、应满足的以下几个
条件
:
(l)公、全0当且仅当恙二X、时成、二;0(2)d,*=d*
r
对一切凡Xk
;
(3)d,*
三琳
,
+
d幻对一
切
XX;
凡
常见的距离函数由绝对距离(Block距离)欧氏距离(Euelideandi
stanee)明考斯基距离
(Minkowisk)切比雪夫距离(Cbe妙hcve)马氏距离(Mhaal
anobis)等
本文选择欧式
距离描
述样品之间的相似程度当然加入时间维度后的多指标面板数据与截面数据的欧式距离函