当前位置：文档之家› 面板数据的有序聚类分析及其应用_以全球气候变化聚类分析为例_杨毅

面板数据的有序聚类分析及其应用_以全球气候变化聚类分析为例_杨毅

Ｎ
Ｘ＊＝

＊Ｎｔ１

＊Ｎｔ２

＊ … ｘＮｘｘＴ燀燅＊＊）是标准化后的数据，）其中ｘｔｘｔｉ（ｉ（珚））ｘｔｔ－ｘ（ｉ（。＝（）ｖａｒｘｔ槡）样本相关系数矩阵［（２Ｒ］Ｔ× Ｔ：
Ｒ＝
ｒｒ１１１２熿ｒｒ２１２２
ｍ
５％ ≥８Ｔ前ｍ个主成分的线性表达式分别为： …，Ｙｉ＝ μ ′ Ｘ＊，ｉ＝１，２，ｍｉ对提取的ｍ个主成分，计算综合得分后再进行可在概括各时期变化的同时，简化有序聚有序聚类，类的求解步骤，但对于许多滞后变量而言，本期值与前期值往往高度相关。这类变量在多数情况下只需要提取一个主成分，其方差贡献率极高，这一主成分得分可直接进入有序聚类分析。
第２７卷第７期Ｖｏｌ．２７Ｎｏ．７
统计与信息论坛Ｓｔａｔｉｓｔｉｃｓ＆ＩｎｆｏｒｍａｔｉｏｎＦｏｒｕｍ
２０１２年７月，Ｊｕｌ．２０１２
【统计理论与方法】
面板数据的有序聚类分析及其应用
（）单指标面板数据ｘ）的相关系数：４ｔｉ（ｃｏｖｔｔｘ（１，２）ｃｏｒｒｔｔ＝ｘ（１，２）ｖａｒｔｖａｒｔｘ（１）ｘ（２）槡提取面板数据主成分的过程和方法２．（）标准化后的矩阵：１
＊ｘ１ｔ１熿＊ｘ２ｔ１＊ｘ１ｔ２＊ｘ２ｔ２＊ … ｘ１Ｔ燄＊ … ｘ２Ｔ
３］。肖泽磊等存在隐形假设和明显的信息损失［据，
一、引言
）面板数据（作为截面数据与时间序ｄａｔａａｎｅｌｐ，列数据的组合数据集同时体现了空间维度和时间维度的数字特征，克服了时间序列数据多重共线性、数据量不足等困扰，逐渐发展成为现代计量经济学领域统计分析与统计研究的重要方法和工具。运用多元统计方法对面板数据进行聚类分析是统计学的新兴研究领域。近年来国内外学者在这一领域进行了积极探索。ＢｏｎｚｏＤＣ和ＨｅｒｍｏｓｉｌｌａＡＹ用概率连接函数代替传统距离函数来定义聚类标准，将聚类过程作为优化问题，应用随机启发式技术优化目标函数，采用自适应模拟退火方法对面板数据进行聚类分析
二、多元统计分析方法对面板数据的加工处理
是多个样本在某原始面板数据从横截面上看，一时刻构成的截面观测值；从纵剖面上看，是若干个样本的时间序列数据。为便于分析，对原始面板数据进行预处理，转化为一个以时间维度为变量，样本次序有序排列的二维表。设总体共由Ｎ个样本，每个样本的特征用单指标Ｘ来表示，时间维度为Ｔ，即Ｔ）个时间指标，对于不同时点１≤ｔ表ｔｘｔ１＜２ ≤ Ｔ，ｉ（示第ｉ个样本在第ｔ个时期的指标值，其中ｉ ∈ ［１，，，则原始面板数据变换后的矩阵为：Ｎ］ｔ∈ ［１，Ｔ］ … ｘｘｘ１ｔ１ｔ１Ｔ１２熿燄 … ｘｘｘ２ｔ２ｔ２Ｔ１２Ｘ＝ … ｘＮＴｘＮｘＮｔｔ１２燀燅分析发现，以各时间维度为变量的截面数据中变量间相关性较强，可以运用主成分分析方法进行通过主成分分析方法提取的时间主成分，降维处理。其解释力远大于所代表的每个时期的解释力，并且考虑了各样本在不同时期的变化情况，弥补了直接用“ 距离 ”指标进行聚类分析所损失的时间序列局聚类效果好于传统做法。具体思路是：部变化特征，首先使用主成分分析方法提取各时间维度变量的主成分，再进行有序样本的聚类分析。面板数据的统计量（其中变量和指标与上述１．）面板定义相同（）单指标面板数据的均值：１
ｉ＝１
∑λ
ｉ
珚（）＝１ｘ）ｘｔｔｉ（ ∑ Ｎｉ＝１（）单指标面板数据的方差：２
）＝ｖａｒｔｘ（１２珚（［））］ｘｔｔ－ｘｉ（ ∑ Ｎ－１ｉ＝１（）单指标面板数据ｘ）的协方差：３ｔｉ（
ＮＮ
三、面板数据的有序聚类分析
系统聚类和Ｋ均值聚类方法都假设样本的地没有考虑样品的次序。有序样本的位是彼此独立的，
。朱建平、陈民恳在国内较早提出刻画
［２］
面板数据的相似指标，运用系统聚类对单指标面板数据进行分析研究。郑兵云对多指标面板数据进行了系统聚类分析，但在时间维度上取均值，忽略了面板数据的动态特征，将面板数据“ 退化” 为截面数
收稿日期：２０１２－０３－１４

… ｒ１Ｔ燄 … ｒ２Ｔ
ｒＴ１ｒＴ２燀
其中相关系数ｒｍｎ
… ｒＴＴ燅＊ｔ，ｃｏｖｘ（１ｔ２），ｍ，ｎ＝＝＊ｔ）＊ｔ）ｖａｒａｒｘ（１ｖｘ（２槡
…，１，２，Ｔ。（）分别计算相关系数矩阵［３Ｒ］Ｔ× Ｔ的特征值、特征向量、贡献率、累计贡献率和主成分的线性表达式。令｜求解得λ 由于Ｒ是正定的，其Ｒ－Ｉ｜＝０， λ ｉ，特征根都是非负实数，将它们依大小顺序排列λ １ ≥ … ，，其对应的特征向量记为０ λ ２ ≥ Ｔ ≥ １ μ ２， ≥λ μ …，对于相关系数矩阵提取ｍ个主成分（ｍ＜Ｔ， μ ，通常使得前ｍ个主成分的累积方差贡献率达到Ｔ）即：８５％以上，
ｊ
四、实证分析
７］。为了研究气候变化的核心问题是气温问题［
气候变化趋势和特点，建立代表全球气温变化的时间序列是一项非常重要的基础性工作。此项工作对于进一步定量研究气候变化的经济影响、实施气候保护政策和促进能源经济低碳发展等战略问题具有重大意义。气温资料属于有序样本面板数据，地理上分散于各个气象观测站点，其聚类分析可以采用主成分分析与有序聚类算法相结合的方法进行分析和编程处理。（一）数据来源与加工处理全球气温资料来源于美国国家海洋和大气管理的全球５局（ＮＯＡＡ）５２个气象站点监测的１９５１— ２００４年月值平均气温数据。将各站点月均值数据转换为年均值数据，剔除超出均值两倍标准差范围的异常值，对缺失值按均值进行插值处理。使用进行主成分分析。ＫＭＯＳＰＳＳ１９．０对数据标准化，检验结果为０．表明适合主成分分析，提取一个９９２，主成分，方差贡献率高达９９．４％。全球站点号是按照大洲顺序及从北向南的顺序确定的，气温分区采用对主成分得分进行有序聚类来实现。按照有序聚使用Ｓ得到直径Ｄ矩阵和最小类算法，ＡＳ９．２编程，分类损失矩阵，进行最优分类，确定气温分区。（二）有序聚类分析结果程序给出的聚类结果及分类数与损失值的关系图如下，其中直径Ｄ见表１，聚类结果见表２，分类数与损失值的关系见图１。
６］。总体进行系统聚类分析［部变化特征进行提取，
看，现有的国内外几篇研究面板数据聚类分析的文献所使用的聚类分析方法主要是采用针对无序样本的系统聚类方法，在聚类过程中并未考虑样本次序一些面板数据的次序是不能问题。在实际应用中，变动的，例如全球气候变化聚类分析中，气象站点是按照地理位置确定的。运用系统聚类法进行全球气候的聚类分析，可能将聚类指标距离相近但在地理位置上差异极大的样本错误地划分为一类。基于
１珚（［］ｃｏｖｔｔｘｔｔ＝－ｘｘ（１，２）ｉ（１）１） ∑ Ｎ－１ｉ＝１珚（［］ｘｔｔ－ｘｉ（２）２）１４
杨毅，赵国浩，秦爱民：面板数据的有序聚类分析及其应用
聚类问题可采用费希尔最优求解法来划分最优分具体的算法与步骤如下所示。类，设样本个数为ｎ，主成分得分或样本综合得分（ …，以下统称主成分得分）依次是Ｘ（），Ｘ（Ｘ（１），２），ｉ …， …，，计算步骤如下：），Ｘ（Ｘ（１ ≤ｉ ≤ｊ ≤ ｎ）ｎ）（ｊ定义类的直径。设某类Ｇ包括的主成分得分１． …，是Ｘ（该类的类均值坐标为：），），Ｘ（Ｘ（ｉｉ１），＋ｊ
— — — 以全球气候变化聚类分析为例
，ａ２ｂ，，杨毅１赵国浩１秦爱民３
（山西财经大学ａ统计学院；１．．ｂ．管理科学与工程学院，山西太原０３０００６；）中国人民银行太原中心支行调查统计处，山西太原０２．３０００１；３．山西省气象局科技与预报处，山西太原０３０００２摘要：面板数据的有序聚类分析是多元统计分析的新兴研究领域。借鉴多元统计学中主成分分析方法对面板数据在时间变量上进行降维处理，把变异信息的损失降低到最小，较为准确地反映了样本在各时间段内的整体变化水平；采用费希尔最优求解算法对主成分得分进行有序聚类，为研究有序面板数据的亲疏关系提供一些思路；对全球气候变化进行聚类分析，分析五十年来全球及区域气候变化特点，与国外研究结论对显示出良好的应用性。比，关键词：面板数据；有序聚类分析；主成分分析；气候变化（）中图分类号：Ｃ８１２文献标志码：Ａ文章编号：１００７－３１１６２０１２０７－００１３－０６

e商务文档

面板数据的有序聚类分析及其应用_以全球气候变化聚类分析为例_杨毅

相关文档推荐：