当前位置:文档之家› 面板数据的有序聚类分析及其应用_以全球气候变化聚类分析为例_杨毅

面板数据的有序聚类分析及其应用_以全球气候变化聚类分析为例_杨毅


X* =

* N t 1

* N t 2


* … xN x x T 燀 燅 * * ) 是 标 准 化 后 的 数 据, ) 其 中 x t x t i ( i ( 珚 ) ) x t t -x( i( 。 = ( ) v a r xt 槡 )样本相关系数矩阵 [ ( 2 R] T× T:
R=
r r 1 1 1 2 熿 r r 2 1 2 2

5% ≥8 T 前 m 个主成分的线性表达式分别为 : …, Yi = μ ′ X* , i = 1, 2, m i 对提取的 m 个主成分 , 计算综 合 得 分 后 再 进 行 可在概括各时期变化的同时 , 简化有序聚 有序聚类 , 类的求解步骤 , 但对于许多滞后变量而言 , 本期值与 前期值往往高度相关 。 这类变量在多数情况下只需 要提取一个主成分 , 其方差贡献率极高 , 这一主成分 得分可直接进入有序聚类分析 。
第2 7 卷第 7 期 V o l . 2 7 N o . 7
统 计 与 信 息 论 坛 S t a t i s t i c s &I n f o r m a t i o n F o r u m
2 0 1 2年7月 , J u l . 2 0 1 2
【 统计理论与方法 】
面板数据的有序聚类分析及其应用
( )单指标面板数据 x )的相关系数 : 4 t i( c o v t t x( 1, 2) c o r r t t = x( 1, 2) v a r t v a r t x( 1) x( 2) 槡 提取面板数据主成分的过程和方法 2. ( )标准化后的矩阵 : 1
* x 1 t 1 熿* x 2 t 1 * x 1 t 2 * x 2 t 2 * … x 1 T 燄 * … x 2 T
3] 。肖泽磊等 存在隐形 假 设 和 明 显 的 信 息 损 失 [ 据,
一、 引 言
) 面板数据 ( 作为截面数据与时间序 d a t a a n e l p , 列数据的组合数据 集 同 时 体 现 了 空 间 维 度 和 时 间 维度的数字特征 , 克服了时间序列数据多重共线性 、 数据量不足等困扰 , 逐渐发展成为现代计量经济学 领域统计分析与统计研究的重要方法和工具 。 运用 多元统计方法对面板数据进行聚类分析是统计学的 新兴研究领域 。 近年来国内外学者在这一领域进行 了 积极探索 。B o n z o D C和 H e r m o s i l l a A Y 用概率 连接函数代替传统 距 离 函 数 来 定 义 聚 类 标 准 , 将聚 类过程作为优化问 题 , 应用随机启发式技术优化目 标函数 , 采用自适应 模 拟 退 火 方 法 对 面 板 数 据 进 行 聚类分析
二、 多元统计分析方法 对面板数据的加工处理
是多个样本在某 原始面板数据从横截面上看 , 一时刻构成的截面观测值 ; 从纵剖面上看 , 是若干个 样本的时间序列数据 。 为便于分析 , 对原始面板数据 进行预处理 , 转化为一个以时间维度为变量 , 样本次 序有序排列的二维 表 。 设 总 体 共 由 N 个 样 本, 每个 样本的特征用单指标 X 来表示 , 时间维度为 T, 即T ) 个 时间指标 , 对于不同时点1≤t 表 t x t 1< 2 ≤ T, i( 示第i 个样本在第t 个时期的指标值 , 其 中i ∈ [ 1, , , 则原始面板数据变换后的矩阵为 : N] t∈ [ 1, T] … x x x 1 t 1 t 1 T 1 2 熿 燄 … x x x 2 t 2 t 2 T 1 2 X= … xNT xN xN t t 1 2 燀 燅 分析发 现 , 以各时间维度为变量的截面数据中 变量间相关性较强 , 可以运用主成分分析方法进行 通过主成分分析方法提取的时间主成分 , 降维处理 。 其解释力远大于所代 表 的 每 个 时 期 的 解 释 力 , 并且 考虑了各样本在不同 时 期 的 变 化 情 况 , 弥补了直接 用“ 距离 ”指 标 进 行 聚 类 分 析 所 损 失 的 时 间 序 列 局 聚类效 果 好 于 传 统 做 法 。 具 体 思 路 是: 部变化特征 , 首先使用主成分分析方法提取各时间维度变量的主 成分 , 再进行有序样本的聚类分析 。 面板数据的统 计 量 ( 其中变量和指标与上述 1. ) 面板定义相同 ( )单指标面板数据的均值 : 1
i=1
∑λ

珚( )= 1 x ) x t t i( ∑ Ni =1 ( )单指标面板数据的方差 : 2
)= v a r t x( 1 2 珚( [ ) ) ] x t t -x i( ∑ N -1i =1 ( )单指标面板数据 x )的协方差 : 3 t i(
N N
三、 面板数据的有序聚类分析
系统 聚 类 和 K 均 值 聚 类 方 法 都 假 设 样 本 的 地 没有考虑样品的次序 。 有序样本的 位是彼此独立的 ,
。 朱建 平 、 陈民恳在国内较早提出刻画
[ 2]
面板数据的相似指 标 , 运用系统聚类对单指标面板 数据进行分析研究 。 郑兵云对多指标面板数据进 行了系统聚类分析 , 但在时间维度上取均值 , 忽略了 面板数据的动态特征 , 将面板数据“ 退 化” 为截面数
收稿日期 : 2 0 1 2-0 3-1 4

… r 1 T 燄 … r 2 T
r T 1 r T 2 燀
其中相关系数r m n
… r T T 燅 * t , c o v x ( 1t 2) , m, n= = * t) * t) v a r a r x ( 1 v x ( 2 槡
…, 1, 2, T。 ( )分别计算 相 关 系 数 矩 阵 [ 3 R] T× T 的 特 征 值、 特征向量 、 贡 献 率、 累计贡献率和主成分的线性表 达式 。 令| 求解得λ 由于R 是正定的 , 其 R- I|=0, λ i, 特征根都是非负实数 , 将它们依大小顺序排列λ 1 ≥ … , , 其 对 应 的 特 征 向 量 记 为 0 λ 2 ≥ T ≥ 1 μ 2, ≥λ μ …, 对于相关系数矩阵提取 m 个主成分( m< T, μ , 通常使得前 m 个主成分的累积方差贡献率达到 T) 即: 8 5% 以上 ,

四、 实证分析
7] 。 为了研 究 气候变化的核心问题是气温问题 [
气候变化趋势和特 点 , 建立代表全球气温变化的时 间序列是一项非常重要的基础性工作 。 此项工作对 于进一步定量研究 气 候 变 化 的 经 济 影 响 、 实施气候 保护政策和促进能源经济低碳发展等战略问题具有 重大意义 。 气温资 料 属 于 有 序 样 本 面 板 数 据 , 地理 上分散于各个气象 观 测 站 点 , 其聚类分析可以采用 主成分分析与有序聚类算法相结合的方法进行分析 和编程处理 。 ( 一) 数据来源与加工处理 全球气温资料来源于美国国家海洋和大气管理 的全球5 局( NOAA) 5 2个气象站点监测的1 9 5 1— 2 0 0 4 年月值 平 均 气 温 数 据 。 将 各 站 点 月 均 值 数 据 转换为年均值数据 , 剔除超出均值两倍标准差范围 的异 常 值 , 对 缺 失 值 按 均 值 进 行 插 值 处 理。 使 用 进 行 主 成 分 分 析 。KMO S P S S 1 9. 0 对 数 据 标 准 化, 检验结果为 0. 表明适合主 成 分 分 析 , 提取一个 9 9 2, 主成分 , 方差贡献率高达 9 9. 4% 。 全 球 站 点 号 是 按 照大洲顺序及从北 向 南 的 顺 序 确 定 的 , 气温分区采 用对主成分得分进行有序聚类来实现 。 按照有序聚 使用 S 得到直径 D 矩阵和最小 类算法 , A S 9. 2 编程 , 分类损失矩阵 , 进行最优分类 , 确定气温分区 。 ( 二) 有序聚类分析结果 程序给出的聚类结果及分类数与损失值的关系 图如下 , 其 中 直 径 D 见 表 1, 聚 类 结 果 见 表 2, 分类 数与损失值的关系见图 1。
6] 。总体 进 行 系 统 聚 类 分 析[ 部变化特征 进 行 提 取 ,
看, 现有的国内外几 篇 研 究 面 板 数 据 聚 类 分 析 的 文 献所使用的聚类分析方法主要是采用针对无序样本 的系统聚类方法 , 在聚类过程中并未考虑样本次序 一些面板数据的次序是不能 问题 。 在实际应用 中 , 变动的 , 例如全球气候变化聚类分析中 , 气象站点是 按照地理位置确定的 。 运用系统聚类法进行全球气 候的聚类分析 , 可能 将 聚 类 指 标 距 离 相 近 但 在 地 理 位置上差 异 极 大 的 样 本 错 误 地 划 分 为 一 类 。 基 于
1 珚( [ ] c o v t t x t t = -x x( 1, 2) i( 1) 1) ∑ N -1i =1 珚( [ ] x t t -x i( 2) 2) 1 4
杨 毅, 赵国浩 , 秦爱民 : 面板数据的有序聚类分析及其应用
聚类问题 可 采 用 费 希 尔 最 优 求 解 法 来 划 分 最 优 分 具体的算法与步骤如下所示 。 类, 设样本 个 数 为 n, 主成分得分或样本综合得分 ( …, 以下统称主 成 分 得 分 )依 次 是 X( ), X( X( 1), 2), i …, …, , 计算步骤如下 : ), X( X( 1 ≤i ≤j ≤ n) n)( j 定义类的直径 。 设某类 G 包括的主成分得分 1. …, 是 X( 该类的类均值坐标为 : ), ), X( X( i i 1), + j
— — — 以全球气候变化聚类分析为例
, a 2 b , , 杨 毅1 赵国浩1 秦爱民3
( 山西财经大学 a 统计学院 ; 1. . b .管理科学与工程学院 ,山西 太原 0 3 0 0 0 6; ) 中国人民银行太原中心支行 调查统计处 ,山西 太原 0 2. 3 0 0 0 1; 3.山西省气象局 科技与预报处 ,山西 太原 0 3 0 0 0 2 摘要 : 面板数据的有序聚类分析是 多 元 统 计 分 析 的 新 兴 研 究 领 域 。 借 鉴 多 元 统 计 学 中 主 成 分 分 析 方 法 对面板数据在时间变量上进行降维处理 , 把变异信息的损 失 降 低 到 最 小 , 较为准确地反映了样本在各时间段 内的整体变化水平 ; 采用费希尔最优求解算法对主成分得 分 进 行 有 序 聚 类 , 为研究有序面板数据的亲疏关系 提供一些思路 ; 对全球气候变化进行 聚 类 分 析 , 分析五十年来全球及区域气候变化特点, 与国外研究结论对 显示出良好的应用性 。 比, 关键词 : 面板数据 ; 有序聚类分析 ; 主成分分析 ; 气候变化 ( ) 中图分类号 : C 8 1 2 文献标志码 : A 文章编号 : 1 0 0 7-3 1 1 6 2 0 1 2 0 7-0 0 1 3-0 6
相关主题