时间序列聚类分析
经济 、 工农业 、 科学工程和实验中不断产生的大量各 种类型的数据得以保存。在这些保存的历史数据中, 绝大部分都是根据时间顺序对历史事件的数值型记 经济 录, 我们称之为时间序列数据。时间序列在商业、 以及科学观测等各个社会领域中都广泛存在, 比如金 融证券市场中每天的股票价格;商业零售行业中, 某 项商品的周期销售额; 气象预报研究中, 某一地区的 气温与气压读数; 以及在生物医学中, 某一症状病人 在每个时刻的心跳变化等等。比较不同的时间序列在 某段时间内运动变化是否相似, 从而对其进行聚类分 析在许多应用领域中具有重要的意义, 下面就是一些 典型应用的例子: 在宏观经济分析中,通常可以根据国民收入 、 就
讨论对各个全局性特征的提取。 (1 ) 趋势成分。时间序列的一个直观特征就是趋 势特征和周期特征, 本文提取趋势特征作为时间序列 的一个全局特征。采用线性趋势法分离出时间序列的 趋势成分, 并用线性函数的截距项作为该时间序列的 趋势特征。具体来说, 建立时间序列 Yt关于时间t的一 元回归模型, 即Yt=α+βt+εt, 则β的最小二乘估计为 赞= β 軍) (Y -Y (t- T ) Σ 2
2009 年
就是如何刻画两个时间序列的相似性。本文首先指出 了目前常用的欧几里德距离相似法的缺点, 然后提出 一种通过采用时间序列特征 (包括数字特征, 频谱特 征等) 建立相似性度量的方法, 最后采用了一个宏观 经济领域的数据对比了两种相似方法的效果。
易受到个别时点上取值的影响, 从而丧失了结果的稳 健性。 用欧几里德距离度量时间序列相似性出现诸多 问题的根源在于没有考虑到时间因素。时间序列是与 时间有关的一列值, 现在不管时间变量, 把时间序列 纯粹看成一个多维点,势必会产生一些不合理的结 果。目前, 通过采用时间序列的特征 (包括数字特征, 频谱特征等) 相似来描述原时间序列的相似成为一个 可行的途径。用时间序列之间特征相似来反映时间序 列的相似不仅可以抓住时间序列随时间变化的动态 特征, 从而得到更为合理的结果, 而且通过用少量特 征来描述大型时间序列, 还可以提高判定相似结果的 稳健性,也可降低聚类计算过程中的复杂度。 Wang, C提取时间序列的自相关函数 (AC ) 作为时间序列的相 似性度量; Kalpakis, K 提取时间序列的谱系数 ( Cep- strum)来衡量时间序列之间的相似度。此外, 一些传统 的经典方法,例如偏相关系数 (PAC ) 和小波变化 ( Wavlet) 等方法在众多文章中都有采用。
xt, t=1, 2, …, T
軍 Σ
T t=1
2 2 軍 (Yt-X) Xt+1-X) (Xt-Xt-1 )軍 t +λ ( t -
軍
由此可得周期成分Ct=Yt-Xt (1-L) (1-L ) Y , = λ t 2 2 1+λ (1-L2 ) ( 1-L-1 )
2 2 -1 2
其中, λ 是对趋势成分波动的惩罚因子, L 为滞后 则可以判断时间序列Yt 算子。如果Ct出现明显的峰值, 具有周期波动成分, 峰值所对应的周期即为该时间序 列的周期长度。 (3 ) 峰度和偏度。 时间序列的数据分布状况是很多 研究中需考虑的因素之一。可以采用偏度和峰度来刻 画时间序列的数据分布特征, 峰度用于度量总体分布 相对于正态分布尾部的 “粗细” 状况; 偏度用于度量总 体分布状况偏斜程度。本文提取了这两方面的特征值 作为时间序列的全局特征。 1 T
1
本文感谢教育部 2007 年度人文社会科学研究项目 (07JA790019 ) 及辽宁省教育厅 2008 年度文科基地项目 (2007JD15 ) 资助。
作者简介:孙旭,女,1974 年生,辽宁铁岭人,东北财经大学统计学院讲师,在读博士生,主要研究方向为国民经济统计。
56
孙旭: 时间序列全局特征聚类 欧几里德距离的一些改进可以支持时间序列的 振幅平移和伸缩, 但是仍然不支持线性漂移和时间弯 曲。如图1所示, 两条时间序列的波形基本相似, 但是 波峰和波谷的位置并没有完全对齐,而是略有偏差, 在欧几里德距离下这两条时间序列也不会被认为是 相似的。
姨
(X -Y ) = 姨nc ,很可能因为两者之间距离过 Σ
軍 ys, y) (ys+1, yt+1 ) , (ys+2, yt+2 ) , … (ys+m-1, yt+m-1 )軍 ( t ,
p
(t- T ) Σ 2
2 t=1
T
軍= 1 其中Y T
T
ΣY 。
i t=1
(2 ) 周期长度。 时间序列另一个直观特征就是表现 出一定的周期性, 特别是经济时间序列研究中对周期 性特别重视, 本文采用了周期长度作为时间序列的另 一全局特征。 具体采用H-P滤波法,通过计算最小化时间序列 Yt和趋势值Xt之间的差值来估计出趋势成分Xt, min
虽然例子中两个时间序列之间的关系有特殊性, 但是在用欧几里德距离度量时间序列相似性时, 因为 只重视了时间序列在对应时点上取值的差异, 从而忽 视了时间序列最本质的随时间变化的动态特征 。 同 时, 采用欧氏距离度量时间序列之间的相似性, 结果
第3期
孙旭: 时间序列全局特征聚类分析方法及其应用
57
Analysis and Application of the Global Characteristics Cluster Sun Xu Abstract: The paper points out the existing problems on using distance measure similarity of time series, proposes a new similarity measure-global characters for whole clustering of time series, from the aspects of statistical distribution, non- linear and Fourier transformation, and thus gets a characteristic vector. It compares the clustering results of two similarity measures on per capita GDP and proves that the new method can treat time series clusterings of different length and cope with missing value, and reduces the calculating complexity. Key Words: time series;distance;comprehensive characteristics;clustering
n
3 时间序列相似性度量的新方 —全局特征法 法——
从不同的角度出发来考虑时间序列本身特征, 通 常可以得到一些不同的特征, 而某一特征往往仅刻画 了时间序列的一个方面。本文综合了当前时间序列分 析的研究成果, 从时间序列数据的统计分布 、 非线性 分析和Fourier频谱转换三个方面提取时间序列的全局 性特征。在保证提取到的特征能准确描述出原时间序 列信息的前提下, 兼顾少量及信息不重复原则, 力求 用少量的全局特征相似反映原时间序列之间的相似。 统计特征在许多时间序列的分析过程中都必须 考虑。计量模型在时间序列的研究中得到普遍应用 。 本文从加法模型角度出发,提取趋势特征和周期特 提取自相关系 征; 从时间序列的ARMA模型角度出发, 数作为反映自回归阶数的特征;用DBS统计量度量时 间序列的非线性特征; 从时间序列本身数据分布特征 角度出发, 提取偏度特征和峰度特征; 此外进行时间
2 用欧几里德距离度量时间序列相 似性存在的问题
欧几里德距离是时间序列相似性研究中最广泛 采用的相似性度量 。 欧几里德距离的优点是计算简 单, 容易理解, 在交变换下保持不变, 满足距离三角不 等式, 支持多维空间索引, 也可以应用到时间序列的 聚类和分类等研究领域。它的缺点是不允许时间序列 有不同的基准线或发生线性漂移。 举例来说, 如果时间序列X = Xt1, Xt2, …, Xtn 与 Y = Yt1, Yt2, …, Ytn 的取值时点相同,并且在相同时点上 所取的值都相差一个相同的常数, 即有Xti-Yti=c;i=1, 2, …, n。也就是说, 时间序列 Y = Yt1, Yt2, …, Ytn 是由 X = Xt1, (c >0 ) 个单位得到的, 两 Xt2, …, Xtn 向下平移 c 个时间序列完全是相似的。但是如果将两时间序列看 成维空间中的两个点, 再计算欧氏距离d (X, Y )
1
引言
随着社会信息化和数字化的发展,人们在金融 、
业率、 通货膨胀程度等经济指标的时间序列对国家或 地区进行分类,发现典型国家或地区的经济发展特 点。 在证券市场上, 找出在过去两星期里与微软公司 的股票价格序列的变化模式相似的公司, 从中可以分 析产生这种变化模式的原因。 在金融领域, 跟踪信用卡顾客的使用情况, 对信 用卡顾客进行分类,发现信用卡使用情况异常顾客, 能够及时报告, 预防信用欺诈。 在交通管理中, 需要将具有相似交通流变化趋势 的时段进行聚类, 从而实现对具有不同流量特性的交 通检测点早晚时段进行合理分组, 当把每组内的时段 形成各个相对独立的特征区域时, 可将它作为进一步 进行交通规划及控制优化的依据之一, 如应用于岔道 口的信号配时。 对于上述时间序列聚类分析问题, 很重要的环节
第3期 ) (总第 114 期 2009 年 3 月
统计教育
Statistical Thinktank
No. 3 (Series No. 114) Mar 2009
时间序列全局特征聚类分析方法及其应用 1
孙 旭
本文指出了用点和点距离度量时间序列相似性存在的问题 , 并给出一种新的相似性度量 -- 全局特征 , 即 摘 要: 从时间序列的统计分布特征 、 非线性和傅立叶频谱转换等 3 个方面提取全局特征构建特征向量 , 并进行聚类分 析 。 本文以全国各地区人均 GDP 时间序列聚类为例 , 评估了距离相似法与全局特征法的聚类结果 。 实践证实全局 特征法不但可以处理不同长度有缺失值的时序聚类 , 而且可以降低大型时间序列数据聚类计算的复杂度 。 时间序列 ; 距离 ; 全局特征 ; 聚类 关键词: