当前位置:文档之家› 时间序列分析word版

时间序列分析word版

第2章 时间序列的预处理拿到一个观察值序列之后,首先要对它的平稳性和纯随机性进行检验,这两个重要的检验称为序列的预处理。

根据检验的结果可以将序列分为不同的类型,对不同类型的序列我们会采用不同的分析方法。

2.1 平稳性检验 2.1.1 特征统计量平稳性是某些时间序列具有的一种统计特征。

要描述清楚这个特征,我们必须借助如下统计工具。

一、概率分布数理统计的基础知识告诉我们分布函数或密度函数能够完整地描述一个随 机变量的统计特征。

同样,一个随机 变量族的统计特性也完全由它们的联 合分布函数或联合密度函数决定。

对于时间序列{t X ,t ∈T },这样来定义它的概率分布:任取正整数m ,任取m t t t ,,,⋯21∈T ,则m 维随机向量(m t t t X X X ,,,⋯21)’的联合概率分布记为),,,(m t t t x x x F m⋯⋯21,,,21,由这些有限维分布函数构成的全体。

{),,,(m t t t x x x F m⋯⋯21,,,21,∀m ∈正整数,∀m t t t ,,,⋯21∈T } 就称为序列{t X }的概率分布族。

概率分布族是极其重要的统计特征描述工具,因为序列的所有统计性质理论上都可以通过 概率分布推测出来,但是概率分布族的重要 性也就停留在这样的理论意义上。

在实际应 用中,要得到序列的联合概率分布几乎是不 可能的,而且联合概率分布通常涉及非常复 杂的数学运算,这些原因使我们很少直接使 用联合概率分布进行时间序列分析。

二、特征统计量 一个更简单、更实用的描述时间序列统计特征的方法是研究该序列的低阶矩,特别是均值、方差、自协方差和自相关系数,它们也被称为特征统计量。

尽管这些特征统计量不能描述随机序列全部的统计性质,但由于它们概率意义明显,易于计算,而且往往能代表随机 序列的主要概率特征,所以我们对时间序列进行分析,主要就是通过分析这些统计量的统计特性,推断出随机序列的性质。

1.均值对时间序列{t X ,t ∈T }而言,任意时刻的序列值t X 都是一个随机变量,都有它自己的概率分布,不妨记为)(x F t 。

只要满足条件∞<⎰∞∞)(-x xdF t就一定存在着某个常数t μ,使得随机变量t X 总是围绕在常数值t μ附近做随机波动。

我们称t μ为序列{t X }在t 时刻的均值函数。

t μ=t EX =)(-x xdF t ∞∞⎰当t 取遍所有的观察时刻时,就得到一个均值函数序列{t μ,t ∈T }。

它反映的是时间序列{t X ,t ∈T }每时每刻的平均水平。

2.方差当∞<⎰∞∞)(-x xdF t 时,可以定义时间序列的方差函数用以描述序列值围绕其均值做随机波动时的平均波动程度。

)()()(22t 2t x dF x X E DX t t t t μμσ-⎰=-==∞∞-同样,当t 取遍所有的观察时刻时,我们得到一个方差函数序列{T t t ∈,2σ}。

3.自协方差函数和自相关系数类似于协方差函数和相关系数的定义,在时间序列分析中我们定义自协方差函数(autocovariance function )和自相关系数(autocorrelation coefficient )的概念。

对于时间序列{t X ,t ∈T },任取t ,s ∈T ,定义γ(t ,s )为序列{t X }的自协方差函数:))(()s t (s t s t X X E μμγ--=,定义),(s t ρ为时间序列{t X }的自相关系数,简记为ACF 。

st DX DX s t s t •=),(),(γρ之所以称它们为自协方差函数和自相关系数,是因为通常的协方差函数和相关系数度量的是两个不同事件彼此之间的相互影响程度,而自协方差函数和自相关系数度量的是同一事件在两个不同时期之间的相关程度,形象地讲就是度量自己过去的行为对自己现在的影响。

2.1.2 平稳时间序列的定义平稳时间序列有两种定义,根据限制条件的严格程度,分为严平稳时间序列和宽平稳时间序列。

一、严平稳所谓严平稳(strictly stationary )就是一种条件比较苛刻的平稳性定义,它认为只有当序列所有的统计性质不会随时间的推移而发生变化时,该序列才能被认为平稳。

而我们知道,随机变量族的统计性质完全由它们的联合概率分布族决定。

所以严平稳时间序列的定义如下:定义2.1 设{t X }为一时间序列,对任意正整数m ,任取m t t t ,,,⋯21∈T ,对任意整数τ,有),,,(m t t t x x x F m⋯⋯21,,,21=),,,(m t t t x x x F m ⋯+++⋯21,,,21τττ则称时间序列{t X }为严平稳时间序列。

前面说过,在实践中要获得随机序列的联合分布是一件非常困难的事,而且即使知道随机序列的联合分布,计算和应用也非常不便。

所以严平稳时间序列通常只具有理论意义,在实践中用得更多的是条件比较宽松的宽平稳时间序列。

二、宽平稳宽平稳(weak stationary )是使用序列的特征统计量来定义的一种平稳性。

它认为序列的统计性质主要由它的低阶矩决定,所以只要保证效率低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。

定义2.2 如果{t X }满足如下三个条件: (1)任取t ∈T ,有∞<2T EX(2)任取t ∈T ,有μμ,=t EX 为常数;(3)任取t ,s ,k ∈T ,且k+s-t ∈T ,有γ(t,s)=γ(k,k+s-t)则称{t X }为宽平稳时间序列。

宽平稳也称为弱平稳或二阶平稳(second-order stationary )。

显然,严平稳比宽平稳的条件严格。

严平稳是对序列联合分布的要求,以保证序列所有的统计特征都相同;而宽平稳只要求序列二阶平稳,对于高于二阶的矩没有任何要求。

所以通常情况下,严平稳序列也满足宽平稳条件,而宽平稳序列不能反推严平稳成立。

但这不是绝对的,两种情况都有特例。

比如服从柯西分布的严平稳序列就不是宽平稳序列,因为它不存在一、二阶矩,所以无法验证它二阶平稳。

严格地讲,只要存在二阶矩的严平稳序列才能保证它一定也是宽平稳序列。

宽平稳一般推不出严平稳,但当序列服从多元正态分布时,则二阶平稳可以推出严平稳。

定义2.3 时间序列{t X }称为正态时间序列,如果任取正整数n ,任取n 21t t t ,,,⋯∈T ,相对应的有限维随机变量n 21...X X X ,,,服从n 维正态分布,密度函数为: )]~~()'~~(21ex p[||)2()~(1212,...,,21n n n n n n nn t t t X X X f n μμπ-Γ--Γ=---其中,'~21),,,(n n X X X X ⋯=;'~21),,,(n n EX EX EX ⋯=μ;n Γ为协方差阵:⎪⎪⎪⎪⎪⎭⎫⎝⎛=Γ),(...),(),(............),(...),(),(),(...),(),(112121211111n n n n n n n t t t t t t t t t t t t t t t t t t γγγγγγγγγ从正态随机序列的密度函数可以看出,它的n 维分布仅由均值向量和协方差阵决定,即对正 态随机序列而言,只要二阶矩平稳了,就等于分布 平稳了,所以宽平稳的正态序列一定是严平稳时间序列。

对于非正态过程,就没有这个性质了在实际应用中,研究最多的是宽平稳随机序列,以后见到平稳随机序列,如果不加特别注明,指的都是宽平稳随机序列。

如果序列不满足平稳条件,就称为非平稳序列。

2.1.3 平稳时间序列的统计性质根据平稳时间序列的定义,可以推断出它一定具有如下两个重要的统计性质。

一、常数均值 T t EX t ∈∀=,μ二、自协方差函数和自相关系数只依赖于时间的平移长度而与时间的起止点无关 T k s t t s k k s t ∈∀-+=,,),,(),(γγ根据这个性质,可以将自协方差函数由二维函数),(s t γ简化为一维函数)(t s -γ: T s t s t t s ∈∀=-,),,()(γγ 由此引出延迟k 自协方差函数的概念。

定义2.4 对于平稳时间序列{t X ,t ∈T },任取t(t+k ∈T ),定义γ(k)为时间序列{t X }的延迟k 自协方差函数:),()(k t t k +=γγ根据平稳序列的这个性质,容易推断出平稳随机序列一定具有常数方差: T t t t DX t ∈∀==),0(),(γγ由延迟k 自协方差函数的概念可以等价得到延迟k 自相关系数的概念:)0()(),(γγγρk DX DX k t t kt t k =•+=+ 容易验证和相关系数一样,自相关系数具有如下三个性质: (1)规范性 10=ρ且k 1k ∀≤,ρ(2)对称性 k k -=ρρ(3)非负定性对任意正整数m ,相关阵m Γ为对称非负定阵。

⎪⎪⎪⎪⎪⎭⎫⎝⎛=Γ----021201110ρρρρρρρρρm m m m m 值得注意的是,k ρ除了具有上述三个性质外,还具有一个特别的性质:对应模型的非唯一性。

一个平稳时间序列一定唯一决定了它的自相关函数,但它的自相关函数未必唯一对应着一个平稳的时间序列。

我们在后面的章节中将证明这一点。

这个性质就给我们根据样本的自相关系数的特点来确定模型增加了一定的难度。

2.1.4 平稳时间序列的意义时间序列分析方法作为数理统计学的一个分支,遵循数理统计学的基本原理,都是利用样本信息来推测总体信息。

传统的统计分析通常都拥有如下数据结构,见表2-1。

根据数理统计学常识,显然要分析的随机变量越少越好(m 越小越好),而每个变量获得的样本信息越多越好(n 越大越好)。

因为随机变量越少,分析的过程越简单, 而样本容量越大,分析的结果就会越可靠。

但是时间序列分析的数据结构有它的特殊性。

对随机序列...}X ...X X {...t 21,,,,,而言,它在任意时刻t 的序列值t X 都是一个随机变量,而且由于时间的不可重复性,该变量在任意一个时刻只能获得唯一的样本观察值。

因为时间序列分析的数据结构如下,见表2-2。

表2-2由于样本信息太少,如果没有其他的辅助信息,通常这种数据结构是没有办法进行分析的。

而序列平稳性概念的提出可以有效地解决这个问题。

在平稳序列场合,序列的均值等于常数意味着原本含有可列多个随机变量的均值数列{}T t t ∈,μ 变成了一个常数序列 {}T t ∈,μ原本每个随机变量的均值)(T t t ∈μ只能依靠唯一的一个样本观察值t x 去估计t t x =μˆ 现在由于)(T t t ∈∀=μμ,于是每一个样本观察值)(T t x t ∈∀,都变成了常数均值μ的样本观察值nxx ni i∑===1ˆμ这极大地减少了随机变量的个数,并增加了待估参数的样本容量。

相关主题