第六节时间序列模型的建立与预测
ARIMA过程y t用
Φ (L) (Δd y t)= α+Θ(L) u t
表示,其中Φ (L)和Θ (L)分别是p, q阶的以L为变数的多项式,它们的根都在单位圆之外。
α为Δd y t过程的漂移项,Δd y t表示对y t 进行d次差分之后可以表达为一个平稳的可逆的ARMA 过程。
这是随机过程的一般表达式。
它既包括了AR,MA 和ARMA过程,也包括了单整的AR,MA和ARMA过程。
可取
图建立时间序列模型程序图
建立时间序列模型通常包括三个步骤。
(1)模型的识别,(2)模型参数的估计,(3)诊断与检验。
模型的识别就是通过对相关图的分析,初步确定适合于给定样本的ARIMA模型形式,即确定d, p, q的取值。
模型参数估计就是待初步确定模型形式后对模型参数进行估计。
样本容量应该50以上。
诊断与检验就是以样本为基础检验拟合的模型,以求发现某些不妥之处。
如果模型的某些参数估计值不能通过显著性检验,或者残差序列不能近似为一个白噪声过程,应返回第一步再次对模型进行识别。
如果上述两个问题都不存在,就可接受所建立的模型。
建摸过程用上图表示。
下面对建摸过程做详细论述。
1、模型的识别
模型的识别主要依赖于对相关图与偏相关图的分析。
在对经济时间序列进行分析之前,首先应对样本数据取对数,目的是消除数据中可能存在的异方差,然后分析其相关图。
识别的第1步是判断随机过程是否平稳。
由前面知识可知,如果一个随机过程是平稳的,其特征方程的根都应在单位圆之外;如果 (L) = 0的根接近单位圆,自相关函数将衰减的很慢。
所以在分析相关图时,如果发现其衰减很慢,即可认为该时间序列是非平稳的。
这时应对该时间序列进行差分,同时分析差分序列的相关图以判断差分序列的平稳性,直至得到一个平稳的序列。
对于经济时间序列,差分次数d通常只取0,1或2。
实际中也要防止过度差分。
一般来说平稳序列差分得到的仍然是平稳序列,但当差分次数过多时存在两个缺点,(1)序列的样本容量减小;(2)方差变大;所以建模过程中要防止差分过度。
对于一个序列,差分后若数据的极差变大,说明差分过度。
第2步是在平稳时间序列基础上识别ARMA模型阶数p, q。
表1给出了不同ARMA模型的自相关函数和偏自相关函数。
当然一个过程的自相关函数和偏自相关函数通常是未知的。
用样本得到的只是估计的自相关函数和偏自相关函数,即相关图和偏相关图。
建立ARMA模型,时间序列的相关图与偏相关图可为识别模型参数p, q提供信息。
相关图和偏相关图(估计的自相关系数和偏自相关系数)通常比真实的自相关系数和偏自相关系数的方差要大,并表现为更高的自相关。
实际中相关图,偏相关图的特征不会像自相关函数与偏自相关函数那样“规范”,所以应该善于从相关图,偏相关图中识别出模型的真实参数p, q。
另外,估计的模型形式不是唯一的,所以在模型识别阶段应多选择几种模型形式,以供进一步选择。
表1 ARIMA过程与其自相关函数偏自相关函数特征
2. 模型参数的估计
对AR (p )模型因为滞后变量都发生在t 期之前,这些滞后变量与误差项u t 相互独立,所以对AR (p )模型的参数进行OLS 估计,所得参数估计量具有一致性。
对MA (q )和ARMA (p , q )模型的估计比较复杂。
Φ (L ) ∆d y t = Φ (L ) x t = Θ (L ) u t
对于y t 假定可以观测到T + d 个观测值,即y - d +1, …, y 0, y 1, …, y T ,则经过d 次差分之后, x t 的样本容量为T 。
以{x 1, …, x T }为样本估计ARMA (p , q ) 模型参数 (φ1, …, φp , θ1, …, θq )。
这是一个非线性模型,不能直接用OLS 估计参数,一般采用迭代式的非线性最小二乘。
3、 诊断与检验
完成模型的识别与参数估计后,应对估计结果进行诊断与检验,以求发现所选用的模型是否合适。
若不合适,应该知道下一步作何种修改。
估计的模型是否成立应该从3个方面检查。
①模型参数估计量必须通过t 检验;②模型的全部特征根(包括自回归、移动平均两部分)的倒数都必须在单位圆以内(即模型具有平稳性和可逆性);③模型的残差序列必须通过Q 检验(Box-Pierce (1970) 提出)。
同时也要尽量做到④模型结构应当尽量简练;⑤参数稳定性要好;⑥预测精度要高。
4、时间序列模型预测
下面以ARMA (1, 1) 模型为例具体介绍预测方法。
其他形式时间序列模型的预测方法与此类似。
设对时间序列样本{x t }, t = 1, 2, …, T ,所拟合的模型是
x t = φ1 x t -1 + u t + θ1 u t -1 则理论上T + 1期x t 的值应按下式计算
x T +1 = φ1 x T + u T +1 + θ1 u T 用估计的参数1ˆφ, 1ˆθ和T u
ˆ分别代替上式中的 φ1, θ1和u T 。
上式中的u T +1是未知的,但知E(u T +1) = 0,所以取u T +1 = 0。
x T 是已知的(样本值)。
对x T +1的预测按下式进行
1ˆ+T x
= 1ˆφx T +1ˆθT u ˆ 由x T +1 = φ1 x T + u T +1 + θ1 u T ,理论上x T +2的预测式是
x T +2 = φ1 x T +1 + u T +2 + θ1 u T +1
仍取u T +1 = 0,u T +2 = 0,则x T +2的实际预测式是
2ˆ+T x
= 1ˆφ1ˆ+T x 其中1ˆ+T x
是上一步得到的预测值,与此类推x T +3的预测式是 3ˆ+T x
= 1ˆφ2ˆ+T x 由上可见,随着预测期的加长,预测式x T +1 = φ1 x T + u T +1 + θ1 u T 中移动平均项逐步淡出预测模型,预测式变成了纯自回归形式。
对于AR (p )过程,预测式永远是AR (p )形式的,对于MA (q ) 过程,当预测期超过q 时,预测值等于零。
若上面所用的x t 是一个差分变量,设 ∆ y t = x t ,则得到的预测值相当于∆t y
ˆ, (t = T +1, T +2 , … )。
因为
y t = y t-1 + ∆ y t
所以原序列 T +1期预测值应按下式计算
1ˆ+T y
= y T + ∆1ˆ+T y 对于t > T +1,预测式是
t y
ˆ=1ˆ-t y +∆t y ˆ, t = T +2, T +3, … 其中1ˆ-t y
是相应上一步的预测结果。