当前位置:文档之家› AR,MA,ARIMA模型介绍及案例分析

AR,MA,ARIMA模型介绍及案例分析

BOX -JENKINS 预测法1(1)()AR p 模型(Auto regression Model )——自回归模型p 阶自回归模型:y t =c +∅1y t−1+∅2y t−2+⋯+∅p y t−p +e t式中,y t 为时间序列第t 时刻的观察值,即为因变量或称被解释变量;y t−1,y t−2,⋯,y t−p 为时序y t 的滞后序列,这里作为自变量或称为解释变量;e t 是随机误差项;c ,∅1,∅2,⋯,∅p 为待估的自回归参数。

(2)()MA q 模型(Moving Average Model )——移动平均模型q 阶移动平均模型:1122t t t t q t q y e e e e μθθθ---=+----式中,μ为时间序列的平均数,但当{}t y 序列在0上下变动时,显然μ=0,可删除此项;t e ,1t e -,2t e -,…,t q e -为模型在第t 期,第1t -期,…,第t q -期的误差;1θ,2θ,…,q θ为待估的移动平均参数。

(3)(,)ARMA p q 模型——自回归移动平均模型(Auto regression Moving Average Model )模型的形式为:11221122t t t p t p t t t q t q y c y y y e e e e φφφθθθ------=+++++----显然,(,)ARMA p q 模型为自回归模型和移动平均模型的混合模型。

当q =0,时,退化为纯自回归模型()AR p ;当p =0时,退化为移动平均模型()MA q 。

2 改进的ARMA 模型(1)(,,)ARIMA p d q 模型这里的d 是对原时序进行逐期差分的阶数,差分的目的是为了让某些非平稳(具有一定趋势的)序列变换为平稳的,通常来说d 的取值一般为0,1,2。

对于具有趋势性非平稳时序,不能直接建立ARMA 模型,只能对经过平稳化处理,而后对新的平稳时序建立(,)ARMA p q 模型。

这里的平文化处理可以是差分处理,也可以是对数变换,也可以是两者相结合,先对数变换再进行差分处理。

(2)(,,)(,,)s ARIMA p d q P D Q 模型对于具有季节性的非平稳时序(如冰箱的销售量,羽绒服的销售量),也同样需要进行季节差分,从而得到平稳时序。

这里的D 即为进行季节差分的阶数;,P Q 分别是季节性自回归阶数和季节性移动平均阶数;S 为季节周期的长度,如时序为月度数据,则S =12,时序为季度数据,则S =4。

在SPSS19.0中的操作如下● 必须要先打开一个数据源,才可以定义日期● 数据→定义日期→选择日期的起始点,此时变量栏中会出现日期变量。

(3)ARIMAX 模型在(,,)(,,)s ARIMA p d q P D Q 模型中,再加入除自身滞后时序变量以外的解释变量X 。

3 模型的识别模型的识别的本质是确定(,,)(,,)s ARIMA p d q P D Q 中的,,p d q 以及,,P D Q 与S 的取值。

借助于自相关函数(Auto correlation Function, ACF )以及自相关分析图和偏自相关函数(Partial Correlation Function, PACF )以及偏自相关分析图来识别时序特性,并进一步确定p 、q 、P 、Q 。

3.1 自相关函数自相关是时间序列12,,t Y Y Y 诸项之间的简单相关。

它的含义与相关分析中变量之间的简单相关一样,只不过它所涉及的是同一序列自身,因而称作自相关。

自相关程度的大小,用自相关系数k r 度量。

121()()()n ktt k t k ntt yy y y r yy -+==--=-∑∑式中,n 为样本数据的个数;k 为滞后期;y 为样本数据平均值。

自相关系数k r ,可看作自变量k 的函数,即自相关函数。

它表示时间序列滞后k 个时间段的两项之间相关的程度。

如1r 表示每相邻两项间的相关程度;2r 表示每隔一项的两个观察值得相关程度。

随机序列自相关系数的抽样分布,近似于以0为均值,分布。

自相关系数的95%置信区间为( 1.96,1.96)σσ-,此处σ=时间序列的自相关系数全部落入这个区间,则认为该序列是纯随机序列。

将时间序列的自相关系数绘制成图,并标出一定的置信区间(通常采用2±倍标准差作为置信区间的两个端点),被称作自相关分析图。

SPSS19.0中的操作1. 输入变量数据;定义时间序列日期(数据⇒定义日期)2. 分析⇒预测⇒自相关(如下);将要分析的变量从左侧移入右侧变量框中3. 勾选自相关、偏自相关,转换暂时不选(如果为非平稳序列,可勾选差分/自然对数转换,其中差分的阶数需要根据自相关图形来确定,通常为0,1,2)未进行差分处理,由图可知几乎一半的自相关系数未进入置信区间,说明该序列非平稳,此时需要进行差分处理,即在重复第2步时,差分选项选择1或2。

3.2 偏自相关函数偏自相关函数是时间序列t Y ,在给定了121,,t t t k Y Y Y ---+的条件下,t Y 与t k Y -之间的条件相关。

由于它需要考虑排除其他滞后期的效应,因而被称为偏自相关。

偏自相关系数kk φ计算公式如下。

111,111,1 1 2,3,1k k k j k jkk j k k j k j j r k r r k r φφφ---=---==⎧⎪⎪-⋅⎪=⎨=⎪⎪-⋅⎪⎩∑∑偏自相关系数kk φ,可看作自变量k 的函数,即偏自相关函数,11kk φ-≤≤。

它用以测量当剔除其他滞后期(1,2,3,,1t k =-)的干扰的条件下,t Y 与t k Y -之间相关的程度。

与自相关系数类似,同样可以采用偏自相关分析图来对模型进行识别。

3.3 ARIMA 模型的参数确定Step1:判断时序是否平稳,若不平稳,经过若干次逐期差分或季节差分使其平稳,则可确定d 和D 。

对于社会经济现状,一般d 和D 的数值取0,1或2。

若自相关系数ACF 随着滞后期(一般设为16)增大,而迅速趋于0,则认为该时序是平稳的。

若自相关系数ACF 随着滞后期增大,自相关系数ACF 不趋于0,则认为该时序是非平稳的。

更具体地说,若随着时滞k 的增大,自相关系数ACF 缓慢减小,说明随着序列两项间隔的提前,相关程度变弱,则序列具有趋势性;若对于季度数据或月度数据,当滞后期为4(或12),8(24)等时,自相关系数ACF 显著地部位0,即在随机区间之外,则意味着该时序具有季节性。

如果时序具有趋势性,那么需要进行逐期差分,由逐期差分的次数决定d 的取值;如果序列具有季节性,那么要进行季节差分,由季节差分次数决定D 的值。

左侧图形为未经过差分处理的某城市农村居民收入的ACF 图,可以看出自相关系数并未迅速趋于0,说明该时序是非平稳的。

右侧为该序列的线性图,也正说明了该时序是有明显的上升趋势的,需要进行差分处理。

Step2:经差分平稳后,确定时序所适合的模型,其依据如下表所示。

关于,p q 的取值当不包括时滞12k =(或4),24(或8),p 取落入随机区间之外的偏相关系数PACF 的个数或与0有显著差异的PACF 的个数,q 取落入随机区间之外的自相关系数ACF 的个数或与0有显著差异的ACF 的个数。

当仅观察时滞12k =(或4),24(或8),p 取显著不为0的PACF 的个数,q 取显著不为0的季节自相关数目。

4案例分析4.1数据准备某城市农村居民收入数据(1980-2015年)单位:元对36年农村居民收入建立B-J模型,并预测2016年的收入情况。

4.2时序分析Step1:将数据输入到SPSS19.0中,并定义变量的精度为小数点后两位;Step2:定义日期。

数据——定义日期——输入“1980”因为本次数据没有季节性,所以只需要选择年份为1980年,如下图。

Step3:绘制其时序图,观察其是否平稳。

分析——预测——序列图此时可以看出该曲线有明显上升趋势,为非平稳序列,需要进行差分平稳化。

同时,也可以绘制自相关图形(操作:分析——预测——自相关)来观察其趋势,如下图。

由上面自相关系数图可知,随着延迟数目的增加,系数并没有显著的趋近于0,且许多数值较大的系数落在了置信区间之外,说明该时间序列并非平稳的。

4.3差分平稳化对时间序列进行差分平稳,并绘制相关系数图和偏自相关系数图如下。

操作为:分析——预测——自相关(勾选:1阶差分)从右侧图形可以看出,在滞后期k=3之后,自相关函数衰减,并且均在置信区间范围之内,因此可以认为该序列平稳了。

再观察变换后的序列的偏自相关函数图,如下图。

=0.437较大,其他并没有明显趋于0,可以认为在K=3后拖尾,而其中33自相关函数可以看做是K=3后截尾,也可以看做为拖尾。

(自拖,偏拖)——ARIMA 模型,(自截,偏拖)——MA模型,因此,经过一阶差分变换后的农村居民收入所选定的模型为(3,1,3)ARIMA。

分别对两个模型进行拟合和预ARIMA或(0,1,3)测,比较其精度。

4.4建立ARIMA模型4.4.1ARIMA(3,1,3)模型Step1:菜单栏:分析——预测——创建模型在变量栏中,将农村居民收入移入因变量框中;方法选择ARIMA模型,点击右侧“条件”,输入自回归,差分和移动平均数的值。

Step2:确定输出的统计量和相关信息。

其中拟合值和置信区间可备选,根据需要选择。

如果需要预测下一年的数据值,必须要在变量栏中的时间变量下再加入一个年份值,否则不会显示预测值,如下图。

模型结果分析可以看到模型的R平方为0.990,平稳的R方为0.493,说明模型的拟合效果较好,预测值为13387.9。

将实际值和预测值画在同一个时序图中如下。

4.4.2ARIMA(0,1,3)模型步骤和上面基本一致,只是在创建模型的时候,把条件中的自回归p值改为0,运算结果如下。

上述统计量表明,该模型的R平方值为0.988,平稳的R方为0.365,sig值为0.421,与(3,1,3)ARIMA模型,因此可ARIMA相比,三个统计量都小于(3,1,3)以认为(3,1,3)ARIMA模型的结果更为可信和准确。

则2016年农村收入为13387.9。

相关主题