当前位置:文档之家› 应用时间序列分析论文_应用统计18_陈叮_5061214012

应用时间序列分析论文_应用统计18_陈叮_5061214012

应用时间序列分析大作业*名:**学号: **********专业班级:应用统计18院系:信息工程学院数学系时间: 2017/5/22题目:对苏格兰异性结婚数据的时序分析摘要:本文以苏格兰1855年至2015年异性结婚数据为研究对象,首先运用R软件对1855-2010年的结婚数据绘制时序图、自相关图和做差分进行相关分析,得出一阶差分后的数据是趋于平稳的,然后根据主观确定拟合模型为)2(MA,并运用R软件里面的()ARIMA模型即auto函数进行模型的自动选择,得出)2,1,0(.arimaMA是最优的,最后运用)2(MA模MA模型最优,故我们所选择的拟合模型)2()2(型预测并进行预测残差检验,得出了苏格兰2011-2015年异性结婚数据的预测值(29200.45,28905.94,28905.94,28905.94,28905.94)与实际值(29135,30534,27547,28702,28020)相比,相差不大,这说明模型拟合较好,能反映数据的真实水平,而且残差检验也表明预测残差是平均值为0且方差为常数的正态分MA模型是可以提供非常合适布(服从零均值、方差不变的正态分布),这进一步说明)2(预测的模型。

关键词:苏格兰;()arima函数;auto.()arima函数;R软件;预测二、数据来源本文的数据是1855-2015年苏格兰的结婚数据(Marriages, Scotland, 1855 to 2015 ),数据可以从网上(https:///statistics-and-data/statistics/statistics-by-theme/vital-events/marriages-and-ci vil-partnerships/marriages-time-series-data)下载,数据见附件一。

三、模型的定阶与确定3.1模型的定阶3.1.1序列预处理[1]首先,我们对苏格兰1855年至2010年的时间序列进行时序图和自相关分析,分析结果如图3.1.1.1和图3.1.1.2所示,程序见附录一。

1855-2010年苏格兰结婚数据的时序图时间结婚数据185019001950200020000350005000图3.1.1.1 苏格兰1855年至2010年异性结婚数据的时序图05101520-0.20.20.61.0LagA C FSeries dataseries图3.1.1.2 苏格兰1855年至2010年异性结婚数据的自相关图图 3.1.1.1显示苏格兰的结婚数值的均值和方差变动很大,随着时间的增加,具有明显的上升趋势,是典型的非平稳序列。

图3.1.1.2显示该序列的自相关系数都超出了两倍标准误差,所以进一步证明了该序列是非平稳的。

综上所述,该序列是非平稳序列。

对于该非平稳时间序列,首先我们对数据进行1阶差分处理,以便消除其具有的强烈的趋势性,来观察数据是否大致趋于平稳。

因此得到的1阶差分时间序列图如下:1855-2010年苏格兰一阶差分结婚数据的时序图时间一阶差分数据1850190019502000-100000500图3.1.1.3 苏格兰1855年至2010年异性结婚数据1阶差分后的时序图从图3.1.1.3中我们可以看出,经过1阶差分后,该序列的平均值和方差是大致平稳的,所以我们使用ARMIA(p,1,d)模型是很合适的。

通过一阶差分,我们去除了结婚数据的趋势部分,剩下了不规则部分。

接下来我们可以检验不规则部分中邻项数数值是否具有相关性;如果有的话,可以帮助我们建立一个预测模型来预测苏格兰异性结婚数据的数值趋势。

3.1.2平稳性检验由图3.1.1.3可以认为该序列一阶差分后,序列基本平稳,为了进一步判断其平稳性,考察差分序列的自相关图和偏自相关图,如图五和图六所示。

图3.1.2.1自相关图显示延迟2阶、3阶、4阶和5阶时的自相关值超出了2倍标准差范围,但是其他在延迟1-25阶的自相关系数都落入2倍标准差范围以内,从而判断该序列有很强的短期相关性,是2阶截尾,所以可以初步认为1阶差分后序列平稳。

图3.1.2.2偏自相关图显示,在延迟2阶和4阶时的偏自相关系数超出了2倍标准差范围,从lag4之后缩小至0,是4阶截尾,该序列趋于平稳。

综上所述,我们可以认为该序列的一阶差分序列自相关图2阶截尾和偏自相关图4阶截尾。

0510152025-0.20.20.61.0LagA C FSeries dataseriesdiff1图3.1.2.1 该序列一阶差分后的自相关图510152025-0.3-0.10.1LagP a r t i a l A C FSeries dataseriesdiff1图3.1.2.2 该序列一阶差分后的偏自相关图3.1.3纯随机性检验为了判断序列是否有分析价值,必须对序列进行纯随机性检验,即白噪声检验。

如表3.1.3.1所示,P 值远远小于0.05的临界值,因此,拒绝原假设,即可以认定1阶差分后的序列是平稳非白噪声序列,需要建立模型来拟合该序列的变化趋势。

表3.1.3.1 纯随机性检验代码Box.test(dataseriesdiff1,type="Ljung-Box",lag=30); Box-Ljung testData: Dataseriesdiff1 X-squared=83.411 Df=30 P-value=6.313e-073.2模型确定3.2.1根据阶数确定模型由该序列一阶差分的自相关图和偏自相关图,知道自相关值在滞后2阶之后为0,且偏自相关值在滞后4阶之后缩小至0,那么意味着接下来的ARIMA 模型对于一阶时间序列有如下性质:1、(4,0)ARMA 模型:即偏自相关值在滞后4阶之后缩小至0且自相关值缩小至0,则是一个阶层p=4自回归模型。

2、(0,2)ARMA 模型:即自相关图在滞后2阶之后为0且偏自相关图缩小至0,则是一个阶数q=2的移动平均模型。

3、(p,)ARMA q 模型:即自相关图和偏自相关都缩小至0,则是一个具有p 和q 大于0的混合模型。

接下来我们利用简单的原则来确定哪个模型是最好的:即我们认为具有最少参数的模型是最好的。

(4,0)ARMA 有4个参数,(0,2)ARMA 有2个参数,而(,)ARMA p q至少有两个变量。

因此,(0,2)ARMA 模型被认为是最好的模型。

(02)ARMA ,模型是二阶的移动平均模型,或者称作(2)MA 。

这个模型可以写作:t 1122t t t X εθεθε--=-- (3.2.1)移动平均模型通常用于建模一个时间序列,此序列具有邻项观测值之间短期的相关特征。

直观地,可以很好理解MA 模型可以用来描述苏格兰异性结婚数据中的不规则部分。

3.2.2运用().arima auto 函数[2]自动选择模型表3.2.2.1 ().arima auto 函数运行的结果代码 auto.arima(dataseries);Series: dataseries最优模型(0,1,2)ARIMACoefficients:Ma1 Ma2 0.1022 -0.4311 s.e 0.0763 0.0800sigma^2 estimated as 4121992: log likelihood=-1399.62 AIC=2805.24 AICc=2805.4 BIC=2814.37 从表3.2.1.1中可以得出(0,1,2)ARIMA 模型最适合该序列,这与我们前面通过主观确定的模型一样,这说明(0,1,2)ARIMA 非常适合拟合该序列。

3.3模型的参数检验对于(0,1,2)ARIMA 模型的参数估计问题,我们运用()arima 函数来估计,估计结果如下:表3.3.1 (0,1,2)ARIMA 模型的参数检验代码dataseriesarima=arima(dataseries,order=c(0,1,2));dataseriesarima Call:arima(x = dataseries, order = c(0, 1, 2))Coefficients:Ma1Ma2续表:0.1022 -0.4311 s.e.0.07630.0800sigma^2 estimated as 4068802: log likelihood = -1399.62, aic = 2805.24表3.3.1显示,1022.01=∧θ,4311.02-=∧θ是比较显著地参数,所以模型的方程式确定为:t 120.10220.4311t t t X εεε--=--- 3.3.13.4模型预测以及预测误差的检验3.4.1 模型的预测预测就是要利用已观测到的样本值对序列在未来某个时刻的取值进行估计。

为了对随机序列未来发展进行预测,我们对原序列进行短期(h=5)预测,并与实际值进行对比,观测预测效果,预测结果如下表3.4.1.1所示。

表3.4.1.1 运用(0,1,2)ARIMA 模型预测2010-2015年的结婚数据year Point Forecast 实际观测值 Lo 80 Hi 80 Lo 95 Hi 95 2011 29200.45 29135 26615.40 31785.50 25246.95 33153.95 2012 28905.94 30534 25058.73 32753.16 23022.14 34789.75 2013 28905.94 27547 24685.64 33126.25 22451.54 35360.35 2014 28905.94 28702 24342.95 33468.94 21927.44 35884.44 201528905.942802024024.2633787.6321440.0536371.84表3.4.1.1显示预测值与实际值十分接近,这说明(012)ARIMA ,,模型的拟合效果非常好,很适合该时间序列的拟合。

接下来,我们通过绘制预测图,直观的看预测效果,预测图表明预测效果很好。

Forecasts from ARIMA(0,1,2)1850190019502000200003500050000图3.4.1.1 (0,1,2)ARIMA 预测图3.4.2预测误差的检验在指数平滑模型下,观测ARIMA 模型的预测误差是否是平均值为0且方差为常数的正态分布(服从零均值、方差不变的正态分布)是个好主意,同时也要观测连续预测误差是否自相关。

表3.4.2.1 预测误差的纯随机性检验代码 Box.test(dataforecast$residuals,type="Ljung-Box",lag=30);Box-Ljung testData: dataforecast$residualsX-squared=42.036 Df=30 P-value=0.0710705101520-0.20.20.61.0LagA C FSeries dataforecast$residuals图3.4.2.1 预测误差的自相关图相关图显示出在滞后1-20阶中样本自相关值都没有超出显著边界,而且Ljung-Box 检验的p 值为0.7107,所以我们推断在滞后1-20阶中没有明显证据说明预测误差是非零自相关的。

相关主题