当前位置:文档之家› 《时间序列分析及应用:R语言》读书笔记

《时间序列分析及应用:R语言》读书笔记

《时间序列分析及应用:R语言》读书笔记姓名:石晓雨学号:1613152019(一)、时间序列研究目的主要有两个:认识产生观测序列的随机机制,即建立数据生成模型;基于序列的历史数据,也许还要考虑其他相关序列或者因素,对序列未来的可能取值给出预测或者预报。

通常我们不能假定观测值独立取自同一总体,时间序列分析的要点是研究具有相关性质的模型。

(二)、下面是书上的几个例子1、洛杉矶年降水量问题:用前一年的降水量预测下一年的降水量。

第一幅图是降水量随时间的变化图;第二幅图是当年降水量与去年降水量散点图。

win.graph(width=4.875, height=2.5,pointsize=8) #这里可以独立弹出窗口data(larain) #TSA包中的数据集,洛杉矶年降水量plot(larain,ylab='Inches',xlab='Year',type = 'o') #type规定了在每个点处标记一下win.graph(width = 3,height = 3,pointsize = 8)plot(y = larain,x = zlag(larain),ylab = 'Inches',xlab = 'Previous Year Inches')#zlag 函数(TSA包)用来计算一个向量的延迟,默认为1,首项为NA从第二幅图看出,前一年的降水量与下一年并没有什么特殊关系。

2、化工过程win.graph(width = 4.875,height = 2.5,pointsize = 8)data(color)plot(color,ylab = 'Color Property',xlab = 'Batch',type = 'o')win.graph(width = 3,height = 3,pointsize = 8)plot(y = color,x = zlag(color),ylab = 'Color Property',xlab = 'Previous Batch Color Property')len <- length(color)cor(color[2:len],zlag(color)[2:len])#相关系数>0.5549第一幅图是颜色属性随着批次的变化情况。

第二幅图画一下前一批次与本批次是散点图。

上面的图显示了稍微向上的趋势,即数值较大的后一批次也趋向于更大的数值。

但是并不明显,相挂系数只有0.5549.3、加拿大野兔年丰度win.graph(width=4.875, height=2.5,pointsize=8)data(hare)plot(hare,ylab='Abundance',xlab='Year',type='o')win.graph(width=3, height=3,pointsize=8)plot(y=hare,x=zlag(hare),ylab='Abundance',xlab='Previous Year Abundance') len <- length(hare)cor(hare[2:len],zlag(hare)[2:len])>0.7026看一下下面的图,明显有周期性质。

上面的图看出前一年的数值跟本年度数值相关关系较大。

相关系数为0.7026.4、艾奥瓦州迪比克市月平均气温非常明显的周期性。

季节性模式。

5、滤油器月销售量win.graph(width=4.875, height=2.5,pointsize=8)data(oilfilters)plot(oilfilters,type='o',ylab='Sales')win.graph(width=4.875, height=2.5,pointsize=8)plot(oilfilters,type='l',ylab='Sales')Month=c("J","A","S","O","N","D","J","F","M","A","M","J")#注意这里是从1983年7月到1987年6月points(oilfilters,pch=Month)plot(oilfilters,type='l',ylab='Sales')points(y=oilfilters,x=time(oilfilters),pch=as.vector(season(oilfilters)))#这里的season函数的返回值取决于传入数值“向作者提供数据时,经理说没有理由认为销售量存在季节性。

”“假如各年1月与1月的数据之间存在关联趋势,2月与2月的数据之间存在关联趋势,那么就有季节性。

”上面的图作者说没有显示明显的季节性。

其实……还好,季节性比较明显了已经。

在加上月份的标识之后,确实比原来更能显示出季节性规律。

总之,恰当和有益于发现特定模式的绘图方法,有利于找到符合时间序列数据的合适模型。

(三)、建模策略给时间序列寻找合适的模型并非易事,多步建模策略很有用,包括三个可反复使用的主要步骤:1、模型识别2、模型拟合3、模型诊断模型识别就是在时间序列模型类中选择适合观测值的模型。

进一步可以观察时间序列图,计算一些统计量。

选取的模型是有待考证的,选取原则是能表示模型的前提下选取参数少的。

第二步就是用数据将将选取模型中的参数估计出来,估计方法是最小二乘挥着极大似然。

最后就是对模型进行质量评估。

针对一些问题对模型进行估计,看模型是否合理:比如模型对数据的拟合程度有多好,模型前提是否满足等。

如果没有不足之处,就可以进行预测等任务,如果有不足之处,针对不足之处寻找其他模型,再进行上面三个步骤。

(四)、历史上的时间序列图名言:“时间序列图是图形设计最常用的形式,其一个维度沿着秒、分、时、日、周、月、年、乃至千年等规则的时间节律延伸,时间标度的自然顺序赋予了这种设计以解释的力量和效率,这一点在其他图形设计上了无痕迹。

”(五)、笔记:第一章简介统计时序分析方法:1、频域分析方法2、时域分析方法步骤:1、观察序列特征2、根据序列特征选择模型3、确定模型的口径4、检验模型,优化模型5、推断序列其它统计性质或预测序列将来的发展时域分析研究的发展方向:1、AR,MA,ARMA,ARIMA(Box-Jenkins模型)2、异方差场合:ARCH,GARCH等(计量经济学)3、多变量场合:“变量是平稳”不再是必需条件,协整理论3、非线性场合:门限自回归模型,马尔科夫转移模型第二章时间序列的预处理预处理内容:对它的平稳性和纯随机性进行检验,最好是平稳非白噪声的序列1、特征统计量1.1概率分布分布函数或密度函数能够完整地描述一个随机变量的统计特征,同样一个随机变量族{Xt}的统计特性也完全由它们的联合分布函数或联合密度函数决定。

1.2特征统计量:均值Ex方差σ2自协方差函数(γ)和自相关系数(ρ):比较的是1个事件不同时期之间的相互影响程度2、平稳的时间序列2.1定义严平稳:随机变量族的统计性质完全有它们的联合概率分布族决定,若任意的t下的联合概率分布族相等,则认为该序列是严平稳的宽平稳:统计性质主要由它的低阶矩决定:1)Ex2<无穷2)均值为常数:Ex=μ(μ为常数)3)自协方差和自相关系数只依赖于时间的平移长度而与时间的起止点无关满足以上3点则称为宽平稳时间序列(弱平稳或者二阶平稳)一、检验:1、平稳性检验:图检验方法:时序图检验:该序列有明显的趋势性或周期性,则不是平稳序列自相关图检验:(acf函数)平稳序列具有短期相关性,即随着延迟期数k的增加,平稳序列的自相关系数ρ会很快地衰减向0(指数级衰减),反之非平稳序列衰减速度会比较慢构造检验统计量进行假设检验:单位根检验adfTest()——fUnitRoots包2、纯随机性检验、白噪声检验(Box.test(data,type,lag=n)——lag表示输出滞后n阶的白噪声检验统计量,默认为滞后1阶的检验统计量结果)1、Q统计量:type=“Box-Pierce”2、LB统计量:type=“Ljung-Box”二、模型1、ARMA平稳序列模型1.1平稳性检验1.2ARMA的p、q定阶——acf(),pacf(),auto.arima()自动定阶1.3建模arima()1.4模型显著性检验:残差的白噪声检验Box.test();参数显著性检验t分布2、非平稳确定性分析2.1趋势拟合:直线、曲线(一般是多项式,还有其它函数)2.2平滑法移动平均法:SMA()——TTR包指数平滑法:HoltWinters()3、非平稳随机性分析3.1ARIMA1平稳性检验,差分运算2拟合ARMA3白噪声检验3.2疏系数模型arima(p,d,f)3.3季节模型可以叠加的模型4、残差自回归模型:4.1建立线性模型4.2对滞后的因变量间拟合线性模型,对模型做残差自相关DW检验。

dwtest()——lmtest 包,增加选项order.by指定延迟因变量4.3对残差建立ARIMA模型5、条件异方差模型:异方差检验:LM检验ArchTest()——FinTS包,用ARCH、GARCH 模型建模。

相关主题