时间序列预处理优秀课件
方法:增长量推算法、 发展速度推算法 比例推算法、平滑法、 插值估算法
在SPSS中,缺失值填充方法:
1、series mean 全体序列的均数,默认值
2、mean of nearby points 相邻若干点的均数
3、median of nearby points :相邻若干点的中位数
4、linear interpolation :线性内插,缺失值相邻两点的 均数,但缺失值在序列的最前/最后,则无法被填充。
(一)离群点(outier):指在一个时间序列里,远离序列一 般水平的极端大值和极端小值。也称奇异值或者野值。 (二) 离群点产生的原因 1、采样中的误差。 2、被研究现象本身由于受各种偶然非正常的因素影响而引 起的。 (三)离群点的主要影响 1、影响模型的拟合精度,甚至得到虚假信息;被认为是 一个“坏值”。
第二章
时间序列的预处理
本章结构
时间序列的建立(补充) 平稳性检验 纯随机性检验
补充: 时间序列的建立
要分析时间序列,就必须建立一个时间 序列。一般来说,研究者是运用记录仪或通 过观察测量来获得所研究系统的真实有限的 数据集合。有时也可以直接用二手资料。但 是,不论是通过哪一种途径获得的时间序列, 在进行分析处理前,必须对所依据的资料进 行认真地检查、整理,有时还需要进行适当 的预处理。我们把获取时间序列以及对其进 行检查、整理和预处理等工作,称为时间序 列的建立。
宽平稳
宽平稳是使用序列的特征统计量来定义的一种平稳 性。它认为序列的统计性质主要由它的低阶矩决定, 所以只要保证序列低阶矩平稳(二阶),就能保证 序列的主要性质近似稳定。
平稳时间序列的统计定义
满足如下条件的序列称为严平稳序列
2、同时可以提供重要信息。如关于系统稳定性和灵敏性 等信息。
(四)离群点的分类
1 加性离群点(Additive Outlier),造成这种离
群点的干扰,只影响该干扰发生的那一个时刻T 上
的序列值,即 X T ,而不影响该时刻以后的序列值,
。 X X , , T1
T 2
2 更新离群点(Innovational Outlier),造成离
1 确定时间序列的时间间隔
2 确定指标计算范围5 检查数据
6 调整数据
时间序列的预处理
无规律可循, 分析结束
时间序列
平稳性 检验
平稳性 纯随机 时间序列 性检验
白噪声序列 (纯随机序列)
ARMA 模型
平稳非白噪声序列
非平稳性 时间序列
1.确定性分析 2.随机性分析(ARIMA模型)
2.1平稳性检验
特征统计量 平稳时间序列的定义 平稳时间序列的统计性质 平稳时间序列的意义 平稳性的检验
概率分布
概率分布的意义
随机变量族的统计特性完全由它们的联合分布函数 或联合密度函数决定。
时间序列概率分布族的定义 {Ft1,t2, ,tm(x1,x2,,xm)} m(1,2,,m) , t1,t2,,tmT
一、时间序列数据的采集
1 采样:按照一定的时间间隔对所研究 系统的响应进行记录和观察。
2 采样间隔(时间频率):记录和观察的时 间间隔。一般采样是等间隔的,比如年、月、 日等。时间的频率。
3 采样原则:关键采样间隔的选择,希 望所采到的样本没有信息损失,也没有信息 冗余。
二 、离群点(outiler)的检验与处理
群点的干扰不仅作用于 X T ,而且影响时刻T 以后序 列的所有观察值 X T1, X T2 ,,它的出现意味着一个外 界干扰作用于系统的开始,并且其作用方式与系统 的动态模型有关。
(四)离群点的分类
3 水平移位离群点(Level Shift Outlier),造成这种离 群点的干扰是在某一时刻T ,系统的结构发生了变化,并 持续影响T 时刻以后的所有行为,在数列上往往表现出T 时 刻前后的序列均值发生水平位移。
时间序列预处理
时间序列之概念
(1)从统计意义上,将某一指标在不同时间 上的不同数值,按照时间的先后次序排列而成 的数列。各种偶然因素的影响,表现出某种随 机性,存在统计上的依赖关系。
(2)从系统意义上,某一系统在不同时间 (地点,条件等)的响应。
(3)从数学意义上,对某一过程中的某一个 变量或一组变量X(t)进行观察测量,在一系列 时刻t1 t2 t3 等得到的离散有序数集合X(t1),X (t2),称为离散时间序列。
〈在统计分析中如何识别极端值〉
《江苏统计》1999、11 郭莉 1、四分展步法
2、3 法
3、茎叶图法
三、缺损值(Missing value)的补足
缺损值:在采集时间序列时,由于种种原因, 引起在某些观测点上未能记录下来观测值。
缺损值的影响:破坏了系统运行的连续性,违 背了时间序列“顺序的重要性”的原则。
5、linear trend at point .该点的线性趋势,将记录号 作为自变量,序列值作为应变量回归,求得该点的估 计值。
最后对序列中的每一个数据的指标口径、 计算范围、计算方法、计量单位等进行 认真检查,对经济时间序列来说,还必 须检查计算价格等方面是否一致。
四 时间序列建立的实例
4 暂时变更离群点(Temporary Change Outlier),造成 这种离群点的干扰是在T 时刻干扰发生时具有一定初始效 应,以后随时间根据衰减因子 的大小呈现指数衰减的一 类干扰事件。
(五)离群点的检验
1、确定离群点范围,如果某一时刻数值超出该范围, 则说明该点是离群点。
2、对数据进行模型分析,然后根据拟合模型后的残 差序列计算特定的统计量,测出离群点及其类型,并 用相应的模型修正。
实际应用的局限性
特征统计量
均值
t EX t xdt(Fx)
方差
D t X E (X tt)2 (xt)2 dt(F x )
自协方差
(t,s ) E (X tt)X (ss)
自相关系数
(t,s) (t,s)
DXt DXs
平稳时间序列的定义
严平稳
严平稳是一种条件比较苛刻的平稳性定义,它认为 只有当序列所有的统计性质都不会随着时间的推移 而发生变化时,该序列才能被认为平稳。