当前位置:文档之家› 时间序列模式挖掘

时间序列模式挖掘

第6章时间序列和序列模式挖掘(讲稿)6.1时间序列及其应用时间序列(Time Series)挖掘是从大量的时间序列数据中提取人们事先不知道的但又是潜在有用的信息和知识,是数据挖掘中的一个重要研究分支,有广泛的应用价值。

近年来,时间序列挖掘在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格变动(长期的观察,有周期性)等众多领域得到应用。

事实上,社会、科学、经济、技术等领域中广泛存在着大量的时间序列数据有待进一步的分析和处理。

时间序列数据挖掘通过研究信息的时间特性,深入洞悉事物进化的机制,是获得知识的有效途径。

从统计意义上来讲,所谓时间序列就是将某一指标在不同时间上的不同数值,按照时间先后顺序排列而成的数列。

它可以是观察值也可以是记录值。

这种数列由于受到各种偶然因素的影响。

往往表现出某种随机性,彼此之间存在着在统计上的依赖关系。

虽然每一时刻上的取值或数据点的位置具有一定的随机性,不可能完全准确地用历史值来预测将来。

但前后时刻的数值或数据点的相关性往往呈现某种趋势性或周期性变化----这是时间序列挖掘的可行性之所在。

时间序列挖掘通过对过去历史行为的客观记录分析,揭示其内在规律(如波动周期,振幅,趋势),进而完成预测未来行为等决策性工作。

人们希望通过对时间序列的分析,从大量的数据中发现和揭示某一现象的发展变化规律或从动态的角度刻画某一现象与其他现象之间的内在数量关系,以掌握和控制未来行为。

简言之,时间序列数据挖掘就是要从大量的时间序列数据中提取人们事先不知道的、但又是潜在有用的与时间属性相关的信息和知识,并用于短期、中期或长期预测,指导人们的社会、经济、军事和生活等行为。

从数学意义上来讲,如果我们对某一过程中的某一变量进行X(t)观察测量,在一系列时刻t1,t2,…,t n(t为自变量,且t1<t2<…,<t n)得到的离散有序数集合X t1,X t2,…,X tn称为离散数字时间序列。

设X(t)是一个随机过程,X ti (i=1,2,…,n)称为一次样本实现,也就是一个时间序列。

时间序列的研究必须依据合适的理论和技术进行,时间序列的多样性表明其研究必须结合序列特点来找到合适的建模方法。

一元时间序列:如某种商品的销售量数列等,可以通过单变量随即过程的观察获得规律性信息。

多元时间序列:如包含气温、气压、雨量等在内的天气数据,通过多个变量描述变化规律。

时间序列挖掘需要揭示各变量间相互依存关系的动态规律性。

离散型时间序列:如果某一序列中的每一个序列值所对应的时间参数为间断点,则该序列就是一个离散时间序列。

连续型时间序列:如果某一序列中的每个序列值所对应的时间参数为连续函数,则该序列就是一个连续时间序列。

序列的分布规律:序列的统计特征可以表现平稳或者有规律的震荡,这样的序列是分析的基础点。

此外如果序列按某类规律(如高斯型)的分布,那么序列的分析就有了理论根据6.2时间序列预测的常用方法时间序列分析是概率统计学中的一个新的分支,时间序列分析在经济统计和预测技术中占有重要地位。

它的起源由研究经济中的价格变动而引发。

时间序列分析的一个重要应用是预测,时间序列预测法就是通过编制和分析时间序列,根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,借以预测下一段时间或以后若干年内可能达到的水平。

其内容包括:收集与整理某种社会现象的历史资料;对这些资料进行检查鉴别,排成数列;分析时间序列,从中寻找该社会现象随时间变化而变化的规律,得出一定的模式;以此模式去预测该社会现象将来的情况。

为了对时间序列预测方法有一个比较全面的了解,我们首先对时间序列预测的主要方法加以归纳。

6.2.1确定性时间序列预测方法对于平稳变化特征的时间序列来说,假设未来行为与现在的行为有关,利用属性现在的值预测将来的值是可行的。

例如,要预测下周某种商品的销售额,可以用最近一段时间的实际销售量来建立预测模型。

对于具有明显季节变动的时间序列来说,需要先将最近的观察值去掉季节性因素的影响产生变化趋势,然后结合季节性因素进行预测。

一种更科学的评价时间序列变动的方法是将变化在多维上加以综合考虑,把数据的变动看成是长期趋势、季节变动和随机型变动共同作用的结果。

长期趋势:随时间变化的、按照某种规则稳步增长、下降或保持在某一水平上的规律。

季节变动:在一定时间内(如一年)的周期性变化规(如冬季羽绒服销售增加)。

随机型变动:不可控的偶然因素等。

设T t表示长期趋势,S t表示季节变动趋势项,C t表示循环变动趋势项,R t表示随机干扰项,y t是观测目标的观测记录。

则常见的确定性时间序列模型有以下几种类型:加法模型:y t= T t +S t + C t + R t。

乘法模型:y t= T t·S t·C t·R t。

混合模型:yt = Tt·St + Rt 或yt = St + Tt·Ct·Rt虽然这种确定性时间序列预测技术可以控制时间序列变动的基本样式,但他对随机变动因素的分析缺少可靠地评估方法。

实际上,随机性波动尽管可能由许多偶然因素共同作用的结果,但也是有规律可循的。

6.2.2随机时间序列预测方法通过建立随机模型,对随机时间序列进行分析,可以预测未来值。

若时间序列是平稳的,可以用自回归(Auto Regressive,简称AR)模型、移动回归模型(Moving Average,简称MA)或自回归移动平均(Auto Regressive Moving Average,简称ARMA)模型进行分析预测。

6.2.3其他方法可用于时间序列预测的方法很多,其中比较成功的是神经网络。

由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。

假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

每一种方法都是来源于实践,时间序列分析方法也是如此。

1927年数学家耶尔(Yule)为了预测市场变化的规律,提出的自回归(Autoregressive)模型,标志着时间序列分析方法的产生。

接着1931年瓦尔格(Walker)在自回归(AR)模型的启发下,建立了滑动平均(Moving Average)模型及自回归滑动平均(Autoregressive Moving Average)模型。

20世纪70年代博克斯(Box)与詹金斯(Jenkins)在《Time Series Analysis:Forecasting and Control》(《时间序列分析:预测与控制》)―书中正式提出了时间序列分析法,并指出理论上它适用于各种领域的时间序列分析。

下面我们就来看一看各个具体模型。

6.3基于ARMA 模型的序列匹配方法ARMA 模型(特别是其中的AR 模型)是时序方法中最基本的、实际应用最广的时序模型。

早在1927年,G . U. Yule 就提出了AR 模型,此后,AR 模型逐步发展为ARMA 模型、多维ARMA 模型。

ARMA 通常被广泛用于预测。

由于ARMA 模型是一个信息的凝聚器,可将系统的特性与系统状态的所有信息凝聚在其中,因而它也可以用于时间序列的匹配。

6.3.1 基本概念1、ARMA 模型X 在t 时刻的取值不仅与其前n 步的各个值步的各个干扰 有关(ARMA (n ,m )模型:其中 2、AR 模型AR (n )模型是ARMA (n ,m )模型的一个特例。

在上面ARMA (n ,m )模型表达中,当 时,有其中 。

由于此时模型中没有滑动平均部分,所以称为n 阶自回归模型,记为AR (n )。

3、MA 模型MA (m )模型是ARMA (n ,m )模型的另一个特例。

在上面ARMA (n ,m )模型表达中,当 时,有其中 。

由于模型中没有自回归部分,所以称为m 阶滑动平均( Moving Average )模型,记为MA (m )。

可用于时间序列预测的方法很多,其中比较成功的是神经网络。

由于大量的时间序列是非平稳的,因此特征参数和数据分布随着时间的推移而变化。

假如通过对某段历史数据的训练,通过数学统计模型估计神经网络的各层权重参数初值,就可能建立神经网络预测模型,用于时间序列的预测。

从上面模型的形式可以看出,AR 模型描述的是系统对过去自身状态的记忆,MA 模型描述的是系统对过去时刻进入系统的噪声的记忆,而ARMA 模型则是系统对过去自身状态以及各时刻进入的噪声的记忆。

6.3.2 利用基本概念建立模型解决问题的首要任务是建立序列对应的ARMA 模型,然后通过构造判别函数来进行序列的相似性判断。

如果从计算速度的要求上来看,建立AR 模型是一种经济的选择。

建立AR 模型最常用的方法是最小二乘法。

具体方法如下:对于AR(n)模型,有其中 ,即可以用以下线性方程组表示:m t t t ---ααα ..., , ,21t j t j m j i t i n i t x x ααθϕ+-=-=-=∑∑11j t j m j t t x -=∑-=αθα10=j θ0=i ϕt n t n t t t x x x x αϕϕϕ++++=---...2211),0(~ 2a t NID δα111211...+-+++++=n n n n n x x x x αϕϕϕ),0(~ 2a t NID δαt i t i n i t x x αϕ+=-=∑1),0(~ 2a t NID δα),0(~ 2a t NID δα……或者写成如下矩阵型式:其中根据多元线性回归理论,参数矩阵φ的最小二乘估计为:补充:对于变量间的相关关系,我们可以根据大量的统计资料,找出它们在数量变化方面的规律(即“平均”的规律),这种统计规律所揭示的关系就是回归关系最小二乘法的基本原则是:最优拟合直线应该使各点到直线的距离的和最小,也可表述为距离的平方和最小。

6.3.3 构造判别函数根据上面的模型,我们可以获得待测序列的参数模型φx ,同样我们也可以得到序列数据库中的其他序列Y i 的参数模型φyi 。

φx 和φyi 都是n 维向量,故均可视为n 维空间上的点,从而序列的相似性问题就归结为n 维空间R n 中的距离问题。

因此,我们下面简单介绍几种基于距离的判别函数。

1. Euclide假设φx 表示待检模型,φy 表示参考模型,那么序列的相似性查找问题可以转化为两者的Euclide 距离计算。

表示如下:如果待检模型月某个参考模型的Euclide 距离最小,则它和这个参考序列最相似。

Euclide 的最大缺陷是未考虑模式向量φ中各元素重要性的不同,即将φ中的所有φi 均等对待。

相关主题