随机过程与随机信号处理课程论文
论述马尔可夫模型的降水预测方法
摘要:预测是人们对未知事物或不确定事物行为与状态作出主观的判断。中长期降水量的预测是气象科学的一个难点问题, 也是水文学中的一个重要问题。今年来,针对降水预测的随机过程多采用随机过程中的马尔可夫链。本文总结了降水预测的马尔可夫预测的多种方法和模型,对其中的各种方法的马尔可夫链进行了比较和分析,得出了一些有用的结论。
关键字:降水预测,随机过程,马尔可夫链,模拟
前言:大气降水是自然界水循环的一个重要环节。尤其在干旱半干旱地区, 降水是水资源的主要补给来源, 降水量的大小,决定着该地区水资源的丰富程度。因此, 在水资源预测、水文预报中经常需要对降水量进行预报。然而, 由于气象条件的变异性、多样性和复杂性, 降水过程存在着大量的不确定性与随机性, 因此到目前为止还难以通过物理成因来确定出未来某一时段降水量的准确数值。在实际的降水预测中,有时不必预测出某一年的降水量,仅需预测出某个时段内降水的状况既可满足工作需要。因此,预测的范围相应扩大,精度相应提高。因此对降水的预测可采用随机过程的马尔可夫链来实现。
用随机过程中马尔可夫链进行预测是一种较为广泛的预测方法。它可用来预测未来某时间发生的变化, 如预测运输物资需求量、运输市场等等。马尔可夫链,
就是一种随机时间序列, 它表示若已知系统的现在状态, 则系统未来状态的规律就可确定, 而不管系统如何过渡到现在的状态。我们在现实生活中, 有很多情况具有这种属性, 如生物群体的生长与死亡, 一群体增加一个还是减少一个个体,
它只与当前该生物群体大小有关, 而与过去生物群体大小无关。]
本文针对降水预测过程中采用马尔可夫链进行模拟进行了综述和总结。主要的方法有利用传统的马尔可夫链的方法模拟 ;有采用加权的马尔可夫链模拟来进行预测;还有基于模糊马尔可夫链状模型预测的方法;还有通过聚类分析建立降水序列的分级标准来采用滑动平均的马尔可夫链模型来预测降水量;从这些方法中我们可以看出,马尔可夫链对降水预测有着重要的理论指导意义。
1.随机过程基本原理
我们知道,随机变量的特点是,每次试验结果都是一个实现不可预知的,但为确定的量。而在实际中遇到的许多物理现象,实验所得到的结果是一个随时间变化的随机变量,且用一个或多个随机变量我们有时无法描述很多这种现象的的全部统计规律,这种情况下把随时间变化的随机变量的总体叫做随机过程。对随机过程的定义如下: 设E={e}是一个样本空间,若对每一时刻t∈T,都有定义在E上的随机变量X(t,e)与之对应,则称依耐t的一族随机变量{X(t,e),t∈T,e∈E}是一个随机过程,通常将它简化为{X(t),t∈T}. 随机过程一般应表示为{X(t),t∈T}.随机过程可分为以下两大类,一类为时间参数集T为离散时间集合,即参数集T是一个可列集,如果
,k012NkTt,,,..., 或 ,k012kTt,,,...,,则称{X(t), t∈T}为离散时间随机过程,或称随机序列。另一类为时间参数集T为连续时间集合,是一个不可列集,如果0NtttTt, 或 0ttTt, 则称{X(t), t∈T}为连续时间随机过程,或简称随机过程。
2.传统的马尔科夫链方法模拟来进行降水预测
“马尔可夫模型”是由俄国数学家A. A. M arkov 在1996年最早提出, 经过几十年不断的发展,M arkov 过程已成为随机过程的一个重要分支, 该方法利用变量的状态转移概率矩阵可预报变幅较大的随机波动, 在生物学、物理学、天文学领域中已有广泛的应用[1, 2 ]。马尔可夫链可以描绘一个随即变化的动态系统,
它根据状态之间的转移概率来推测一个系统未来的发展变化, 而转移概率反映了各随机因素的影响程度, 反映了各状态之间转移的内在规律性, 适合描述随机波动行较大的预测问题.
定义1: 设X ( t) 是一随机过程, 当过程在时刻t0 所处的状态已知的条件下,
过程在时刻t ( t> t0) 所处的状态与过程在时刻t0 之前的状态无关, 这个特性称为无后效性。无后效性的随机过程称为马尔可夫过程。
定义2: 时间离散、状态离散的马尔可夫过程称为马尔可夫链[4 ]。对于马尔可夫链, 用P ij 表示系统由状态E j 经过一次转移到达状态E j 的转移概率。由转移概率构成的矩阵, 即
111213142122232431323334n12n34PPP...PPP...PPPP..................PPP...nnPPPP
称为马尔可夫链的状态转移概率矩阵。
由于从任何一个状态Ei 出发, 经过转移后, 必然出现状态E1、E2、E3, 因此 (0)ikikkpp
任一系统的状态空间I , 可以分解为下列不相交子集之和
12I=CC...N
其中N 为所有非常返状态组成集合, Ci (i= 1, 2, …) 是互不相交的常返状态组成的闭集.若j 是非周期的正常返状态, 则
(n)ijtnlimp1/U
Uj为状态j 的平均返回时间, 我们称概率分布j{jI},为马尔可夫链的平稳分布, 其中I 为状态空间, 若它满足
iiijiIp
ijiI0
若j{jI},}是马尔可夫链的平稳分布, 则
jjjnlimP(n) = 1/U
采用随机过程的马尔可夫进行预测,能充分利用历史数据的信息,其预测精度较高。同时可建立在历史数据分析之上,历史数据越多,越准确,预测也越可靠。但同时也具有两大缺点: 第一, 只考虑了最大概率, 忽略了其它概率的影响;第二, 不清楚预报对象在区间内的大致位置, 无法达到预报对象具体值的要求。
3.加权的马尔可夫链的降水预测
对于一列相依的随机变量,用步长为1的马尔可夫链模型和初始分布推算出未来时段的绝对分布来做预测分析,可称之为基于绝对分布的马尔可夫链预测方法。对于利用各阶(多步长)马尔可夫链求得的绝对分布叠加来做预测分析,可称之为叠加马尔可夫链预测法。对于这两种Markov链预测方法,其各自都存在一定的局限性,对于基于绝对分布的马尔可夫链预测方法,默认所论的马尔可夫链满足“齐次性”缺乏依据,事实上,应用中所论及的随机变量序列,尽管满足马尔可夫性,但“齐次性”一般都不满足。另外该法没有考虑到对应各阶(各种步长)马尔可夫链的绝对分布在预测中所起的作用,因此没有能充分利用已知数据资料的信息。而对于叠加马尔可夫链预测方法,尽管应用了各阶(各种步长)马尔可夫链的绝对分布叠加来预测状态,但没有考虑到各阶马尔可夫链对应的绝对概率在叠加中所起的作用,即认为各阶马尔可夫链的绝对概率所起的作用是相同的,这显然是不科学的,事实上满足马尔可夫性的相依时间序列,其各阶自相关性是不一致的。一列相依的随机变量,其各阶自相关系数刻画了各种滞时的状态间的相关关系的强弱。因此,可考虑先分别依其前面若干时段的指标值的状态进行预测,然后,按前面各年与该年相依关系的强弱进行加权求和,充分合理地利用信息进行预测,这就是加权马尔可夫链预测的基本思想。传统的马尔可夫链预测方法与加权马尔可夫链预测方法都没有对指标值序列进行马尔可夫性检验,这是一个缺陷。本研究提出的加权马尔可夫链预测方法弥补了这个缺陷,具体方法如下:
(1)计算指标值序列的均值、均方差,建立指标值的分级标准,确定马尔可夫链的状态空间。可根据资料序列的长短及具体问题的要求进行。可以样本均方差为标准[ 5~7 ]也可用有序聚类的方法建立分级标准[ 7 ]将指标进行分级。确定马尔可夫链的状态空间E = { 1, 2, ⋯, m }。
(2)按所建立的分级标准,确定资料序列各时段指标值所对应的状态。
(3)对所得结果进行统计,可得到不同步长马尔可夫链的转移概率矩阵,它决定了指标值状态转移过程的概率法则。
(4)马尔可夫性检验。
(5)计算各阶自相关系数rk , k ∈ E ( E为所研究序列的状态空间)。
2nknkll+kll1l=1r(xx)(xx)/(xx)
式中: rk 为第k阶滞时的自相关系数; xl为第l时段的指标值; x为指标均值; n为指标序列的长度。对各阶自相关系数规范化,即
mkkkk1w|r|/|r|
将wk 作为各种滞时(步长) 的马尔可夫链的权重(m 为按时间需要计算到的最大阶数) 。
(6) 分别以前面若干时段的指标值为初始状态, 结合其相
应的各阶转移概率矩阵即可预测出该时段的状态概率P( k)i , i∈ E, k为滞时(步长),k=1,2,…m. (7) 将同一状态的各预测概率加权和作为指标值处于该状态的预测概率,即
m(k)ikii1pwp
imax(piE), 所对应的状态即为该时段指标值的预测状态。待该时段的指标值确定后,将其加入到原始序列中,再重复步骤(1) ~ (7) ,可进行下一时段指标值状态的预测。
随机序列是否具有马尔可夫性,是应用马尔可夫链模型分析和解决实际问题的必要前提[ 5 ]。通常离散序列的马尔可夫链可用x2 统计量来检验。
对于指标值的分级,传统的方法是应用样本均值与样本标准差来刻画指标值的变化区间, 设指标值序列为x1 , x2 , …, xn ,样本均值为x,样本标准差为
n2ii=11s=(xx)n1。如果这是一个弱相关(相关系数的绝对值≤ 0. 2) 序列,则可以看做是独立同分布的序列。由中心极限定理知: P{ x - 1. 5s ≤ x < x +1. 5s} ≈
2 (1. 5) - 1 = 0. 87; P{ x - s ≤ x < x + s} ≈ 2 (1. 0)- 1 = 0. 68。于是, 可按指标是否落在( - ∞, x - 1. 0s) , (x -1. 0s, x - 0. 5s) , (x - 0. 5s, x + 0. 5s) , (x
+ 0. 5s, x + 1. 0s) , (x +1. 0s, + ∞) 内,把指标值分成5组。利用这种方法对指标值进行分类,不考虑物理成因对指标值的影响, 仅仅从统计的角度简单地把样本均值作为指标值的中心, 这种方法操作较为方便,因此应用也较广泛。
采用加权的马尔可夫来进行降水的预测主要优点有(1)应用样本均值- 标准差分级法来确定分级数,再取适当的α1、α2 值,可以更加充分地应用到降水序列的数据结构,从而可以更加有效地刻画降水序列内在的分布规律,使划分的降水量区间分级标准更合理。
(2)预测结果为降水量的某一个状态(区间值) ,而不是一个具体的数值,在可以完全满足实际工作的前提下,预测的范围更广,其可靠性也得到了提高。
(3)由于各种步长的自相关系数为权重,用各种步长的马尔可夫链加权来预测降水状态,与普通的马尔可夫链预测相比较,它可以更充分、更合理地利用信息,使其成功地将马尔可夫链与相关分析结合起来进行预测。
(4)根据最后计算出来的状态概率分布,求所预测的降水量的具体值,仍是一个有待解决的问题,加权马尔可夫链的方法为这样的预测提供了一个新的思路。