马尔可夫链
马尔可夫链是一种特殊的随机过程,最初由 A.A .M arkov 所研究。
它的直观背景如下 : 设有一随机运动的系统 E ( 例如运动着的质点等 ) ,它可能处的状态记为E 0 , E1 ,..., E n ,.... 总共有可数个或者有穷个。
这系统只可能在时刻t=1,2, n, 上改变它的状态。
随着的运动进程,定义一列随机变量 Xn,n=0,1, 2, ?其中Xn=k,如在 t=n 时,位于 Ek。
定义 1.1 设有随机过程 X n, n T ,若对任意的整数 n T 和任意的
i 0 , i1 ,...i n 1 I , 条件概率满足
{ i
n 1 X
i ,...,
X n i n
}{ i
n 1
X
n i n
}
P X n 1 0 P X n 1
则称 X n, n T为马尔可夫链,简称为马氏链。
实际中常常碰到具有下列性质的运动系统。
如果己知它在t=n 时的状态,则关于它在 n时以前所处的状态的补充知识,对预言在 n时以后所处的状态,不起任何作用。
或者说,在己知的“现在”的条件下,“将来”与“过去”是
无关的。
这种性质,就是直观意义上的“马尔可夫性”,或者称为“无后效性” 。
假设马尔可夫过程 X n, n T 的参数集T是离散时间集合,即T={0,1,2, }, 其相应 Xn可能取值的全体组成的状态空间是离散状态空间I={1,2,..}。
定义 1.2 条件概率
P( n) {
j X n i }
ij
p X n 1
称为马尔可夫链X n, n T 在时刻n的一步转移矩阵,其中i,j I ,简称为转移概率。
一般地,转移概率 P ij( n )不仅与状态 i,j 有关,而且与时刻 n有关。
当 P ij( n)不依赖于时刻 n时,表示马尔可夫链具有平稳转移概率。
若对任意的 i ,j I,马尔可夫
链 Xn,n T} 的转移概率 P ij( n)与 n无关,则称马尔可夫链是齐次的。
定义 1.3设p表示一步转移概率p,所组成的矩阵,且状态空间1={1,2,n},则
称为马尔可夫链的一步转移概率矩阵。
它具有如下性质:
(2) P ij1,i I
(1)P ij 0, i, j I ;. j I
定理 1.1设X n, n T为马尔可夫链,则对任意的i1, i2 ,....i n I和 n1,有。
这表明马尔可夫链的有限维分布完全由它的初始概率和一部转移概率所决
定。
因此,只要知道初始概率和一部转移概率,就可以知道马尔可夫链的统
计特性。
定义 1.4 假设 {Xn,n } 是齐次马尔可夫链,其状态空间为I ,转移概率为 Pij ,
称概率分布 { j , j I} 为马尔可夫链的平稳分布,若它满足
对于不可约马尔可夫链,若它的状态是非周期,正常返的,则它是遍历的;对于不可约马尔可夫链,若它的状态是有限且非周期的,则它是遍历的。
值得注意的是,对于一个马尔可夫链,并不是一定存在( n)
lim p 。
例如设马尔可
n
夫链的一部转移矩阵为:
(2n)( 2n 1)( n)不存在。
易知 p I (单位矩阵), p p ,所以lim p
n
在随机过程理论中,马尔可夫链是一类占有重要地位,具有普遍意义的随机
过程。
它广泛应用于现代社会的各个领域,尤其在预测领域有着广泛的应用。
马尔可夫链的预测方法分为很多种。
根据指标值序列分组有 3种。
1)数据序列约定俗成的分组方法:根据人们长久的经验进行分组 : 由于人们在现实生活中积累了生活经验,人们对认识的事物有了感性的了解,就可以对现象进行分组。
2)样本均值一均方差分组法:对于数据序列x1 , x2 ,..., x n,可看作是一个时间序列的前n个观测值,算出样本均值 x 和
样本均方差 s,根据具体情况以样本均值为中心, s为标准进行分组。
3)有序聚类分组法:有序聚类是对有序样品进行分类的一种方法,更加充分地考虑序列的数据结构,使划分的区间更加合理。
有序聚类实现的经典算法是 Fisher 算法,其基本原理为 : 设时间序列x1, x2,..., x n的某一归类是
定义其均值向量为
将公式
定义为 { x1, x2,..., x n } 的直径,其含义表示该变量段内部各变量之间的差异情况。
其值越小,表示该段内变量之间差异越小,或说相互间越接近 ; 反之,表示该段内
变量之间差异越大,或说相互间越分散。
三种马氏链预测方法:
1)基于绝对分布的马尔可夫链预测
步骤 1 对历史数据进行分组 ;
步骤 2 确定观测值的状态,写出频数矩阵(n ij)i,j E,和一步转移矩阵(f ij)i,j E,
n ij
其中 f ij
,其中 n为样本容量,当时n ,可用频数估计概率p ij f ij ,从n -1
而得到一步转移概率矩阵p1p ij。
步骤 3 “马氏性”检验
步骤 4 已知时刻 l 时系统取各个状态的概率可视为马尔可夫链的初始分布,
比如 x1取状态 2, m=5 ,则始分布P(0)=(0,1,0,0,0),于是 l+1 时的绝对分布
()P
(0) P (1) (2) (3) (4) (5)
)
,可认为时刻 1+1时系统所取的状态 j 满足
P 1 (P1 ,P2 , P3 , P4 , P5
j (i)
P1 max{ P1 } ,从而预测 1+ t 时刻的状态。
1 i 5
步骤 5 还可以用马氏链的平稳性,遍历性对系统分析。
2)叠加马氏链预测
步骤 1 对历史数据进行分组 ;
步骤 2 计算各阶的一步转移矩阵1,2,k, I k ,其中 P2 ( f ij )i , j E,
P P ...P {1,2,... } 2
f ij2 n ij(2)
,其他类推。
n - 2
步骤 3“马氏性”检验
步骤 4 如果要预测时刻 1+1的状态,可分别利用 1, 1-1, ?,1-k+1 作为初始态,,l+1 所处的状态 j 满足 P max{ P } 。
列表分析
(j ) 1 i 5 (i)
图1 叠加马氏链预测分析表
步骤 5 重复步骤 1-4 递推预测 ;
步骤 6 进行平稳性,遍历性及其他分析。
3)加权马氏链预测
步骤 1 对历史数据进行分组 ;
步骤 2 计算各阶的一步转移矩阵P P ...P {1,2,... }
,其中 P2
2 )
i , j E
,1, 2 , k,I k ( f ij
f ij2 n ij(2)
,其他类推。
n - 2
步骤 3 “马氏性”检验 ;
步骤 4 计算各阶相关系数:
计算规范的相关系数 :
步骤 5 预测 n+1时刻的状态
步骤 6 重复 1-5 ,预测 n+2时刻的状态,其余类推
步骤 7 讨论其他性质。
马尔可夫预测方法是马尔可夫链在预测领域的一种应用方法。
最初这种方法在水文,气象,地震等方面有广泛的应用,之后经济学家将其应用于研究市场占有率,预测经营利润等方面。
在马尔可夫预测方法中,一个非常重要的问题就是对一步状态转移概率矩阵的估算。
下面以实例分析马尔可夫链在现实生活中的应用。
下面给出长江水域 6类水质所占的比例。
现在要对长江未来 10年的水质污染的发展趋势做一个总体的预测。
为此可建立长江水质污染的马尔可夫链趋势预测的一步转移概率矩阵估计的
最优化模型。
设枯水期长江全流域水质在第t 年属于Ⅰ类、Ⅱ类、Ⅲ类、Ⅳ类、Ⅴ类、劣Ⅴ类这 6类状态的比例向量分别为
( t)( P t (1),P t (2),...P t (6)),t 0,1,2,....9 .设 P( p ij ) 6 6为6类状态矩阵的一步转移概率,根据误差平方和达到最小的准则,建立如下最优化模型:
用 matlab 软件求解得
由下式
可以对长江未来 10年的水质污染属于Ⅰ类、Ⅱ类、Ⅲ类、Ⅳ类、Ⅴ类、劣Ⅴ类这6类状态的比例向量作出预测,预测结果见下表
从预测计算结果可以看出:枯水期长江全流域水质属于Ⅳ类、Ⅴ类、劣Ⅴ类这 3 类状态的比例并没有发生根本性的减少,水质污染程度依然十分严重。
因此我们要采取积极措施,例如要严加控制企业废水和城市生活垃圾乱排乱
放,政府要大力推进城市发展生态农业和有机农业,综合防治面源污染。
加大宣传力度,使群众能够清醒地认识到水资源危机和保护环境的意识等。
只有这样才能保护我们的长江。
马尔可夫链预测模型,关键在于转移概率矩阵的可靠性,因此该预测模型要求足够多足够准确的统计数据,才能保证预测精度。
如何利用马氏链做出更符合实际的预测结果是我们今后研究的课题,影响预测结果的因素很多,比如分组情况,分组不同有时候会得出不同的预测结果,有没有更科学的分组方法 ? 这些都是值得探讨的问题。