马尔可夫链模型在考察随机因素影响的动态系统时,常常碰到这样的情况,系统在每个时期所处的状态是随机的,从这个时期到下个时期的状态按照一定的概率进行转移,并且下个时期的状态只取决于这个时期的状态和转移概率,与以前各时期的状态无关。
这种性质称为无后效性或马尔可夫性。
通俗的说就是已知现在,将来与历史无关。
具有马氏性的,时间、状态无为离散的随机转移过程通常用马氏链(Markov Chain)模型描述。
马氏链模型在经济、社会、生态、遗传等许多领域中有着广泛的应用。
值得提出的是,虽然它是解决随机转移过程的工具,但是一些确定性系统的状态转移问题也能用马氏链模型处理。
马氏链简介:马氏链及其基本方程:按照系统的发展,时间离散化为0,1,2,n =,对每个n ,系统的状态用随机变量nX 表示,设nX 可以取k 个离散值1,2,,nX k= ,且nXi=的概率记作()ian ,称为状态概率,从nXi=到1n Xj+=的概率记作ijp ,称为转移概率。
如果1n X+的取值只取决于nX 的取值及转移概率,而与12,,n n XX --的取值无关,那么这种离散状态按照离散时间的随机转移过程称为马氏链。
由状态转移的无后效性和全概率公式可以写出马氏链的基本方程为1(1)()1,2,,ki jijj a n an p i k=+==∑并且()ian 和ijp 应满足11()10,1,2,;0;11,2,,kkjij ij j j an n p p i k====≥==∑∑引入状态概率向量和转移概率矩阵12()((),(),,()){}k ij ka n a n a n a n P p ==则基本方程可以表为1(1)()(0)n a n a n Pa P++==例1:某商店每月考察一次经营情况,其结果用经营状况好与孬表示。
若本月经营状况好,则下月保持好的概率为0.5,若本月经营状况不好,则下月保持好的概率为0.4,试分析该商店若干时间后的经营状况。
解:商店的经营状况是随机的,每月转变一次。
用随机变量nX 表示第n 个月的经营状况,称为经营系统的状态.1,2nX =分别表示好与不好,0,1,n = 。
用()ia n 表示第n 月处于状态i 的概率(1,2i =)即()()in an P X i ==,ij p 表示本月处于状态i,下月转为状态j 的概率。
这里1n X+无后效性,只取决于nX 和ijp 。
112112220.5,0.4,0.5,0.6p p p p ==∴==根据全概率公式可以得到:11112212112222(1)()()0.50.5(1)()(1)()()0.40.6a n a n p a n p a n a n PP a n a n p a n p +=+⎧⎛⎫⇒+==⎨⎪+=+⎝⎭⎩假设这个递推公式存在极限w ,有w w P=,即()0w P E -=。
于是当经营状况好或孬时,经计算可以得到下面的结果事实上,p 的特征值1,0.1λ=,1λ=时可以得到特征向量(1,1),0.1λ=时可以得到特征向量( 1.25,1)-,令11.2511X -⎛⎫=⎪⎝⎭,则111.251112.25X-⎛⎫= ⎪-⎝⎭,114/95/90.14/95/9nnp X X -⎛⎫⎛⎫∴=→ ⎪⎪⎝⎭⎝⎭可以看出,虽然对于不同的n ,两种情况对应的数字不同,但是当n →∞时却得到相同的结果,即其状态概率趋于稳定值,且这个稳定值与初始状态无关。
例2:考察微量元素磷在自然界中的转移情况,假定磷只分布在土壤,草、牛、羊等生物体,及上述系统之外这三种自然环境里。
每经过一段时间磷在上述三种环境里的比例会发生变化,变化具有无后效性。
假定磷在三种环境下的初始比例为 0.5:0.3:0.2,研究经过若干时段后磷在 三种环境中的转移情况。
磷在三种环境中的分布及其变化是确定性的,但是如果把它在某种环境如土壤中的比例视为处于这种状态下的概率(将全部含量作为一个整体),把它的变化比例视为转移概率,就能用处理随机转移的马氏链模型来解决这个问题。
时期用0,1,2,n = 离散化,1,2,3nX=分别表示第n 时期磷处于土壤、生物体和系统外三种状态,()ia n 表示状态概率,即分布比例(1,2,3i =)ijp 表示由nXi=到1n Xj +=的转移概率,即变化的比例。
状态的转移具有无后效性。
利用全概率公式并将ijp 的值代入得到:1111221331122112222332123113223333123(1)()()()0.5()0.4()0.50.40(1)()()()0.3()0.2()0.30.20(1)()()()0.2()0.4()()0.20.41a n a n p a n p a n p a n a n a n a n p a n p a n p a n a n P a n a n p a n p a n p a n a n a n +=++=+⎧⎛⎫⎪⎪+=++=+=⎨ ⎪⎪ ⎪+=++=++⎩⎝⎭以初始状态代入计算可得通过以上两个例子给出马氏链的基本概念马氏链及其基本方程:按照系统的发展,时间离散化为0,1,n =,对每个n ,系统的状态用随机变量nX 表示,设nX 可以取k 个离散值1,2,,nX k= ,且nXi=的的概率记作()ian ,称为状态概率,从nXi=到1n Xj +=的概率记作ij p ,为转移概率。
如果1n X+的取值只取决于nX 的取值及转移概率,而与12,,n n XX --的取值无关,则这种离散状态按照离散时间的随机转移过程称为马氏链。
从以上两个例子的计算结果可以看出这两个马氏链之间有很大的差别,它们分别属于马氏两个重要类型。
一、正则链:例1表示的马氏链的定义1:一个有k 个状态的马氏链如果存在正整数N ,使从任意状态i 经N 次转移都以大于零的概率到达状态j (i ,j =1,2,…,k),则称其为正则链。
定理1:若马氏链的转移矩阵为P ,则它是正则链的充要重要条件是存在正整数N 使0NP>。
定理2:正则链存在唯一的极限状态概率12(,,,)k w w w w = ,使得当n →∞时的状态概率()a n w→,w 与初始概率(0)a 无关。
w 称为稳态概率,满足1iw P ww==∑从状态i 出发经n 次转移,鳘次到达j 的概率称为i 到j 的首达概率,记作()ijfn 。
于是1()ij ij n n f n μ∞==∑为由状态i 第一次到达状态j 的平均转移次数。
ijμ与稳态概率间有 定理3:对于正则链,1/ijwμ=二、吸收链:例2 的特点是状态3的转移概率331p=,于是系统一旦进入状态3就再还会离开它,可以把它看作“吸收”其它状态的一个状态。
并且从状态1或2出发,可以经过有限次转移到达状态3。
例2表示如下定义的一类重要的马氏链。
定义2:转移概率1ijp=的状态i 称为吸收状态。
如果马氏链至少包含一个吸收状态,并且从每一个非吸收状态出发,能以正的概率经有限次转移到达某个吸收状态,则这个马氏链称为吸收链。
若吸收链中有r 个吸收状态,k -r 个非吸收状态,则其转移矩阵可以写成下面的形式:rI O P RQ ⎛⎫=⎪⎝⎭其中k r -阶方阵Q 的特征值()Q λ满足|()|1Q λ<。
这要求矩阵R 中必含有非零元素,以满足从任一非吸收状态出发经有限次转移可到达某吸收状态的条件。
这样Q 就还是随机矩阵,它至少存在一个小于1的行和,且如下定理成立定理4:对于吸收链P 的标准形式,()I Q -可逆,1()ss M I Q Q ∞-==-=∑记元素为1的列向量(1,1,,1)e = ,则y M e =的第i 个分量是从第i 个非吸收状态出发,被某个吸收状态吸收的平均转移次数。
设状态i 是非吸收状态 ,j 是吸收状态,那么首达概率()ijf n 实际上是i 经n 次转移被j 吸收的概率,而1()ijij n ff n ∞==∑则是从非吸收状态i 出发终将被吸收状态j 吸收的概率。
记(){}ij k r rF f -=,则下面定理给出了计算ijf 的方法定理5:设吸收链的转移矩阵P 表为标准形式,则(){}ij k r r F f M R-==下面通过几个例子说明如何利用马氏链解决一些具体的问题。
一、 基因遗传问题豆科植物茎的颜色有绿有黄,生猪的毛有黒有白,人会得一些先天性疾病等,这些都与基因遗传有关。
基因从一代到下一代的转移是随机的,并且具有马氏性。
因此马氏链模型是研究遗传学的重要工具之一。
生物的外部表征如豆科植物茎的颜色,人的皮肤或头发,是由生物体内相应的基因决定。
基因分优势基因与劣势基因,分别用d 和r 表示。
每种外部表征由体内的两个基因决定,而每个基因都可以是d 或r 中的一个,于是可以得到三种基因类型,即dd 、dr 和rr ,分别称为优种、混种和劣种,用D 、H 和R 表示。
含D 、H 基因类型的个体,外部表征呈优势,如豆科植物的茎呈绿色,人的皮肤有色素;含劣种R 基因类型的个体外部表征呈劣势,如豆科植物的茎呈黄色,人的皮肤无色素。
生物繁殖时,一个后代随机的继承父与母各自的两个基因中的一个,形成两个基因。
一般两个基因中哪个遗传下去是等概率的,所以父母的基因类型就决定了每一后代基因类型的概率。
下面我们以马氏链为工具讨论两个具体的基因遗传模型。
随机交配 这是自然界中生物群体一种常见的、也是最简单的交配方式。
考察一个群体,假设雄性和雌性的比例永远相等,并且有相同的基因类型分布,即雄性和雌性的D 、H 、R 的数量比例相等。
所谓随机交配是指对于每一个不论属于D 、H 或R 的雌性(或雄性)个体交配,都以D :H :R 的数量比例为概率与一个属于D 、H 或R 的雄性(或雌性)个体交配,其后代则按照前面所说的方式等概率地继承其父母亲的各一个基因,来决定它的基因类型。
假定在初始一代的群体中,三种基因类型的数量比是D :H :R =a :2b :c ,满足21a b c ++=。
记,p a b q b c =+=+,则群体中优势基因d 与劣势基因r 的数量比例为:p q ,且1p q +=。
讨论随机交配方式产生的一系列后代群体中的基因类型分布。
用1,2,3nX=分别表示第n 代的一个体属于D 、H 及R 基因类型,即三种状态,0,1,2,.()i n a n = 表示个体属于第i 种状态的概率,1,2,3i =可视为第n 代的群体属于第i 种基因类型的比例。
转移矩阵ij p 可用ij p P=(一个后代具有基因类型j |母亲(或父亲)具有基因类型i )计算。
在已知母亲基因类型的条件下,后代的基因类型取决于父亲的基因类型。
值得指出的是,在计算ijp 时与其考虑被随机选择为父亲的三种不同基因类型的比例a :2b :c ,不如直接考察从雄性群体中以:p q 的比例获得优势基因d 和劣势基因r 。