马尔科夫链模型及其在基因遗传分析中的应用研究内容提要 文中简述了马尔科夫链模型的基本原理,介绍了利用马尔科夫链对农作物基因遗传过程进行的分析研究,从而得出了基因类型的分布情况和农作物种植最适宜的换种代数间隔,使得可以更好的种植农作物。
关键词 马尔可夫链模型 基因遗传 换种间隔一、引言对基因遗传的分析一直是人们较为关心的话题。
在研究出某物种基因的遗传分布后,对人们今后的对该物种进行的各种改良提供了良好的依据,尤其是对农作物基因类型的研究。
在研究出农作物的各代之间基因类型的关系和分布情况之后,我们可以据此改善农作物的种植方法,从而提高产量。
本文依据马尔科夫链的两种重要类型对农作物的基因遗传进行了分析研究,同时,分析研究马尔科夫链在一对父母的大量后代中,雌雄随机的配对繁殖,一系列后代的基因类型的演变过程中的应用。
二、马尔科夫链1.马尔可夫链的基本概念定义 ①.设{(),0,1,2,}n X X w n ==⋅⋅⋅是定义在概率空间(,,)F P Ω上,取值在非负整数上的随机变量序列,其表示对每个n 系统的状态。
当状态1,2,,(1,2,)n X k n =⋅⋅⋅=⋅⋅⋅时表示共有k 个状态;n 时刻由状态n X i =,下一个时刻n+1变到状态1n X j +=的概率记作ij p ,则1(|)ij n n p P X j X i +===表示在事件n X i =出现的条件下,事件1n X j +=出现的条件概率,又称它为系统状态X 的一步转移概率。
如果对任意的非负整数121,,,,,n i i i i j -⋅⋅⋅及一切0n ≥有1(|,,1,2,,1)n n k k P X j X i X i k n +====⋅⋅⋅-=1(|)()n n ij ij P X j X i p n p +====,则称X 是马尔科夫链。
②.矩阵(ij p )称为马尔科夫链X 的一步转移概率矩阵。
称10()(|)(|)ij n n m m p n P X j X i P X j X i ++======为马尔科夫链X 的n 步转移概率,而(()ij p n )为X 的n 步转移矩阵。
③. 系统状态n X i =的概率记作称()i a n 称为状态概率,1()1ki i a n ==∑;对状态概率计算的基本方程为1(1)(),1,2,,ki i ij i a n a n p i k =+==⋅⋅⋅∑,从而可得状态概率向量12(){(),(),,()}i k a n a n a n a n =⋅⋅⋅。
2.马尔科夫链的两个重要类型①.正则链 一个有k 个状态的马尔科夫链,如果存在整数N 从任一状态出发经N 次状态转移能以正概率到达另外任意状态。
正则链存在位移的极限状态w ,()()a n w n →→∞,w 称作稳态概率,w 满足wP w =,且11ki i w ==∑。
②.吸收链 存在吸收态(一旦到达就不会离开的状态i ,1ii p =),且从任一非吸收态出发经有限次转移能以正概率到达吸收状态。
有r 个吸收状态的吸收链的转移概率矩阵标准形式0r r I P RQ ⨯⎡⎤=⎢⎥⎣⎦,其中R 有非零元素。
计算10()s s M I Q Q ∞-==-=∑,12(,,,)k r y y y y Me -=⋅⋅⋅=,其中e 为单位矩阵,1y 表示从第i 个非吸收态出发,被某个吸收态吸收前的平均转移次数。
三、马尔科夫链的应用马尔可夫过程的一个最大特点就是其所具有的无后效性, 即系统在将来的状态只和现在有关, 而与以前的状态无关, 其基本的思想就是通过对系统当前数据信息的分析, 得到系统在当前状态的初始分布, 同时通过对系统在下一状态的数据信息的分析得出系统在两个状态之间发生各种转移的概率大小, 并具体求出基于初始状态的转移概率。
在对农作物基因遗传的分析研究中,首先需要明确:生物的外部特征由内部相应的基因决定,基因分为优势基因R 和劣势基因r 两种。
每种外部特征由这两个基因决定,每个基因都可以是R 、 r 中的任一个,从而形成了3种基因类型:RR (优种D ),Rr (混种H ),rr (劣种F )。
当基因类型为优种和混种时,外部表征呈优势;基因类型为劣种时,外部表征成劣势。
同时,生物繁殖时后代随即且等概率的继承父、母的各一个基因,形成它的两个基因。
父母的基因类型决定后代基因类型的概率。
1.模型假设:①设群体中雄性、雌性的比例相等,基因类型的分布相同(记作D:H:F )②.每个雄性个体以D:R:F 的概率与一雌性个体交配,其后代随机地继承它们的各一个基因。
③.设初始一代基因类型比例D:H:F=a:2b:c(a+2b+c=1),记p=a+b,q=b+c ,则群体中优势基因和劣势基因的比例R:r=p:q(p+q=1)。
2.符号说明①.状态1,2,3,n X =⋅⋅⋅表示第n 代得一个个体属于D 、H 、F 。
②.状态概率()i a n 表示第n 代得一个个体属于状态i (i=1,2,3)的概率。
③.ij p 表示在确定雄性个体基因为i 的情况下,让其与所有雌性个体随机交配繁殖,所得后代的基因类型为j 的条件概率,即1((|(ij n n p P X j X i +===后代基因类型)父基因类型))。
从而我们可以计算出: 111(1(RR |1(RR =p n n p P X X +===后代为)父基因为))121(2(Rr |1(RR =q n n p P X X +===后代为)父基因为))131(3(|1(RR =0n n p P X X +===后代为rr )父基因为))321(2(|3(r =p n n p P X X +===后代为Rr )父基因为r ))221(2(|2(Rr =p/2+q/2=1/2n n p P X X +===后代为Rr )父基因为))311(1(|3(r =0n n p P X X +===后代为RR )父基因为r ))321(2(|3(r =p n n p P X X +===后代为Rr )父基因为r ))331(3(|3(r =q n n p P X X +===后代为rr )父基因为r ))则其状态转移概率矩阵为0/21/2/20p q P p q p q ⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦,因(1)(),0,1,2,a n a n P n +==⋅⋅⋅ 故而可求得(0)(,2,)a a b c =,22(1)(0)(,2,)a a P p pq q ==,22(2)(1)(,2,)a a P p pq q ==,22(3)(2)(,2,)a a P p pq q ==,…由此可以看出该模型属于正则链,其稳态分布22(,2,)w wP p pq q ==,自然界中优势基因和劣势基因所占的比例通常是相等的,即都为1/2,从而D:H:F=1/4:1/2:1/4,得(D+H ):F=3:1。
这很好的验证了孟德尔利用数学统计对豌豆基因遗传分析,并提出基因分离定律和自由组合定律所得出的结论,即无论父母的基因类型情况为何,其后代所表现出的特性中显性基因所决定的特性与隐性基因决定的特性所占的比例始终接近3:1。
我们由此可以主观的得出结论马尔科夫链在动态分析检测中具有良好的应用,而且其方法较为简洁方便理解。
在农作物的种植的过程中,农民通常会在今年所收获的作物中选出饱满的适宜种植的作为下一年种子,就这样年复一年对同一种农作物进行种植,但对其最终的收获多少只归结为天气问题、肥料的使用等一系列的问题。
由于缺乏对专业知识的理解,从来都没有考虑过基因的问题。
在此我们根据马尔科夫模型对一种农作物的基因遗传进行了分析和研究,最终,利用马尔科夫链的一个重要类型即吸收链得出最优的换种代数间隔,给农民最好的种植农作物提供了良好的依据。
因此,我们分析研究了马尔科夫链在一对父母的大量后代中,雌雄随机的配对繁殖,一系列后代的基因类型的演变过程中的应用。
根据基因的分离和自由组合定律,我们对各种父母基因类型进行组合,得出了后代各种基因类型的概率(如表1)表1 父母基因类型决定后代各种基因类型的概率用状态1,2,3,4,5,6nX=表示配对基因组合为DD,FF,DH,DF,HH,HF.利用表1计算父母基因组合确定的情况下,子代的各种基因组合的概率,得其状态转移概率矩阵为:1000000100001/401/201/400000101/161/161/41/81/41/401/4001/41/2P⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦,由此状态转移矩阵可以看出状态1和状态2为吸收态,即无论初始如何,经过若干代的近亲繁殖以后,基因类型将全变为优种或劣种。
把矩阵P分块,令1001I⎡⎤=⎢⎥⎣⎦,1/201/4000101/41/81/41/4001/41/2Q⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦从而可得:18/31/64/32/34/34/38/34/3()4/31/38/34/32/31/64/38/3M I Q -⎡⎤⎢⎥⎢⎥=-=⎢⎥⎢⎥⎣⎦ 29201729(,,,)6336T y Me ==,因i y 表示从第i 个非吸收态出发,被某个吸收态吸收前的平均转移次数。
在此具体是:从各种不稳定的基因类型进行自由交配,最终到达稳定基因类型时所需要的时间。
由此结果我们可以得出结论:优种和劣种的某些品质不如混种,而近亲繁殖后大约5-6代就需要重新选种。
四、结论马尔可夫链应用的基础是无后效性和平稳性。
在预测时是假定系统的转移趋势是遵循已经确定的概率矩阵,因此转移概率的确定和转移趋势对预测结果的准确与否和准确程度有十分重要的影响。
最关键的是系统的转移趋势确实是比较平稳的,即要求影响系统状态转移趋势的外界条件不发生大的变化,如果系统的外界因素发生了较大的改变,说明转移概率也会发生变化,就得按照市场的变化重新计算转移概率。
另外,系统状态的划分要能很好地体现系统的实际情况。
对于有些复杂的系统, 划分状态时还要根据各个状态所包含的实际内容和意义来进行,然后就是依据划分好的状态界限来确定系统的初始状态分布。
从上面的分析中,我们可以看出马尔科夫链具有良好的应用效果。
马尔科夫模型可以应用于很多领域,而且分析过程较为简洁明了,最终结果具有一定的对现实情况的说明性。
只要在当前状态的发生和下一状态的发生之间有相对确定的概率关系时,我们就可以利用状态转移概率矩阵计算下一状态的各个情况发生的概率,并由此进行分析研究得出结论。
参考文献[1] 盛骤,谢式千,潘承毅.概率论与数理统计[M].北京:高等教育出版社,2011.[2] 袁荫棠.概率论与数理统计[M].北京:中国人民大学出版社,2011.[3] 查秀芳.马尔可夫链在市场预测中的作用[J].江苏大学学报(社会科学版),2003,5(1).[4] 李民,段爱明.马尔科夫模型的市场预测方法及其应用[J].中南大学商学院数学理论与应用.2005,9(3).[5] 张新时.遗传与进化[M].北京:中国地图出版社,2005.。