当前位置:
文档之家› DNA序列分析中的马尔科夫模型与隐马尔科夫模型
DNA序列分析中的马尔科夫模型与隐马尔科夫模型
SR=SR 蛋白质家族剪接因子成员 ESE= 外显剪接增强子
交叉外显 交叉内含
交叉外显
ESEs 是一些短模体,它提高了在所有构建和选择剪接 外显子中邻近剪接位点的识别能力 —精确序列需求不能 很好地表现 。
隐马尔柯夫模型 aka HMMs
马尔柯夫模型
序 列 比 对 序 列 比 对
序 列 比 对的隐马 尔柯夫模型
Viterbi 算法“格架”图表
序列中的位置
藏 隐 层
长度为 L 的序列 k 层隐马尔柯夫模型运行时间
HMMs 的发 展 有用的 HMMs 的发展
碱基配对: 碱基堆积: Doug Turner’s 能量规则:
RNA 热力学
很多连续碱基 对-好 内部环-坏
终端碱基对不 稳定-坏 总的来说, A 比 B 、 C 更稳定
5’ss 序列中的条件频率
5’ss 在+ 5 处含有 G
5’ss 在+ 5 处没有 G
数据来源: Burge , 1998 ,分子生物学中的计算 方法
计算稍微有点困难
注意: 即 因此可 将 视为常数
寻找最佳“分列” ( viterbi 算法 )
寻找隐藏状态的顺序 连接概率最佳化:
序列最佳”分列“
解决方案:
定 义
R i ( h ) = 在以状态 h 结束情况下,子序列 1…i 最佳分列的概率
递归解答,例如:根据 R1 ( h )确定
R2 ( h )。
配对状态
插入状态
删除状态
转换可能性
马尔柯夫和隐马尔柯夫模型
CpG 岛
CpG 岛隐马尔柯夫模 型
CpG 岛隐马尔柯夫模型Ⅱ
CpG 岛隐马尔柯夫模型Ⅲ
想推断
观 测
但是 HMM 写在其它方向(依靠隐藏才 可见)
从可见的推断隐藏部分 (贝叶斯法则)
条件 prob: P(A|B)=P(A,B)/P(B)
传统定义 离散地随机过程 X1 ,X2 ,X3 …… 它拥有马尔柯夫性质:
换句话来说就是: 它是一个随机过程,具有将来(下一个状态)有条件 地与过去存在(现在状态)相互独立的性质。
Markov – 俄罗斯数学家 , ca. 1922
不同类的一阶马尔柯夫模型
马尔柯夫模型的估计参数
更长排列相关是什么? ——k 顺序马尔柯夫模型 k 顺序马尔柯夫模型大约有 4k+1 个参数或位 置
哪一种模型能够表现位置之 间的相互关系?
马尔柯夫模型
专业术语
随机变量 (RV): 可以假定为任意一系列的值,其中每一个值都有 一定的出现可能性 例如: X= 一个骰子滚动的结果
两个骰子的过程: X1 ,X2 ,X3 …… 连续骰子滚动 随机过程: 随意过程或是随机变量的序列
什么是马尔柯夫模型( aka 马尔 柯夫链)?
剪接位点的马尔柯夫模型 隐马尔柯夫模型 —— 在头巾下观看 威特比 (Viterbi) 演算法 真实世界中的隐马尔柯夫模型
DNA 基序构建及发现简介
剪接位点的加权矩阵模型 ( WMMs ) 模体 (motif) 代表的信息 模体的寻找或发现问题 吉布斯采样法 模体构建——加权矩阵之上
不同类
同类
人类 5’ss 序列的加权矩阵模型 ( WMM )与马尔柯夫一阶模型比较
剪接模型 I
5’ 剪接点
分枝位点
3’ 剪接点
剪Байду номын сангаас模型Ⅱ
联合体交叉内含子
过渡联合体
外显子定义联合体
5‘ 剪接位点
多嘧啶 3’ 剪接位 分枝点 点 序
列
剪接体前体联合体
剪接体
关于人类 Pre-mRNA 剪接的一个 新近模型
7.91/7.36/BE.49 0 第 四 讲 2004.3.4
马尔柯夫及隐马尔柯夫模型 DNA 序列分析
Chris Burge
生物秀-专心做生物 www.bbioo.com
课 程 结 构
课 时 主 题 模 型
加权矩 阵模型
结构相关
完全独立
隐马尔柯 夫模型
局部相关
能量模型,共 变模型
非局部相关
DNA 的马尔柯夫及隐马尔柯夫模 型
DNA 、 RNA 基序包含的信息
信息熵( shannon entropy ) 信息 / 位置
随机序列中每 2m 个碱基将产生一个包含 m 比特信息 的模体
变量对发现基序的影响
L =序列平均长度 N =序列编码 I =模体包含的信息 W =模体宽度
怎样识别 5’ss
RNA 热力学 I
螺旋构型自由能来自于: