当前位置:文档之家› 多序列比对_I

多序列比对_I


GAPS
• 线性罚分矩阵 Wn = nγ, n= 缺口数 , γ = 空位罚分 • 亲缘空位罚分 Wn= g + nγ,
=缺口数, γ = 空位拓展罚分 g = 空位开放罚分
简化比对统计
我们怎样告诉别人基于分值的比对的好坏?当两个随机序列在比对时得 到近似的分值的可能性有多大? 考虑一个简单的问题-在随机的硬币投掷过程中,获得头像 l 的最大可 能概率? 均匀的硬币 p = 0.5 且 ErdÖs and Rén yi – 最大可能概率= log1/p(n) 这里 log2(n). 如果 n=100, 最大可能概率是 6.65 对长度分别为 n 和 m 的两个序列,我们做 nm 比对,这样预测的最长序 列匹配将是 log1/p(mn) 更确确的说,期望值,或者最长匹配的平均值将是 E(M)~=log1/p(Kmn) 这里 K 是依赖于氨基酸组成的常数。
对所有 20 个氨基酸的处 理
给定 fab = 配对交换频率
直接假设 — 第一顺序马尔柯夫链转化模型
步骤 2 : 计算 a 率
Pa = 氨基酸 a 的概率
b 交换对的相对概
fab = a 和 b 之间的替代数量 fa = 含有氨基酸 a 的替代模式总 数
f = 在相关序列组中产生变异的总数量 =
PAM250 矩阵表中数据的来源? 步骤 6 :计算关联几率 序列比对中两个氨基酸来自于由进化的相关蛋白几率,和它们来自于 两个不相关的蛋白质比对的几率 Mab =相关蛋白中 b 取代 a 的几率 - vs - Paran =非相关蛋白中 b 取代 a 的几率 …… 它们是随机的
现在, Paran = fa ,氨基酸 a 发生的频率
最大: 对角线 从左到右 从上到下
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
全局比对: Needleman-Wunsch- Sellers O(n2) 利用线形空位处罚
最大: 对角线 从左到右 从上到下
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
对角线 从左到右 从上到下
全局和局部比对程序 生物工作平台: / Bill Pearson 的网页 / NCBI, Expassy
氨基酸替代矩阵
Margaret Dayhoff, 1978, PAM 矩阵
可选择的办法是比对所有可能的特征对 ( 配对和错配,也很好 的考虑到了空位,保持比对的数量的易处理性。 ) 这种方法也 叫动力学设计。在算术上证明了产生最佳比对。 需要置换或相似矩阵和考虑到空位的方法。 怎样记下比队得分的例子:写下两条序列
序列 #1 序列 #2 置换矩阵得分
得分 =Σ ( AA 配对得分) - 缺口处罚 =15
步骤 5 :计算进化距离尺度 只有 1/1000 的氨基酸产生变化
M aa 表示氨基酸守衡
实例
( Phe 突变的调整概率)
** 用尺度因子 λ , M aa 是 ~0.99 也就是变异概率是 ~1%
也就是定义 PAM1 矩阵… .
λ 是进化尺度因子
…… 对于任何特别的突变概率, λMab 反应了 在 1PAM 上氨基酸 b 替代氨基酸 a 的可能性的 标准尺度。
PAM 250 矩阵- 250 %期望变化
序列仍然有 ~15-30 %序列相似性, 如,苯丙氨酸与苯丙氨酸 有 ~ 32% 的匹配概率 丙氨酸与丙氨酸 有 ~ 13% 的匹配概率
期望值 %相似性 其它的 PAM 矩阵: PAM120 - 40% PAM80 - 50% PAM60 - 60% PAM250 – 15-30% 相似性 相似性序列的使用
局部比对是从 x 序列子列到 y 序列子列比对中得分最好的 。 重要的并不是比对到序列结束。
对序列 x ,残基 1 , 2 , 3……N ,能够得到 ~N2 个子链,也 就是说启始点 a= 1,2….N ,结束点 b= 1, 2….n 。 Y 序列也一 样,得到 ~M 2 个子链。对于任意两个子链,由于有旧的 O(mn) 比对问题,所以可能比对的总数目是 ~ N2M 2(NM)=O(M 3N3)— 很不好!!!!在多项式时间 中是可以 解决的,但需要一个大的多项式。
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
源追踪 :
当正方形比对完成之后,从较低的右边开始,以后的工作 根据箭头观察怎样到那儿……
源追踪引起的比 对 :
只有向后看才能理解生活,但是要生活好,必须向前看。 — Søren Kierkegaard
局部比对
Temple Smith 和 Michael Waterman , 1981— 修改了 Needleman-Wunsch-Sellers
接下来,假定在每个位置的变异独立于前面的变异。因此 计算关系稍远的相关蛋白的变化,该蛋白质进行了 N 次变异, 每一百个氨基酸通过乘以 PAM1 矩阵对其变异次数 N 的值 例子: PAM2 矩阵:
PAM250 矩阵
• 将 PAM1 自乘 250 次!
有 Mab 个值。如进化 互相关联的蛋白质在 PAM250 中一个氨基 酸取代另一个氨基酸 的几率
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
注意 — 线形空位处罚: γ(n)=nA ,其中 A= 空位处罚
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
空位 空位
因此得到 Sij 必须知道 S(i-1, j-1) 和 S(i, j1) and S(i-1, j)…… 因此需要回归。我们用 解决小问题的方法解决大问题。我们必须 记录怎样得到 Sij 。例如表格式矩阵中的中 间解答。计算机科学家称这为动力学设计 ,其中“设计”即矩阵,并不是某种计算 机编码。
** 进化模型 ** 以一个小数据库为基础。
假设是对称的: 假设短时间周期的氨基酸替代模型能够推测出长时间周 期的替代模型。 71 组蛋白质序列, 1572 个相似氨基酸 85% 发生改 变。 功能蛋白质→由自然选择“接受”变异 PAM1 矩阵意味着在蛋白质之间有 1% 的分歧 – 也就是说每 100 个残基中有 1 个氨基酸变异。一些文章也重述了这个情况 ,每个氨基酸变成另一个氨基酸的概率是 ~1% ,而不变的概 率是 ~99% 。
PAM250 矩阵表中数据的来源?
步骤 6 :计算关联几率
进化的关联几率而不是偶然几率
PAM250 矩阵表中数据的来源?
步骤 7 :计算对数值 ( 关联几率 ) 和乘以十来清楚碎片值 例子: Phe→Tyr ( 必须= Tyr→ Phe)
因此平均值= (5.7+8.3)/2=7…PAM250 中的数据
M’ab 的相对概率定义为:
步骤 3 :依比例确定相对概率,即获得任意一 个氨基酸变成另一个不同的氨基酸 1% 总机会
i.s. 测量 M’ 来确定 :
步骤 4 :定义“相对易变性” 给每个氨基酸指定 ma
含有氨基酸 a 的突 变数量
‘a’ 变异的方向 Prob(a)* 每 100 个位点中加权变异的 总数
局部比对

再一次地,动力学设计可以补救!
动力学设计的基本设置与以前一样…… 错配时相似矩阵 MUST 产生负值 -- 和 -**** 在得分矩阵中,计算位置的值是负数时,这个 值就被设置成 0 。
比对就此结束
SmithWaterman:
首先沿着侧边从上到下写下一个序列。
空位 空位
局部比对: 最大:
步骤 1 :在相关蛋白质家族内测量每个氨基酸 的成对替代频率
构建 Dayhoff 矩阵: PAM1
900 个 Phe (F)….+ 另外 100 个可能的 Phe 但是… 100 个 Phe (F) → 80 Tyr (Y), 3 Trp (W), 2 His (H)….
给了 fab, 也就是
…… 通过进化!
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
空位 空位
全局比对: Needleman-WunschSellers O(n2) 利用线形空位处罚
最大: 对角线 从左到右 从上到下
动力学设计过程:
首先沿着侧边从上到下写下一个序列。
空位 空位
全局比对: Needleman-WunschSellers O(n2) 利用线形空位处罚
糟糕的例子
O(kn) = 指数时间…… . 恐怖!!!!
NP 问题 — 不知道多项式时间解决办法 = 非确定性多项式问题。
递归和动力学设计
比对两个没有空位的蛋白序列 — 大概是一个 O(mn) 问题。 没有空位 — 适合于计算天文学,直接比对方法不能做。 (= 22L/√(2πL); L= 序列长度 )
PAM30 矩阵,用非空位比对得分最高的一个
替代氨基酸矩阵
Dayhoff 的问题: • 基于氨基酸,不是核苷酸。 • 假定进化模型具有直接系统发生关系,循环讨论:序列→ 矩阵 ; 矩阵→ 新的序列 • 基于一小部分关系紧密的分子 • Gonnett, Cohen & Benner • 所有的模型是用达尔文的 1,700,000 匹配对所有的数据库极性 匹配 直接在不同 PAM 编译进化矩阵 • BLOSUM = 空位氨基酸替代矩阵- Henikoff&Henikoff 1992 基于一个较大的数据库,该数据库从 ~500Prosite 家族得到,这些 家族用用每个家族定义的保守氨基酸模式” 块”由 Bairoch 确认 典型的用多序列比对 AA 替代注释,得到对数几率比率 例如…块模式 60 %确认得到 Blosum60 矩阵,等等 … 如:基于非缺口比对的保守函数块。 Blosum62 -在信息内容和数据量最优匹配 不是基于直接的进化模型
要点大纲(续)
多序列比对: MSA, Clustal 阻断分析 特殊位置得分矩阵 (PSSM)
相关主题