当前位置：文档之家› 多序列比对_I

多序列比对_I

GAPS
• 线性罚分矩阵 Wn = nγ, n= 缺口数 , γ = 空位罚分 • 亲缘空位罚分 Wn= g + nγ,
＝缺口数， γ = 空位拓展罚分 g = 空位开放罚分
简化比对统计
我们怎样告诉别人基于分值的比对的好坏？当两个随机序列在比对时得到近似的分值的可能性有多大？考虑一个简单的问题－在随机的硬币投掷过程中，获得头像 l 的最大可能概率？均匀的硬币 p ＝ 0.5 且 ErdÖs and Rén yi – 最大可能概率＝ log1/p(n) 这里 log2(n). 如果 n=100, 最大可能概率是 6.65 对长度分别为 n 和 m 的两个序列，我们做 nm 比对，这样预测的最长序列匹配将是 log1/p(mn) 更确确的说，期望值，或者最长匹配的平均值将是 E(M)~=log1/p(Kmn) 这里 K 是依赖于氨基酸组成的常数。
对所有 20 个氨基酸的处理
给定 fab = 配对交换频率
直接假设 — 第一顺序马尔柯夫链转化模型
步骤 2 ：计算 a 率
Pa = 氨基酸 a 的概率
b 交换对的相对概
fab = a 和 b 之间的替代数量 fa = 含有氨基酸 a 的替代模式总数
f = 在相关序列组中产生变异的总数量 =
PAM250 矩阵表中数据的来源？步骤 6 ：计算关联几率序列比对中两个氨基酸来自于由进化的相关蛋白几率，和它们来自于两个不相关的蛋白质比对的几率 Mab ＝相关蛋白中 b 取代 a 的几率－ vs － Paran ＝非相关蛋白中 b 取代 a 的几率 …… 它们是随机的
现在， Paran ＝ fa ，氨基酸 a 发生的频率
最大：对角线从左到右从上到下
动力学设计过程：
首先沿着侧边从上到下写下一个序列。
动力学设计过程：
首先沿着侧边从上到下写下一个序列。
全局比对： Needleman-Wunsch- Sellers O(n2) 利用线形空位处罚
最大：对角线从左到右从上到下
动力学设计过程：
首先沿着侧边从上到下写下一个序列。
对角线从左到右从上到下
全局和局部比对程序生物工作平台： / Bill Pearson 的网页 / NCBI, Expassy
氨基酸替代矩阵
Margaret Dayhoff, 1978, PAM 矩阵
可选择的办法是比对所有可能的特征对 ( 配对和错配，也很好的考虑到了空位，保持比对的数量的易处理性。 ) 这种方法也叫动力学设计。在算术上证明了产生最佳比对。需要置换或相似矩阵和考虑到空位的方法。怎样记下比队得分的例子：写下两条序列
序列 #1 序列 #2 置换矩阵得分
得分 =Σ （ AA 配对得分） - 缺口处罚 =15
步骤 5 ：计算进化距离尺度只有 1/1000 的氨基酸产生变化
M aa 表示氨基酸守衡
实例
（ Phe 突变的调整概率）
** 用尺度因子 λ ， M aa 是 ~0.99 也就是变异概率是 ~1%
也就是定义 PAM1 矩阵… .
λ 是进化尺度因子
…… 对于任何特别的突变概率， λMab 反应了在 1PAM 上氨基酸 b 替代氨基酸 a 的可能性的标准尺度。
PAM 250 矩阵－ 250 ％期望变化
序列仍然有 ~15-30 ％序列相似性，如，苯丙氨酸与苯丙氨酸有 ~ 32% 的匹配概率丙氨酸与丙氨酸有 ~ 13% 的匹配概率
期望值％相似性其它的 PAM 矩阵： PAM120 － 40% PAM80 － 50% PAM60 － 60% PAM250 – 15-30% 相似性相似性序列的使用
局部比对是从 x 序列子列到 y 序列子列比对中得分最好的。重要的并不是比对到序列结束。
对序列 x ，残基 1 ， 2 ， 3……N ，能够得到 ~N2 个子链，也就是说启始点 a= 1,2….N ，结束点 b= 1, 2….n 。 Y 序列也一样，得到 ~M 2 个子链。对于任意两个子链，由于有旧的 O(mn) 比对问题，所以可能比对的总数目是 ~ N2M 2(NM)=O(M 3N3)— 很不好！！！！在多项式时间中是可以解决的，但需要一个大的多项式。
动力学设计过程：
首先沿着侧边从上到下写下一个序列。
源追踪：
当正方形比对完成之后，从较低的右边开始，以后的工作根据箭头观察怎样到那儿……
源追踪引起的比对：
只有向后看才能理解生活，但是要生活好，必须向前看。 — Søren Kierkegaard
局部比对
Temple Smith 和 Michael Waterman ， 1981— 修改了 Needleman-Wunsch-Sellers
接下来，假定在每个位置的变异独立于前面的变异。因此计算关系稍远的相关蛋白的变化，该蛋白质进行了 N 次变异，每一百个氨基酸通过乘以 PAM1 矩阵对其变异次数 N 的值例子： PAM2 矩阵：
PAM250 矩阵
• 将 PAM1 自乘 250 次！
有 Mab 个值。如进化互相关联的蛋白质在 PAM250 中一个氨基酸取代另一个氨基酸的几率
动力学设计过程：
首先沿着侧边从上到下写下一个序列。
注意 — 线形空位处罚： γ(n)=nA ，其中 A= 空位处罚
动力学设计过程：
首先沿着侧边从上到下写下一个序列。
空位空位
因此得到 Sij 必须知道 S(i-1, j-1) 和 S(i, j1) and S(i-1, j)…… 因此需要回归。我们用解决小问题的方法解决大问题。我们必须记录怎样得到 Sij 。例如表格式矩阵中的中间解答。计算机科学家称这为动力学设计，其中“设计”即矩阵，并不是某种计算机编码。
** 进化模型 ** 以一个小数据库为基础。
假设是对称的：假设短时间周期的氨基酸替代模型能够推测出长时间周期的替代模型。 71 组蛋白质序列， 1572 个相似氨基酸 85% 发生改变。功能蛋白质→由自然选择“接受”变异 PAM1 矩阵意味着在蛋白质之间有 1% 的分歧 – 也就是说每 100 个残基中有 1 个氨基酸变异。一些文章也重述了这个情况，每个氨基酸变成另一个氨基酸的概率是 ~1% ，而不变的概率是 ~99% 。
PAM250 矩阵表中数据的来源？
步骤 6 ：计算关联几率
进化的关联几率而不是偶然几率
PAM250 矩阵表中数据的来源？
步骤 7 ：计算对数值 ( 关联几率 ) 和乘以十来清楚碎片值例子： Phe→Tyr ( 必须＝ Tyr→ Phe)
因此平均值＝ (5.7+8.3)/2=7…PAM250 中的数据
M’ab 的相对概率定义为：
步骤 3 ：依比例确定相对概率，即获得任意一个氨基酸变成另一个不同的氨基酸 1% 总机会
i.s. 测量 M’ 来确定 :
步骤 4 ：定义“相对易变性” 给每个氨基酸指定 ma
含有氨基酸 a 的突变数量
‘a’ 变异的方向 Prob(a)* 每 100 个位点中加权变异的总数
局部比对

再一次地，动力学设计可以补救！
动力学设计的基本设置与以前一样…… 错配时相似矩阵 MUST 产生负值 -- 和 -**** 在得分矩阵中，计算位置的值是负数时，这个值就被设置成 0 。
比对就此结束
SmithWaterman:
首先沿着侧边从上到下写下一个序列。
空位空位
局部比对：最大：
步骤 1 ：在相关蛋白质家族内测量每个氨基酸的成对替代频率
构建 Dayhoff 矩阵： PAM1
900 个 Phe (F)….+ 另外 100 个可能的 Phe 但是… 100 个 Phe (F) → 80 Tyr (Y), 3 Trp (W), 2 His (H)….
给了 fab, 也就是
…… 通过进化！
动力学设计过程：
首先沿着侧边从上到下写下一个序列。
空位空位
全局比对： Needleman-WunschSellers O(n2) 利用线形空位处罚
最大：对角线从左到右从上到下
动力学设计过程：
首先沿着侧边从上到下写下一个序列。
空位空位
全局比对： Needleman-WunschSellers O(n2) 利用线形空位处罚
糟糕的例子
O(kn) = 指数时间…… . 恐怖！！！！
NP 问题 — 不知道多项式时间解决办法 = 非确定性多项式问题。
递归和动力学设计
比对两个没有空位的蛋白序列 — 大概是一个 O(mn) 问题。没有空位 — 适合于计算天文学，直接比对方法不能做。 (= 22L/√(2πL); L= 序列长度 )
PAM30 矩阵，用非空位比对得分最高的一个
替代氨基酸矩阵
Dayhoff 的问题： • 基于氨基酸，不是核苷酸。 • 假定进化模型具有直接系统发生关系，循环讨论：序列→ 矩阵；矩阵→ 新的序列 • 基于一小部分关系紧密的分子 • Gonnett, Cohen & Benner • 所有的模型是用达尔文的 1,700,000 匹配对所有的数据库极性匹配直接在不同 PAM 编译进化矩阵 • BLOSUM = 空位氨基酸替代矩阵－ Henikoff&Henikoff 1992 基于一个较大的数据库，该数据库从 ~500Prosite 家族得到，这些家族用用每个家族定义的保守氨基酸模式” 块”由 Bairoch 确认典型的用多序列比对 AA 替代注释，得到对数几率比率例如…块模式 60 ％确认得到 Blosum60 矩阵，等等 … 如：基于非缺口比对的保守函数块。 Blosum62 －在信息内容和数据量最优匹配不是基于直接的进化模型
要点大纲（续）
多序列比对： MSA, Clustal 阻断分析特殊位置得分矩阵 (PSSM)

e商务文档

多序列比对_I

相关文档推荐：