当前位置:
文档之家› 序列比对基础与BLAST入门(打分矩阵)
序列比对基础与BLAST入门(打分矩阵)
Margaret Dayhoff 等研究了34种蛋白质超家族 (85%以上一致性的序列),通过这些同源蛋 白序列的比对,总结出一个氨基酸被另一个氨 基酸替换的概率,从而构建出PAM矩阵。
谁说女子不如男!
PAM(accepted point mutation)
可接受点突变
同源蛋白质在进化过程中会出现一个氨 基酸被另一个氨基酸替换的现象,若此种突 变通过自然选择被种群接受,并可见于后代 的基因组中,便称为可接受点突变。
LAAWAAAERDCRVSSFRVKENFDKARFSGTWYAMAKKDPE
|
|.
| : |||| | :
ALALTCGAQALIVT..QTMKGLDIQKVAGTWYSLAMAASD
1.极性中性氨基酸 (亲水,含羟基)
2.碱性氨基酸
alanine valine leucine isoleucine phenylalanine proline methionine
E 266 0
94 831 0
422
G 579 10 156 162 10 30 112
H 21 103 226 43 10 243 23 10
Dayhoff (1978)
2、氨基酸出现频率
Gly 8.9% Ala 8.7% Leu 8.5% Lys 8.1% Ser 7.0% Val 6.5% Thr 5.8% Pro 5.1% Glu 5.0% Asp 4.7%
glycine tryptophan serine tyrosine cysteine asparagine glutarmine threonine
aspartic acid glutarmic acid
arginine histidine lysine
丙氨酸 缬氨酸 亮氨酸 异亮氨酸 苯丙氨酸 脯氨酸 甲硫氨酸
为了研究方便,在数学中常把表中的说明去掉, 将上表简化为如下的矩形数表:
300 250 220 180 320 230 200 200 310 280 210 220
由3×4个数组成的一个3行4列的矩形表格。此表 在数学上称为矩阵(纵横排列的二维数据表格)。
----AT--GCAT--GCATGC--ATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC
GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA
KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
不同物种3磷酸甘油醛脱氢酶多序列比对
GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
序列比对基础与BLAST入门
提出比对要考虑的问题 专业
算法(构建打分矩阵) 数学
程序
计算机
打分
搜索数据库
计算机
给出比对结果(比对分数、显著性检验)
算法是指按照一定的方式描述计算过程或处理 某个问题的一系列步骤。
程序则是算法的具体实现,也就是用某种计算 机语言编写的实现某个算法的一组指令集合。
GAKKVIISAP SAD.APM..F VCGVNLDAYK PDMKVVSNAS CTTNCLAPLA GAKRVIISAP SAD.APM..F VMGVNHEKYD NSLKIISNAS CTTNCLAPLA GAKKVIISAP SAD.APM..F VVGVNEHTYQ PNMDIVSNAS CTTNCLAPLA GAKKVVMTGP SKDNTPM..F VKGANFDKY. AGQDIVSNAS CTTNCLAPLA GAKKVVITAP SS.TAPM..F VMGVNEEKYT SDLKIVSNAS CTTNCLAPLA GAKKVLISAP PKGDEPVKQL VYGVNHDEYD GE.DVVSNAS CTTNSITPVA
KVINDNFEIV EGLMTTVHAT TATQKTVDGP SGKLWRDGRG AAQNIIPAST KVIHDNFGIV EGLMTTVHAI TATQKTVDGP SGKLWRDGRG ALQNIIPAST KVVHEEFGIL EGLMTTVHAT TATQKTVDGP SMKDWRGGRG ASQNIIPSST KVINDNFGII EGLMTTVHAT TATQKTVDGP SHKDWRGGRG ASQNIIPSST KVINDAFGIE EGLMTTVHSL TATQKTVDGP SHKDWRGGRT ASGNIIPSST KVLDEEFGIN AGQLTTVHAY TGSQNLMDGP NGKP.RRRRA AAENIIPTST
M (芳香族氨基酸
G F、W、Y )
W
S
Y C
极性中性氨基酸
N
Q
(含硫氨基酸
T
C、M )
D E
酸性氨基酸
R
H
碱性氨基酸
K
王镜岩编《生物化学》(第三版)第127页
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
果蝇 人类 植物 细菌 酵母 古细
不同物种3磷酸甘油醛脱氢酶多序列比对
1、Dayhoff’s 可接受点突变数目(×10)
A R NDC QE G
Ala Arg Asn Asp Cys Gln Glu Gly
A R 30 N 109 17 D 154 0 C 33 10
532
0
表示在所研究的同源 蛋白中,天冬氨酸被 谷氨酸替换,发生了 8310次
Q 93 120 50 76 0
可以把这种只考虑碱基同一性的矩阵理解为一个 分数值为1和0的分数矩阵,即相同残基的分数值 为1,不同残基的分数值为0。
ACGT A1000 C0100 G0 0 1 0 T0001
单一打分矩阵
ACGT A 5 -4 -4 -4 C -4 5 -4 -4 G -4 -4 5 -4 T -4 -4 -4 5
GAAKAVGKVI PALNGKLTGM AFRVPTPNVS VVDLTVRLGK GASYDEIKAK GAAKAVGKVI PELNGKLTGM AFRVPTANVS VVDLTCRLEK PAKYDDIKKV GAAKAVGKVL PELNGKLTGM AFRVPTSNVS VVDLTCRLEK GASYEDVKAA GAAKAVGKVL PELNGKLTGM AFRVPTPNVS VVDLTVRLEK AATYEQIKAA GAAKAVGKVL PELQGKLTGM AFRVPTVDVS VVDLTVKLNK ETTYDEIKKV GAAQAATEVL PELEGKLDGM AIRVPVPNGS ITEFVVDLDD DVTESDVNAA
GXW模体
我们想要衡量氨基酸配对的相似性程度,这就 需要有氨基酸相似性的定量标准。
单一打分矩阵满足不了此种需求。
相似性打分矩阵,是基于远距离进化过程中观 察到的残基替换率,并用不同的分数值表征不 同残基之间的相似性程度。恰当选择相似性分 数矩阵,可以提高序列比对的敏感度。
PAM矩阵和BLOSUM矩阵。
一个算法可能会有多种实现的方法。如果算法 的描述或定义明确,那么这些不同的实现方法, 即不同的程序应给出同样的结果。
某公司生产四种产品A、B、C、D,第一季度的 销量分别如下表所示:
产品销量(件)
月份 A B C D
一月 300 250 220 180
二月 320 230 200 200
三月 310 280 210 220
甘氨酸 色氨酸 丝氨酸 酪氨酸 半胱氨酸 天冬酰氨 谷氨酰胺 苏氨酸
天冬氨酸 谷氨酸
精氨酸 组氨酸 赖氨酸
氨基酸分类
Ala Val Leu Ile Phe Pro Met