蛋白质序列分析与结构预测
P(c) 0.57 1.00 1.68 1.26 1.17 0.56 0.44 1.68 0.69 0.58 0.53 1.01 0.67 0.71 1.54 1.56 1.00 1.11 1.25 0.30
Bioinformatics
Judge rule
α-helix – Search the helix core along the sequence.
Bioinformatics
The Preference of Amino Acid
Residue
P(a)
P(b)
Ala
1.45
0.97
Arg
0.79
0.90
Asn
0.73
0.65
Asp
0.98
0.80
Cys
0.77
1.30
Gln
1.17
1.23
Glu
1.53
0.26
Gly
0.53
0.81
His
1.24
蛋白质序列(黄)和结构(红)数量比较
Number of entries
250000
200000
150000
100000
50000
0
86 88 90 92 94 96 98 2000 2002 2006
Year
Sequence -- Swiss-Prot:468851 (2009.5)
Structure -- PDB:57835
0.71
Ile
1.00
1.60
Leu
1.34
1.22
Lys
1.07
0.74
Met
1.20
1.67
Phe
1.12
1.28
Pro
0.59
0.62
Ser
0.79
0.72
Thr
0.82
1.20
Trp
1.14
1.19
Tyr
0.61
1.29
Val
1.14
1.65
Chou &Fasman,1974,Bio-chem
Protein Sequence Analysis and Structure Prediction
Dr. ZOU, Ling-Yun Department of Microbiology
Outline
1
蛋白质生物学基础
2
蛋白质结构可视化
3
蛋白质序列特征分析
4
蛋白质结构预测
Bioinformatics
Bioinformatics
fi
ni Ni
100 %
氨基酸组成分析
氨基酸含量统计
fi
ni N
100%
氨基酸对含量统计
fij
nij 100 % N 1
Bioinformatics
Sequence Logo
Bioinformatics
理化性质分析:亲/疏水性分析
Bioinformatics
1
蛋白质生物学基础
2
蛋白质结构可视化
3
蛋白质序列特征分析
4
蛋白质结构预测
Bioinformatics
20 amino acids - the building blocks
Bioinformatics
helices
Ala, Glu, Leu, Met:出现频率高 Pro, Gly, Tyr, Ser: 出现频率低
(2009.5)
Bioinformatics
Experimental Methods to Detect Structures ▪ Two empirical methods for revealing
positions of atoms in 3-D: ▪ X-Ray Crystallography
Domains
Bioinformatics
为什么要研究蛋白质结构?
生物体的许多重要功能由蛋白质完成 已知序列的蛋白质数量与已知结构的蛋白质数量 的差距正在拉大 分析蛋白质结构有助于药物设计研究 有助于了解蛋白质相互作用,这对于生物学、医 学和药学都非常重要 ……
Bioinformatics
Bioinformatics
PDB
Bioinformatics
MMDB
Bioinformatics
蛋白质结构可视化工具
RasMol
Swiss PDBViewer
Cn3D
Bioinformatics
Swiss PDBViewer
界面友好、可同时分析几个PDB文件、可叠加起 来分析结构类似性… 可与Swiss-Model服务器连接,从软件直接连到 Swiss-Model服务器进行理论蛋白立体结构构建。 http://spdbv.vital-it.ch/
Bioinformatics
Cn3D
含义为:“See in 3-D”,是一个生物分子的三维 结构、序列以及序列比对结果的可视化工具。 读取MMDB数据库的数据文件 特定结构查找、结构比对 /Structure/CN3D/cn3 d.shtml
If at least 4 residues in the sequential 6 are prefer α-helix ( piα>1), find a helix core. – Extend the core, until the average preference score of this segment is less than 1. – Similar method to judge the β-sheet.
Bioinformatics
http://www.expasy.ch/tools
Bioinformatics
Bioinformatics
Bioinformatics
1
蛋白质生物学基础
2
蛋白质结构可视化
3
蛋白质序列特征分析
4
蛋白质结构预测
Bioinformatics
Secondary Structure Prediction Problem
? How to predict the SSE from the sequence
Secondary Structure Elements
Bioinformatics
Review: prediction of exon region in DNA
Bucture Prediction
Bioinformatics
Neural Network Methods to Predict SSE
▪ The highest accuracy using the traditional method is about 60%.
▪ Interaction between residues is an important factor determining the secondary structure.
Bioinformatics
Adapting the window size to the size of the membrane spanning segment makes the picture easier to interpret
Bioinformatics
Bioinformatics
CCOOLLLLEEGGEEOOFF BBAAASSSIIICCCMMMEEEDDDIIICCCAAALLLSSSCCCIIEIEENNNCCCEEESSS TTHHIIRRDD MMIILLIITTAARRRYYYMMMEEEDDDIIICCCAAALLLUUUNNNIIIVVVEEERRRSSSIITITTYYY
• Resolution: 0.1nm • Determining most structures: 87% in PDB • Difficult to grow a crystal sometimes
Bioinformatics
▪ Nuclear Magnetic Resonance (NMR)
Bioinformatics
Bioinformatics
1
蛋白质生物学基础
2
蛋白质结构可视化
3
蛋白质序列特征分析
4
蛋白质结构预测
Bioinformatics
蛋白质序列分析的主要内容
氨基酸组成分析 ▪ 氨基酸含量统计 ▪ Sequence Logo 图 理化性质分析 ▪ 预测等电点(PI) ▪ 计算分子量(molecular weight, Mw) ▪ 分析疏水性(hydrophobicity) 特殊位点预测:信号肽、跨膜区、…… ……
Bioinformatics
Chou-Fasman
预测三种主要的二级结构:alpha-helix, betasheet,Coil 训练数据:15个已知构象的蛋白质结构,共 2473个氨基酸残基 定义一个蛋白质构象参数 (protein conformational parameters):不同氨基酸残基 在不同二级结构中的重要性 ▪ Pα, Pβ, Pc
▪ Using neural network method to consider this interaction can improve the accuracy to 65%.
Can we use the similar method? √
1. Chou-Fasman predictions: Empirical 2. Garnier, Osguthorpe and Robson (GOR): HMM 3. David T. Jones: PSSM 4. Frishman, Argos: Nearest neighbor methods 5. Sujun Hua: Support vector machine