某大学药物设计课件
• 可应用于进化非常疏远的结构预测 • 未知蛋白序列与折叠库中已知结构的蛋白序列作
匹配计算,将序列吻合的三维结构模块串连起来, 得到整个蛋白三维结构
37
E1 threading
E2
38
3、同源蛋白模建法 homologous model building 比较分子模拟法 comparative molecular modeling 同源模建 homology modeling 同源蛋白法 protein homology
• ACD (Available Chemicals Directory) ——MDL维护。 FCD数据库加上可大批量供货的化学品信息。目前有 25万个化合物
• CSD(Cambridge Structure Database) —— 20多万个 结晶的3D结构实验数据及相关数据
24
商品可供化合物数据库
间接法 基于配体相似性(ligand similarity-based)的 基于药效基团(pharmacophore-based)的
3
化合物 数据库
合成化合物库 天然化合物库 组合化合物库 药物分子库 类药性化合物库
生物大分子 数据库
核酸分子库 蛋白质分子库
4
化学信息和生物信息计算机系统
—— 利用计算机信息处理系统对分子 (小分子及生物大分子)(2D及3D) 及相关信息(性质、来源、用途)进行 分析、储存、检索和传递等处理
第五章 药物发现的虚拟筛选方法
Virtual screening in drug discovery
1
第一节 概述
搜寻标准 (提问结构)
化合物库
匹配 计算
搜寻的基本要素:
搜寻标准;化合物库;计算方法
命中结构 Hits
2
二类基本方法:
直接法 基于靶点结构的 基于分子对接(docking-based)的
小分子化合物
化学信息学
匹配计算
生物大分子
生物信息学
命中结构
5
第二节 化学信息处理
化学信息学 Chemoinformatics,chemical informatics,
Cheminformatics, chemi-informatics 利用计算机信息处理技术对化学分子结构 和相关信息进行管理的一种综合性技术和学科 应用化学信息学可促进化学信息的获取、 转化与共享
• 采用理论计算(分子力学、分子动力学、量子化 学)方法,直接从分子和原子参数计算出蛋白质分 子的稳定构象,
• 理论上最理想的方法,但计算量极大,对于实际分 子的计算超过能力范围
35
36
2、穿针引线法,线串法,线程法,折叠识别 (threading,fold recognition)
• 根据已知的蛋白质三维结构来预测可能的三维结 构 —— 基于知识的预测
疏水值
-0.4 -3.2 4.5 3.8 -3.9 1.9 2.8
氨基酸
Pro(P) Ser(S) Thr(T) Trp(W) Tyr(Y) Val(V)
疏水值
-1.6 -0.8 -0.7 -0.9 -1.3 4.2
29
* 根据统计值:Glu经常出现在α-螺旋中;Val常在β-折叠
中发现;Pro通常不出现于α-螺旋中和β-折叠中,而倾向 于在回折中……
(2)二重或多重序列对比 (3)找出共同的二级结构区域,构建骨架 (4)对初始模型作能量优化 (5)判断结构合理性
40
三、代表性生物信息学数据库
(一)核酸数据库
• GenBank——NIH所属国家生物技术信息中心NCBI • Nucleic Acid Database ( NDB ) —— 由 European
• 根据已知的蛋白质三维结构来预测可能的三维 结构 —— 基于知识的预测
• 同源蛋白有着相似的来源、相似的结构和生物 功能。通过比较蛋白序列的相似性,按同源蛋 白的三维结构为模板,构建未知蛋白的结构
• 一般要求同源性在30%以上,特别是在结合区 域同源性要好
39
步骤:(1)根据未知蛋白质的序列,寻找同源蛋白
System) —— MDL的综合性结构和反应管理软件
• 由三个主要分软件组成: (1) ISIS/DRAW——用于输入结构式和搜寻询问条件 (2) ISIS/BASE——用于生成局部数据库及处理信息 (3) ISIS/HOST——主服务器应用程序,进行通讯连
接,集中数据库数据并作处理
18
2D结构输入:
25
第三节 生物信息处理
生物信息学(bioinformatics)
• 基于数学、生命科学、化学和计算机科学的交叉 学科
• 利用计算机信息处理技术对大量生物大分子作信 息获取、加工、储存、分类、检索与统计分析,揭 示生物大分子的分子结构、功能、同源性和进化关 系
• 推动生命科学的发展,为创新药物的研究和开发 奠定基础
序列对比可以用各种矩阵表达并作相似性打分 两个残基越相似则打分值越高
31
* (三) 多重序列比对 multiple sequence alignment
多重序列比对可以从更多细节上揭示保守模式和结构信息
可采用多种统计算法进行多重序列比对
32
二、蛋白质三维结构预测
基因
决定
蛋白质 一级结构
折叠
蛋白质 三维结构
15
* 基本存储: 分子的元素组成、原子坐标、原子连接关系 还能存储: • 分子子结构信息,能适用于生物大分子 • 原子电荷信息,调用时不必再计算 • 确定特定原子化学环境的原子类型信息
16
二、化合物数据库的生成和管理
• 输入 • 搜寻和检索 • 管理 • 输出
17
ISIS (Integrated Scientific Information Management
简化分子线性输入系统)
• SLN(Sybyl linear notation,Sybyl线性标记法)
8
*
SMILES
• 按化合价模型,每个原子被氢原子饱和;双键用= 表示;三键用#表示;环化分子用闭合原子序号表 示;芳香环中不饱和原子用小写字母表示
甲烷 乙醇 氰化氢 环已烷 吡啶
CH4 C2H5OH HCN
氨基酸 Glu Val Pro Ala Leu Lys ……
螺旋(α)偏好 1.59 0.90 0.34 1.41 1.34 1.23 ……
链(β)偏好 0.52 1.87 0.31 0.72 1.22 0.69 ……
(数值=1代表偏好处于平均;>1代表偏好大于平均;<1代表偏好小于平均)
30
*
(二) 双重序列比较——序列比对sequence alignment
N[C@@H](C)C(=O)O
N[C@H](C)C(=O)O
10
*(二)以二维形式表示
• 用图表示
• 用矩阵表示
C C
C
H
H
N
O
C
C
C
C
C
O
C
H
11
*
• 用连接表表示
12
*
(三)以三维形式表示 1、直接坐标法 • 用卡迪尔坐标直接存储每个原子的三维坐
标(x, y, z)
13
*2、内坐标法
• 每个原子位置以与其他原子间的3个相对位 置关系表示——距离、夹角、二面角
传 学 研 究 所 的 日 本 信 息 生 物 学 中 心 ( Center for Information Biology, CIB)开发维护
三大库可交互
41
(二)蛋白质数据库 PDB ( Protein Data Bank at Brookhaven National
Laboratories ) —— 美 国 Research Collaboration for Structural Bioinformatics, RCSB开发维护的多肽、酶、病 毒、碳水化合物和核酸的三维结构数据
Molecular Biology Laboratory( EMBL)创建,现由英 国 剑 桥 的 欧 洲 生 物 信 息 学 研 究 所 ( European Bioinformatics Institute, EBI)维护
• DNA Data Bank of Japan(DDBJ)—— 日本国立遗
(FOPNFT 5$($($(555$((5("5("$ ((5(""""$$5$5("$"$"5 1SPUFJOT 43747.57,54%5$443334 2-7$,3.1("%,173"3237
序列分析
结构预测(同源模建)
28
* 一、核酸和蛋白质的序列分析 sequence analysis
42
第四节 虚拟筛选 (virtual screening)
(一) 单个序列分析
根据单个氨基酸的物化性质推测整个蛋白质的性质, 也可预测二级结构出现的可能性
20种氨基酸的疏水参数
氨基酸
Ala(A) Arg(R) Asn(N) Asp(D) Cys(C) Gln(Q) Glu(E)
疏水值
1.8 -4.5 -3.5 -3.5 2.5 -3.5 -3.5
氨基酸
Gly(G) His(H) Ile(I) Leu(L) Lys(K) Met(M) Phe(F)
TC = c /(a+b-c)
a为A中基础片断的描述符的数 b为B中基础片断的描述符的数目 c为A和B中共有的基础片断的描述符的数目 相同分子TC = 1;分子没有共同描述符时TC = 0
22
四、化学信息学资源
23
常用化合物数据库
• FCD (Fine Chemicals Directory) —— MDL 维护。 收 载约90 000个化合物和20 000种化合物数据,包括化学 系统名、俗称、分子式、分子量、供应商、价格、 CAS登录号、纯度等。可通过结构式或其它任何数据 检索