一、名词解释1. 生物信息学:1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;2)它综合运用了数学、计算机学和生物学的各种工具来进行研究;3)目的在于阐明大量生物学数据所包含的生物学意义。
2. BLAST(Basic Local Alignment Search Tool)直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4. 一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
5. HMM 隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。
(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6. 信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
7. 非信息位点:对于最大简约法来说没有意义的点。
8. 标度树:分支长度与相邻节点对的差异程度成正比的树。
9. 非标度树:只表示亲缘关系无差异程度信息。
10. 有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。
11. 无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。
12. 注释:指从原始序列数据中获得有用的生物学信息。
这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。
13. 聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14. 无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。
15. 有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。
16. 微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。
17. 虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定义)。
是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上,由计算机进行的一种理论上的蛋白裂解反应。
18. 质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。
19. 分子途径是指一组连续起作用以达到共同目标的蛋白质。
20. 虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。
21. 先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。
就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构22. 权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。
基础上针对特定的应用目标而建立的数据库。
23. 系统发育学(phylogenetic):确定生物体间进化关系的科学分支。
24. 系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程25. 蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。
26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。
二.填空题1. 常用的三种序列格式:NBRF/PIR,FASTA和GDE2. 初级序列数据库:GenBank,EMBL和DDBJ3. 蛋白质序列数据库:SWISS-PROT和TrEMBL4. 提供蛋白质功能注释信息的数据库:KEGG(京都基因和基因组百科全书)和PIR(蛋白质信息资源)5. 目前由NCBI维护的大型文献资源是PubMed6. 数据库常用的数据检索工具:Entrez,SRS,DBGET7. 常用的序列搜索方法:FASTA和BLAST8. 高分值局部联配的BLAST参数是HSPs(高分值片段对),E(期望值)9. 多序列联配的常用软件:Clustal10. 蛋白质结构域家族的数据库有:Pfam,SMART11. 系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法12. 系统发育树的构建方法:距离矩阵法,最大简约法和最大似然法13. 常用系统发育分析软件:PHYLIP14. 检测系统发育树可靠性的技术:bootstrapping和Jack-knifing15. 原核生物和真核生物基因组中的注释所涉及的问题是不同的16.检测原核生物ORF的程序:NCBI ORF finder17. 测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)18. 二级结构的三种状态:α螺旋,β折叠和β转角19. 用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层20. 通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISS—MODEL网站)21. 蛋白质质谱数据搜索工具:SEQUEST22. 分子途径最广泛数据库:KEGG23.聚类分析方法,分为有监督学习方法,无监督学习方法24. 质谱的两个数据库搜索工具:SEQEST和Lutkefish三.问答题1. FASTA序列格式第一行以“>”开头但并没有指明是蛋白质还是核酸序列。
后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。
值得注意的是FASTA文件允许以小写字母表示氨基酸。
文件扩展名为“.fasta”。
(NBIR/PIR序列格式第一行以“>”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。
后面是说明行,该行可长可短,没有长度限制。
接下来是序列本身,以“*”号终止。
文件的扩展名为“.pir”或“.seq”。
GDE序列格式与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。
)3. 生物类的数据库类别:一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。
4. PSI-Blast的原理:PSI-BLAST是一种将双序列比对和多序列比对结合在一起的数据库搜索方法。
其主要思想是通过多次迭代找出最佳结果。
每次迭代都发现一些中间序列,用于在接下去的迭代中寻找查询序列的更多疏远相关序列(拓展了序列进化关系的覆盖面积)。
具体做法是最初对查询序列进行BLAST搜索,接着把查找得到的每一击中项作为BLAST 搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相似序列为止。
(以下为研究生课件部分)PSI-BLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进这一序列谱以提高搜索的灵敏度。
利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。
此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。
5. 多序列联配的意义:1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。
6. 系统发育学的研究方法:1)表现型分类法:将表型相像的物种归类在一起,所有特征都要被考虑到;2)遗传分类法:具有共有起源的物种归类在一起,也就是说,这些字符并没有出现在离它们较远的祖先序列;3)进化分类法:该方法综合了表现型分类法和遗传分类法的原理,进化方法被普遍认为是最好的系统发育分析方法,因为该方法承认并采用目前的进化理论;7. 系统发育树的构建方法:1)距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到得出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树;2)最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数量对序列进行比较和聚类;3)最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。
8. 简述人工神经网络预测蛋白质二级结构的基本步骤。
1)输入数据(来自PDB)2)产生一个神经网络(一个计算程序)3)用已知的蛋白质二级结构来训练这个模型4)由训练好的模型来给出未知蛋白的一个可能的结构5)最后从生物角度来检验预测的一系列氨基酸是否合理9. 预测蛋白质三级结构的三种方法1)同源建模法:依据蛋白质与已知结构蛋白比对信息构建3D模型;2)折叠识别法:寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型;3)从头预测法:根据序列本身从头预测蛋白质结构。
10. 分子途径和网络的特点:1)分子途径和网络的结构随意性大。
图可以很简单,也可以非常复杂。
它们可能包含了多个分支,盘绕的连接和回路。
2)它们通常也显示出节点间关系的方向,例如表示出代谢通路或信号传导的方向。
调控途径和网络的图也应该说明相互作用是正的还是负的。
正的相互作用(促进或者活化作用)常常用箭头表示,而负的交互效应(抑制或者失活作用)常常用T型棒表示。
11. 先导化合物的来源有四种来源:1)通过偶然性观察发现的先导化合物(这个方法最著名的例子就是亚历山大.弗莱明发现的青霉素,今天所用的许多抗生素皆由其发展出来)2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物(例如,镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的)3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮)4)先导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘)12. 简述DNA计算机的基本原理:1)以编码生命信息的遗传物质—DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的性质,将所要处理的问题映射为特定的DNA分子;2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。