当前位置:文档之家› 2012生物信息学考试试题

2012生物信息学考试试题

将待搜索核酸序列按6个读框翻译成蛋白质序列,然后与数据库中的蛋白质比较TBlastn
蛋白质
核苷酸
(已翻译)
适合寻找数据库中尚未标注的编码区
将数据库中核酸序列按6个读框翻译成蛋白序列,然后与待搜索蛋白序列对比
TBlastx
核苷酸
(已翻译)
核苷酸
(已翻译)
适合分析EST序列
无论是待搜索核酸序列还是数据库中核酸序列,都按6个读框翻译成蛋白序列
质谱分析的两个工具
19.分子途径是指一组连续起作用以达到共同目标的蛋白质。
20.虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。21.先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构
2. BLAST的五个子程序
程序
查询序列
数据库种类
简述
方法
Blastp
蛋白质
蛋白质
可以找到具有远源进化关系的匹配序列
待搜索蛋白序列与蛋白数据库比较
Blastn
核苷酸
核苷酸
适合寻找分值较高的匹配,不适合远源关系待搜索核酸序列与核酸数据库比较
Blastx
核苷酸
(已翻译)
蛋白质
适合新DNA序列和EST序列的分析
25.蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。
26. ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。
二.填空题
1.常用的三种序列格式:NBRF/PIR,FASTA和GDE
2.初级序列数据库:GenBank,EMBL和DDBJ
具体做法是最初对查询序列进行BLAST搜索,接着把查找得到的每一击中项作为BLAST搜索第二次迭代的查询序列,重复这个过程直到找不到有意义的相似序列为止。(以下为研究生课件部分)
PSI-BLAST的基本思路在于根据最初的搜索结果,依照预先定义的相似性阈值将序列分成不同的组,构建一个位点特异性的序列谱,并通过多次迭代不断改进这一序列谱以提高搜索的灵敏度。
4)先导化合物也可以来自天然的底物或是配体(比如说,肾上腺素作为舒喘宁的类似物用来治疗哮喘)
12.简述DNA计算机的基本原理:
1)以编码生命信息的遗传物质—DNA序列,作为信息编码的载体,利用DNA分子的双螺旋结构和碱基互补配对的性质,将所要处理的问题映射为特定的DNA分子;
2)在生物酶的作用下,通过可控的生化反应生成问题的解空间;最后利用各种现代分子生物技术如聚合酶链反应RCR、超声波降解、亲和层析、分子纯化、电泳、磁珠分离等手段破获运算结果。
5. HMM隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6.信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。
11.先导化合物的来源有四种来源:
1)通过偶然性观察发现的先导化合物(这个方法最著名的例子就是亚历山大.弗莱明发现的青霉素,今天所用的许多抗生素皆由其发展出来)
2)也可以通过替代疗法的药物开发中发现的药物副作用来识别先导化合物(例如,镇定剂氯化物丙嫀是在试验中发现用在抗组胺剂时被发现的)
3)先导化合物也可以来自传统医药学(如奎宁化合物就来自金鸡纳的树皮)
14.检测系统发育树可靠性的技术:bootstrapping和Jack-knifing
15.原核生物和真核生物基因组中的注释所涉及的问题是不同的
16.检测原核生物ORF的程序:NCBI ORF finder
17.测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)
18.二级结构的三种状态:α螺旋,β折叠和β转角
意译:基于局部序列排比的常用数据库搜索工具
含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库
3. PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。
4.一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。
1)表现型分类法:将表型相像的物种归类在一起,所有特征都要被考虑到;2)遗传分类法:具有共有起源的物种归类在一起,也就是说,这些字符并没有出现在离它们较远的祖先序列;
3)进化分类法:该方法综合了表现型分类法和遗传分类法的原理,进化方法被普遍认为是最好的系统发育分析方法,因为该方法承认并采用目前的进化理论;
8.简述人工神经网络预测蛋白质二级结构的基本步骤。
1)输入数据(来自PDB)
2)产生一个神经网络(一个计算程序)
3)用已知的蛋白质二级结构来训练这个模型
4)由训练好的模型来给出未知蛋白的一个可能的结构
5)最后从生物角度来检验预测的一系列氨基酸是否合理
9.预测蛋白质三级结构的三种方法
1)同源建模法:依据蛋白质与已知结构蛋白比对信息构建3D模型;2)折叠识别法:寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型;
利用第一次搜索结果构建位置特异性分数矩阵,并用于第二次的搜索,第二次搜索结果用于第三次搜索,依此类推,直到找出最佳搜索结果。此外,BLAST不仅可用于检测序列对数据库的搜索,还可用于两个序列之间的比对。
5.多序列联配的意义:
1)分析多个序列的一致序列;2)用于进化分析,是用系统发育方法构建进化树的初始步骤;3)寻找个体间单核苷酸多态性;4)通过序列比对发现直亲同源与旁系同源基因;5)寻找同源基因(相似的序列往往具有同源性);6)寻找蛋白家族识别多个序列的保守区域;7)相似的蛋白序列往往具有相似的结构与功能;8)辅助预测新序列的二级或三级结构;9)可以直观地看到基因的哪些区域对突变敏感;10)PCR引物设计。6.系统发育学的研究方法:
22.权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。基础上针对特定的应用目标而建立的数据库。
23.系统发育学(phylogenetic):确定生物体间进化关系的科学分支。
24.系统生物学(systemsbiology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程
8.高分值局部联配的BLAST参数是HSPs(高分值片段对),E(期望值)
9.多序列联配的常用软件:Clustal
10.蛋白质结构域家族的数据库有:Pfam,SMART
11.系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法
12.系统发育树的构建方法:距离矩阵法,最大简约法和最大似然法
13.常用系统发育分析软件:PHYLIP
24.质谱的两个数据库搜索工具:SEQEST和Lutkefish
三.问答题
1. FASTA序列格式
第一行以“>”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。(NBIR/PIR序列格式
第一行以“>”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“*”号终止。文件的扩展名为“.pir”或“.seq”。
GDE序列格式
与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。)
13.聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。
14.无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。
15.有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。
16.微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。
19.用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层
20.通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISS—MODEL网站)
21.蛋白质质谱数据搜索工具:SEQUEST
22.分子途径最广泛数据库:KEGG
23.聚类分析方法,分为有监督学习方法,无监督学习方法
17.虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定义)。
是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上,由计算机进行的一种理论上的蛋白裂解反应。
18.质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。
7.系统发育树的构建方法:
1)距离矩阵法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推到得出分类群之间的进化距离,构建一个进化距离矩阵,其次基于这个矩阵中的进化距离关系构建进化树;
2)最大简约法:该法依据在任何位置将一条序列转变成另一条序列所需要突变的最少数量对序列进行比较和聚类;
3)最大似然法:该模型可将一个给定替代发生在序列中任何位置的概率融合进算法,该方法计算序列中每个位置的一个给定序列变化的可能性,最可靠的树为总的可能性最大的那棵。
DNA计算机优点:低能耗、存储容量高、运算速度快,可真正实现并行工作。
相关主题