当前位置:文档之家› 生物信息学复习参考题

生物信息学复习参考题

生物信息学复习参考题1、国外常用生物信息站点包括哪些?2、生物信息学定义与应用领域。

3、蛋白序列比对常使用的两种打分矩阵及其不同打分矩阵选择。

4、序列比对常用的软件。

5、同源性6、序列比对分为网上比对与本地比对,各项比对参数的意义。

7、蛋白质一级序列,二级结构和三级结构,及维系空间构象的作用力。

8、常用蛋白质结构预测网站9、常用蛋白序列特征识别工具与数据库10、mRNA的表达水平不能完全反应蛋白质的表达水平,为什么?11、基因预测的信号特征12、基因组注释的基本流程13、人类基因组计划14、蛋白质编码基因的3中注释策略15、GO功能注释16、功能基因组学17、构建系统发生树常用的方法和软件18、实验部分(数据库信息词条含义,序列比对结果分析,蛋白质结构预测常用的网站和工具)生物信息学的大体定义是什么?利利用应用数学、信息学、统计学和算机科学的方法研究生物学的问题。

目前的生物信息学基本上只是分子生物学与信息技术(尤其是互联网技术)的结合体。

生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。

目前主要的研究方向有:序列比对、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及建立进化模型。

请论述生物信息学的研究内容有哪些?生物分子数据的收集与管理:①基因组数据库(EMBL、GenBank、DDBJ)②蛋白质序列数据库(SWTSS-PROT、PIR)③蛋白质结构数据库(PDB)数据库搜索及序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列①序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述。

②多重序列比对研究的是多个序列的共性。

序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。

基因组序列分析:①遗传语言分析——天书②基因组结构分析③基因识别④基因功能注释⑤基因调控信息分析⑥基因组比较基因表达数据的分析与处理:基因表达数据分析是目前生物信息学研究的热点和重点。

目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能。

所用方法主要有:①相关分析方法②模式识别技术中的层次式聚类方法③人工智能中的自组织映射神经网络④主元分析方法5)蛋白质结构预测。

蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径。

蛋白质结构预测分为:(1)二级结构预测: 在一定程度上二级结构的预测可以归结为模式识别问题在二级结构预测方面主要方法有:立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法、人工神经网络方法预测准确率超过70%的第一个软件是基于神经网络的PHD系统(2)空间结构预测在空间结构预测方面,比较成功的理论方法是同源模型法该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构,运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作NCBI的Entrez检索包含了哪些方面的信息。

Entrez是NCBI为用户提供整合的访问序列、定位、分类及结构数据的搜索和检索的系统,是一个用以整合NCBI数据库中信息的搜寻和检索的工具,包括核酸序列、蛋白质序列、蛋白质三维结构、基因组图谱和通过PubMed检索的MEDLINE。

其中,Entrez可以整合检索的序列数据库包括GenBank、EMBI—DDBJ、RefSeq、PIR-International、PRF、Swiss—Prot和PDB等。

Entrez有两个显著的特点:第一是对每个数据库中的记录都预先做相似性比较,产生一个列表,包括序列、结构和MEDLINE文献记录等信息;第二是对某个数据库的记录与其他数据库的相关记录做了链接,使对不同数据库的访问得以整合。

所以Entrez是通过相近性和硬连接来提供集成的信息检索。

Entrez可以用很广泛的文本方式搜索,比如作者名字、杂志名字、基因或蛋白名、物种、单一的检索号(如:accession number、序列ID、PubMed ID、MEDLNE UID)和其他的术语,因此,Entrez是一个强大的检索相关序列、结构和参考文献的信息检索工具。

请概述基因组注释的大体流程。

(1)基因组注释(Genome annotation) 是利用生物信息学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。

基因组注释的研究内容包括基因识别和基因功能注释两个方面。

基因识别的核心是确定全基因组序列中所有基因的确切位置。

从基因组序列预测新基因,现阶段主要是3 种方法的结合: (1) 分析mRNA 和EST数据以直接得到结果; (2) 通过相似性比对从已知基因和蛋白质序列得到间接证据; (3) 基于各种统计模型和算法从头预测。

对预测出的基因进行高通量功能注释可以借助于以下方法,利用已知功能基因的注释信息为新基因注释: (1) 序列数据库相似性搜索; (2) 序列模体(Motif) 搜索; (3) 直系同源序列聚类分析(Cluster of orthologousgroup ,COG). (2)基因组注释系统是MGAP 的核心,整合了许多常用的基因识别和蛋白质功能预测软件,包括GeneMarks、IPRsearch、BLASTPGP 和FASTA3 等,以及多个数据库,如非冗余蛋白质序列数据库(Non redundant , NR) 、已知三维空间结构的蛋白质序列数据库(PDBSeq) 、国际蛋白质资源信息系统( InterPro)和直系同源蛋白质家族数据库(Cluster of orthologousgroups ,COG) 等,编写了相应的模块进行自动操作,并把每一步注释结果导入数据库中。

MGAP 整合的一般模块,可以被其他任何一种微生物基因组直接使用。

1、国外常用生物信息站点包括哪些?NCBI—美国国家生物技术信息中心EBI—欧洲生物信息研究所EMBnet—欧洲分子生物学信息网络2、生物信息学定义与应用领域。

利用应用数学、信息学、统计学和计算机科学的方法研究生物学的问题应用领域:生物信息学数据库(数据库建设、数据库整合和数据挖掘)序列分析(序列比对、基因序列注释)其它主要应用(比较基因组学、基因和蛋白质的表达分析、生物芯片大规模功能表达谱分析、蛋白质结构预测、蛋白质与蛋白质相互作用、生物系统模拟、代谢网络建模分析、计算进化生物学、生物多样性研究、合成生物学)3、蛋白序列比对常使用的两种打分矩阵及其不同打分矩阵选择。

PAM矩阵:基于进化原理;根据氨基酸理化性质分组;优点:模型采用观察突变推算的计分方法,有一定的合理性;缺点:初始模型构建时候利用了有限的蛋白序列;突变值是通过统计方法推算出来的,有一定的局限性;根据不同相似性选择不同的矩阵。

BLOSUM矩阵:通过设置不同的百分比(相似性)产生不同的矩阵与PAM相比,细节有所不同p51优点:来源较丰富的序列局部比对结果建立的矩阵缺点:对含不同进化距离的序列中高度保守的残基会造成结果的偏倚。

4、序列比对常用的软件。

FASTA工具、BLAST工具5、同源性:从某个共同祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,它是质的判断。

6、序列比对分为网上比对与本地比对,各项比对参数的意义。

1,网络版本NCBI在线的blast服务;方便,容易操作,数据库同步更新;不利于操作大批量的数据;不能自己定义搜索的数据库。

2,单机版有适合不同平台的版本(包括linux,dos等);必须获取相应的数据库;处理大批的数据;可以自己定义数据库;耗费本地机的大量资源;没有网络版直观、方便;需要一定的计算机操作水平。

Score:1、使用打分矩阵对匹配的片段进行打分; 2、这是对各对氨基酸残基(或碱基)打分求和的结果;3、匹配片段越长、相似性越高则Score值越大。

E value:1、在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小;2、E值综合考虑了真实匹配和随机匹配的相对概率、序列长度、数据库的大小、序列组分的偏向性;3、E=1e-6表示这组匹配是随机巧合而不具有生物学意义匹配概率为百万分值一;4、E值越小表示随机情况下得到该Score值的可能性越低。

7、蛋白质一级序列,二级结构和三级结构,及维系空间构象的作用力。

一级结构:多肽链的氨基酸残基的排列顺序,它是由氨基酸个体通过肽键共价连接而成。

肽键二级结构:多肽链主链原子借助于氢键沿一维方向排列成具有周期性的结构现象,是多肽链局部的空间结构,主要有α螺旋、β折叠、β转角、无规卷曲等。

氢键三级结构:整条多肽链的三维结构,包括骨架和侧链在内的所有原子的空间排列。

二硫键等维系空间构象的作用力:疏水键、静电引力、氢键、构象熵、范德华力、共价键8、常用蛋白质结构预测网站一级:ProParam:/tools/protparam.html二级:PredictProtein /螺旋卷曲:Colis /software/COILS_form.html结构域:InterPro /interpro/三维:Phyre /~phyre/观察和修改分子的三维结构:SWISS-PdbView /spdbv/。

相关主题