生物信息学复习题及答
案陶士珩
Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】
生物信息学复习题
一、名词解释
生物信息学, 二级数据库, FASTA序列格式, genbank序列格式, Entrez,BLAST,查询序列(query),打分矩阵(scoring matrix),空位(gap),空位罚分,E值, 低复杂度区域,点矩阵(dot matrix),多序列比对,分子钟,系统发育(phylogeny),进化树的二歧分叉结构,直系同源,旁系同源,外类群,有根树,除权配对算法(UPGMA),邻接法构树,最大简约法构树,最大似然法构树,一致树(consensus tree),bootstrap,开放阅读框(ORF),密码子偏性(codon bias),基因预测的从头分析法,结构域(domain),超家族,模体(motif),序列表谱(profile),PAM矩阵,BLOSUM,PSI-BLAST,RefSeq,PDB数据库,GenPept,折叠子,TrEMBL,MMDB,SCOP,PROSITE,Gene Ontology Consortium,表谱(profile)。
二、问答题
1)生物信息学与计算生物学有什么区别与联系
2)试述生物信息学研究的基本方法。
3)试述生物学与生物信息学的相互关系。
4)美国国家生物技术信息中心(NCBI)的主要工作是什么请列举3个以上NCBI维护的数据库。
5)序列的相似性与同源性有什么区别与联系
6)BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么
7)简述BLAST搜索的算法。
8)什么是物种的标记序列
9)什么是多序列比对过程的三个步骤
10)简述构建进化树的步骤。
11)简述除权配对法(UPGMA)的算法思想。
12)简述邻接法(NJ)的算法思想。
13)简述最大简约法(MP)的算法思想。
14)简述最大似然法(ML)的算法思想。
15)UPGMA构树法不精确的原因是什么
16)在MEGA2软件中,提供了多种碱基替换距离模型,试列举其中2种,解释其含义。
17)试述DNA序列分析的流程及代表性分析工具。
18)如何用BLAST发现新基因
19)试述SCOP蛋白质分类方案。
20)试述SWISS-PROT中的数据来源。
21)TrEMBL哪两个部分
22)试述PSI-BLAST 搜索的5个步骤。
三、操作与计算题
1)如何获取访问号为U49845的genbank文件解释如下genbank 文件的LOCUS行提供的信息:
LOCUS SCU49845 5028 bp DNA linear PLN
21-JUN-1999
2)利用Entrez检索系统,对核酸数据搜索,输入如下信息,将获得什么结果:
AF114696:AF114714[ACCN]。
3) 相比使用BLAST套件搜索数据库,BLAST2工具在结果呈现上
有什么优点
4)MEGA2如何将其它多序列比对格式文件转化为MEGE格式的多序列比对文件
5)什么简约信息位点Pi
6)以下软件的主要用途是什么
RepeatMasker, CpGPlot, Splice View, Genscan, ORF
finder, neural network promoter prediction.
7) 为下面的序列比对确定比对得分:匹配得分= +1,失配得分= 0,空位得分= -1。
TGTACGGCTATA
TC - -CGCCT –TA
8) 用UPGMA重建系统发生树,距离矩阵如下:
9)画出4个物种的3棵不同的无根树.这4个物种在某位置上的核苷酸分别是T,T,C和C,为每个内部节点推断的祖先序列标
出最可能的候选核苷酸,3棵可能的无根树中有几棵是一样
简约的(因为他们有最小替换数)有几棵树的替换树是2有大
于2个替换的树吗
10)如何将所研究的蛋白质与其他相关蛋白质做结构比对。
答案部分
一、名词解释:
生物信息学:研究大量生物数据复杂关系的学科,其特征是多学科交叉,以互联网为媒介,数据库为载体。
利用数学知识建立各种数学模型; 利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析,并以生物学知识对结果进行解释。
二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步的整理。
P11,第2段。
FASTA序列格式:是将DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号(>)表示一个新文件的开始,其他无特殊要求。
genbank序列格式:是GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。
该文件格式按域划分为4个部分:第一部分包含整个记录的信息(描述符);第二部分包含注释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“
42,有大于2个替换
2棵一样简约,替换树为2;2棵;没有。
21) 以下软件的主要用途是什么
RepeatMasker, CpGPlot, Splice View, Genscan, ORF finder, neural network promoter prediction.
答:
RepeatMasker:是对重复序列进行分析的软件
GpGPlot:用来查找一条DNA序列中CpG岛,使用Gardine-Garden和Frommer描述的方法
Splice View:是对一段序列进行剪接位点的分析即其中的受体和供体位点
Genscan:是一种从头分析工具
ORF finder:是用来分析序列ORF的工具
neural networkpromoter prediction:神经网络启动子预测是另外一种分析启动子的方法
22)试述SWISS-PROT中的数据来源。
答:
(1)从核酸数据库经过翻译推导而来;
(2)从蛋白质数据库PIR挑选出合适的数据;
(3)从科学文献中摘录;
(4)研究人员直接提交的蛋白质序列数据。
23)TrEMBL哪两个部分
答:
(1)SP-TrEMBL(SWISS-PROT TrEMBL)
包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL序列都已被赋予SWISS-PROT的登录号。
(2)REM-TrEMBL(REMaining TrEMBL)
包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。
24)试述PSI-BLAST 搜索的5个步骤。
答:
[1] 选择待查序列(query)和蛋白质数据库;
[2] PSI-BLAST 构建一个多序列比对,然后创建一个序列表谱(profile)又称特定位置打分矩阵(PSSM);
[3] PSSM被用作 query搜索数据库
[4] PSI-BLAST 估计统计学意义 (E values)
[5] 重复 [3] 和 [4] , 直到没有新的序列发现。
25)试述蛋白质三维结构预测的三类方法
(1)同源建模,对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型,序列相似性低于30%的蛋白质难以得到理想的结构模型;
(2)在已知结模板的序列一致率小于25%时,使用折叠识别方法进行预测;
(3)在找不到已知结构的蛋白质模板时使用从头预测的方法。
P178-181
26)列举5种常用的系统发育分析软件。