生物信息学试题A卷2010
局部排列可以鉴定蛋白质和核苷酸序列中潜在的序列和功能基序。 4). 功能预测(function prediction) 蛋白质序列间的高度相似性通常意味着同源序列间的功能相似性。 5). 数据库搜索(database search)
X I S Q Y H A E K R P
X 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
4、构建系统发生树,应使用 A、BLAST C、UPGMA B、FASTA D、Entrez
□□□□□□□□□□□□学生姓名:________________
5、在蛋白质一级数据库基础上,构建二级数据库应使用 A、近邻归并法 C、基因融合法 B、序列比对 D、Entrez
一、名词解释(每题 2 分,共 10 分) 1、基序(motif) 2、可读框(ORF) 5、 系统发生学 3、剪切变体
学生班级________________学生学号:
3、 核酸序列比对使用的得分矩阵类型有 等价矩阵 、 BLAST 、和 转换-颠换矩阵 等。 4、蛋白质结构分类数据库主要有 SCOP 和 CAH 和 PDBsum 等。 邻近归并法 、 Fitch-Margoliash法 、
5、构建系统.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 3.0 2.3
P 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 4.0 --------4 分
接下来进行递推,用两个函数分别计算由二条路径到达该单元的分值并找出其中 的最大值,若此分值小于 0,则用 0 替代。这两个函数分别计算: (I) 当前行前面各分值与相应空位罚分值之差,并取最大值;求空位罚分值的函数为 W =1.0+0.333 k,k 表示连续的第 k 个空位。 (II) 当前列前面各分值与相应的空位罚分值之差,并取最大值。出现负值就用 0 代替, 表示没有相似性比对可以延续到当前位置。 X I S Q Y H A E K R P X 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 S 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 Q 0.0 0.0 0.0 2.0 0.7 0.3 0.0 0.0 0.0 0.0 0.0 Y 0.0 0.0 0.0 0.7 3.0 1.7 1.0 0.7 0.3 0.0 0.0 H 0.0 0.0 0.0 0.3 1.7 4.0 2.7 2.3 2.0 1.7 1.3 D 0.0 0.0 0.0 0.0 1.3 2.7 3.7 2.3 2.0 1.7 1.3 W 0.0 0.0 0.0 0.0 1.0 2.3 2.3 3.3 2.0 1.7 1.3 E 0.0 0.0 0.0 0.0 0.7 2.0 2.0 1.9 3.0 1.7 1.3 K 0.0 0.0 0.0 0.0 0.3 1.7 1.7 1.7 2.0 2.7 1.3 R 0.0 0.0 0.0 0.0 0.0 1.3 1.3 1.3 0.7 3.0 2.3 P 0.0 0.0 0.0 0.0 0.0 1.0 1.0 1.0 0.3 1.7 4.0 -------7 分 一旦矩阵中所有单元的分值计算完毕,就可以找出具有最高分值的单元,也就是 代表两个序列间高分匹配的终点。到达这个单元的其他矩阵元素可以通过回溯方法确 定。然后根据回溯路径求得一个片段的比对。如果需要,还可以找出在上述回溯范围
第 3 页 共 1 页
□□□□□□□□□□□□学生姓名:________________
一、 名词解释(每题 2 分,共 10 分) 1、基序(motif) :通过多序列比对,将同源序列收集在一起,以得到保守区域。这 些保守区域称为基序(motifs) 2、可读框(ORF) :没有终止密码子(TGA,TAA 或 TAG)打断的阅读框。 3、剪切变体:从同一 DNA,转录得到不同 mRNA,并最终翻译成不同的蛋白质称 为剪接变体 4、表p), 它们代表在特定组织或发育阶段表达的基因,有时可代表特定的 cDNA. 5、系统发生学:通过比较五种的特征,认为特征相似的五种在遗传学上相近,研究 五种之见的进化关系 二、 填空题(共 20 分,每空 1 分) l、 列举至少 2 种权威的核酸序列数据库 Genbank 、 EMBL 等。 2、列举至少 3 种权威的蛋白质序列数据库 PIR 、 Swiss-prot 、
7、欧洲生物信息研究所简称: A、SIB C、NCBI B、EBI D、MIPS
8、在蛋白质序列数据库中比较查询蛋白质序列,应使用 A、BLASTn C、tBLASTn 9、Profiles 数据库是 A、蛋白质序列数据库 C、蛋白质二级数据库 10、TreeBASE 系统主要用于 A、发现新基因 C、类群间系统发育关系研究 B、系统生物学研究 D、序列比对 B、核酸序列数据库 D、蛋白质结构数据库 B、BLASTp D、BLASTx
6、做 DNA 结构分析可使用 A、GenBank 数据库 C、NDB 数据库 B、PIR 数据库 D、BLOCKS 数据库
4、表达标签序列(EST)
二、填空题(共 20 分,每空 1 分) l、 列举至少 2 种权威的核酸序列数据库 2、列举至少 3 种权威的蛋白质序列数据库 3、核酸序列比对使用的得分矩阵类型有 4、蛋白质结构分类数据库主要有 5、构建系统树的主要方法有 6、列举至少 4 中 NCBI 的服务功能 、 、 、 、 、 、 、 、 和 、 和 等。 、 、和 等。 、 等。 等。 等。 等。
D 0.0 0.0 0.0 0.0 0.0 0.0 3.7 0.0 0.0 0.0 0.0
W 0.0 0.0 0.0 0.0 0.0 0.0 0.0 3.4 0.0 0.0 0.0
E 0.0 0.0 0.0 0.0 0.0 0.0 0.0 1.0 3.0 0.0 0.0
K 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 2.0 2.7 0.0
3、下列哪一数据库是表达序列标签数据库? A、PROSITE C、dbEST B、dbSNP D、PDB
Nymphaea alba chloroplast, complete genome.
ACCESSION VERSION KEYWORDS SOURCE REFERENCE AUTHORS TITLE JOURNAL PUBMED FEATURES source
五、计算题(共 30 分)
l、 对两条序列“SQYHDEKRPW”和“ISQYHAEKRP”进行局部比对。 (15 分) 2、对于下列距离矩阵,用 UPGMA 构建系统发生树。 (15 分) A A B C D 0 3 6 9 0 5 9 0 10 0
第 2 页 共 1 页
B
C
D
E
………………装订线………装订线………装订线…………试卷须与答题纸一并交监考教师…………装订线………装订线………装订线………………
……
159841 gagtaggaaa aggaataaat atagtgatat ttttattctt cgtcgccgta agtaaataga 159901 aagagaaata ataaataatg aatgatgtga //
3、构建蛋白质二级数据库的主要方法有哪些? 4、概括总结序列比较的主要用途。
………………装订线………装订线………装订线…………试卷须与答题纸一并交监考教师…………装订线………装订线………装订线………………
内蒙古科技大学 2010/2011 学年第一学期 《生物信息学》考试试题
课程号:66149304 使用专业、年级:生工 08、生技 07 考试时间:2010 年 12 月 考试方式:开卷 任课教师:蔡禄 备 注:A 卷
AJ627251 AJ627251.1 GI:50250306 complete genome. chloroplast Nymphaea alba 1 Goremykin,V.V., Hirsch-Ernst,K.I., Wolfl,S. and Hellwig,F.H. The chloroplast genome of Nymphaea alba: whole-genome analyses and the problem of identifying the most basal angiosperm Mol. Biol. Evol. 21 (7), 1445-1454 (2004) 15084683 Location/Qualifiers 1..159930 /organism="Nymphaea alba" /organelle="plastid:chloroplast" /mol_type="genomic DNA" /db_xref="taxon:34301"
2、下列那一数据库是核酸序列数据库 A、PROSITE 数据库 C、PDB 数据库 B、DDBJ 数据库 D、PIR 数据库
四、问答题(每题 5 分,共 20 分) 1、为什么说 Swiss-Prot 是重要的蛋白质序列数据库? 2、下面是 Genbank 中一条记录,是解释其主要含义
LOCUS DEFINITION 第 1 页 共 1 页 AJ627251 159930 bp DNA circular PLN 15-APR-2005
S 0.0 0.0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
Q 0.0 0.0 0.0 2.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
Y 0.0 0.0 0.0 0.0 3.0 0.0 0.0 0.0 0.0 0.0 0.0
H 0.0 0.0 0.0 0.0 0.0 4.0 0.0 0.0 0.0 0.0 0.0
三、选择题(从每题的 A、B、C、D 四个被选答案中选择一个最佳答案。共 20 分,每 小题 2 分) 1、下列那一数据库最有可能存放蛋白质跨膜区信息 A、NDB 数据库 C、GenBank 数据库 B、SWISS-PROT 数据库 D、PDB 数据库