当前位置：文档之家› 2019版国科大生物信息学期末考试复习题

2019版国科大生物信息学期末考试复习题

中科院生物信息学期末考试复习题陈润生老师部分：1.什么是生物信息学，如何理解其含义？为什么在大规模测序研究中，生物信息学至关重要？答：生物信息学有三个方面的含义：1)生物信息学是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面，是基因组研究不可分割的部分。

2)生物信息学是把基因组DNA序列信息分析作为源头，破译隐藏在DNA序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测；其本质是识别基因信号。

3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。

它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。

2.如何利用数据库信息发现新基因，其算法本质是什么？答：利用数据库资源发现新基因，根据数据源不同，可分2种不同的查找方式：1)从大规模基因组测序得到的数据出发，经过基因识别发现新基因：（利用统计，神经网络，分维，复杂度，密码学，HMM，多序列比对等方法识别特殊序列，预测新ORF。

但因为基因组中编码区少，所以关键是“数据识别”问题。

）利用大规模拼接好的基因组，使用不同数据方法，进行标识查找，并将找到的可能的新基因同数据库中已有的基因对比，从而确定是否为新基因。

可分为：①基于信号，如剪切位点、序列中的启动子与终止子等。

②基于组分，即基因家族、特殊序列间比较，Complexity analysis，Neural Network2)利用EST数据库发现新基因和新SNPs：（归属于同一基因的EST片断一定有overlapping，通过alignment可组装成一完整的基因，但EST片断太小，不存在数据来源，主要是拼接问题）数据来源于大量的序列小片段，EST较短，故关键在正确拼接。

方法有基因组序列比对、拼接、组装法等。

经常采用SiClone策略。

其主要步骤有：构建数据库；将序列纯化格式标准化；从种子库中取序列和大库序列比对；延长种子序列，至不能再延长；放入contig库①构建若干数据库：总的纯化的EST数据库，种子数据库，载体数据库，杂质、引物数据库，蛋白数据库，cDNA数据库；②用所用种子数据库和杂质、引物数据库及载体数据库比对，去除杂质；③用种子和纯化的EST数据库比对④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较，判断是否为已有序列，再利用该大片段与纯化的EST数据库比对，重复以上步骤，直到序列不能再延伸；⑤判断是否为全长cDNA序列。

（利用EST数据库：原理：当测序获得一条EST序列时，它来自哪一个基因的哪个区域是未知的（随机的），所以属于同一个基因的不同EST序列之间常有交叠的区域。

根据这种“交叠”现象，就能找出属于同一个基因的所有EST序列，进而将它们拼接成和完整基因相对应的全长cDNA序列。

而到目前为止，公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。

估计这些序列已覆盖了人类全部基因的95%以上，平均起来每个基因有10倍以上的覆盖率。

）3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么？当前的困难是什么，如何克服？答：计算步骤，构建系统进化树，其主要步骤如下：(1.序列相似性比较: 就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么，完成这一工作只需要使用两两序列比较算法。

常用的序列包有BBLAST、FASTA等；(2.序列同源性分析：将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其他序列间的同源性大小，这是理论分析方法中最关键的一步，完成这一工作必须使用多序列比较算法，常用的程序包有CLUSTAL等；(3.构建系统进化树：根据序列同源性分析的结果，重建反应物种间进化关系的进化树，为完成这一工作，已发展了多种软件包，如PYLIP、MEGA等(4.稳定性检验：为了检验构建好的进化树的可靠性，需要进行统计可靠性检验，通常构建过程要随机地进行成百上千次，只有以大概率（70%以上）出现的分支点才是可靠的。

通用的方法使用Bootstrap算法，相应的软件已包括在构建系统进化树所用的软件包当中。

当前的主要困难：是发现了基因的横向迁移（LGT）现象，即进化程度不同的物种间存在着遗传信息基因的传递，如果拿迁移的基因做进化分析就会出错。

克服LGT的方法（可能的解决途径）：1)纵向思路：选择垂直进化而来的序列进行研究，即去除横向迁移的数据库，如COG数据库；2)横向思路：发展基于完整基因组构建进化树，即使用全基因组数据库进行基因组水平上的对比；4.什么是SNP？为什么SNP的研究是重要的？SNP研究有哪些优点？举出2~3个SNP相关的网站。

答：SNP是指单核苷酸多态性，主要是指在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性，代表了基因组水平上遗传密码的变异，由于这种变异很多以单碱基突变的形式出现，因此称为单核苷酸多态性；它反映了不同个体间、正常与异常个体之间基因组上的差别，现在这个概念有所扩大，不限于一个核苷酸的差异。

重要性：因为SNP研究是基因组领域理论成果走向应用的关键步骤，是联系基因型和表现型之间关系的桥梁，是研究人类基因组计划走向应用的重要步骤。

优点：（1）SNP在基因组中分布相当广泛，使人们有机会发现与各种疾病相关的基因组突变；（2）不直接导致疾病基因表达的SNP，与某些疾病基因相邻，成为重要标记，有助于发现疾病基因（3）从实验操作来看，通过SNP发现疾病相关基因突变，比通过家系发现更加容易。

（4）基础研究中非常重要，如对Y染色体SNP分析有重要成果。

SNP相关的一些网站：1)SNP Consortium's database(/index.html)2)NCBI SNP database将这些数据进行整理，去掉冗余，使每个SNP都是唯一的。

此时的SNP被称为reference SNP或refSNP。

（(/SNP/overview.html) 3)The Human Genic Bi-Allelic Sequences Database(HGBASE) 这一数据库收录了人基因组中所有已知的序列变化，包括：SNPs、序列的插入和缺失(Indels)、简单重复序列等。

（http://hgbase.cgr.ki.se/）4)The Human Gene Mutation Database（HGMD）(/)5. 什么是系统生物学？系统生物学对生命科学概念上的发展？系统生物学对生物功能实现的理解有何本质变化？系统生物学的研究思路是什么？答：系统生物学是指在系统的层面上研究生命活动，包含三个相互衔接的组成：整合数据，即整合所有各个层次（DNA水平，RNA水平，蛋白质水平，蛋白质相互作用水平）的信息数据；系统建模，即用这些信息构建描绘生命活动的数学模型；预测未知，即用这个模型预测生命未来的发展及外界干扰后系统的变异。

学术概念上的发展主要有：传统生物学是从基因组序列到结构，再到功能，而它从各个层次的相互作用到网络，再到功能。

与以往不同的是，系统生物学一开始就考虑元件之间的相互作用，把整个生命活动作为网络，考虑其相互作用。

看待生命活动本质的变化：因为没有一个生命活动是靠一个基因完成的，生命活动是一组基因相互作用实现的，这种相互作用形成一个网络，既包括每个单元的结构，又包括单元与单元之间的相互作用。

因此，系统生物学不仅考虑每个基因的活动，还描述了基因间的相互作用并导致了网络的产生。

研究思路的变化：传统的分子生物学研究步骤一般为：DNA序列→蛋白结构→蛋白功能（一维），而系统生物学是在二维的角度研究生命科学，即：相互作用→网络→功能，是由一组基因产生并相互作用共同实现的。

系统生物学的研究思路（研究流程）：1.针对选定生物系统进行实验设计，了解系统所有组成成分：基因，RNA，蛋白,膜脂等2.通过系统行为动力学分析，总结系统设计和控制规律3.通过总结规律来提出新的实验设计，验证系统模拟的正确性6.（1）什么是非编码序列，非编码RNA，非编码基因？（2）以人的基因组为例回答：在基因组中有多少非编码序列，有多少存在转录本，举2~3个非编码核酸的生物学功能？答：（1）非编码序列是基因组中不编码蛋白质和多肽的序列；(基因组中不归属于基因调控元件，稳定元件之外的，也无明确生物学功能意义的基因序列统称为非编码序列，即不编码蛋白质同时也无明确生物学功能的序列)非编码RNA是指来自基因组的非编码的转录元件，即基因组中非编码序列的转录本；非编码基因指那些具有明确生物学功能的非编码RNA在基因组上非编码序列上的位置，即功能性的非编码RNA对应基因组上的位置称为非编码基因；（2）人类基因组中97～98%的序列是非编码序列，有70%～80%存在转录本，非编码核酸的生物学功能：1)Xist:X-inactivation（X染色体失活）是哺乳动物的一种剂量补偿机制，其中一半拷贝转录被抑制从而失活，抑制转录是通过一个2kb的非编码RNA（Xist RNA）实现的,xist RNA装配在失活X染色体的外侧，引起结构改变导致失活；2)Small RNA and RNAi: RNAi是由RNA（siRNA、microRNA）导致的转录后基因沉默现象，如由双链小RNA引起的干扰和转录后基因沉默现象，在植物病毒抗性和线虫中的转座子沉默；一些小核RNA调控基因转录。

(单链易降解，但发现细胞中存在另一种pathway，双链小RNA进入细胞后结合组蛋白形成复合体，该复合体和识别并降解target) 3)piRNA（具有大量转录本，功能不详）和Prions（生物复杂度到一定程度后会出现发病情况，可能和非编码RNA有关）等。

7.精准医学的重大意义是什么？实现精准医学的重要基础是什么？精准医学的重大意义；精准医学有可能导致医疗体系本质上的转变，把目前的医疗体系由诊断治疗过渡到健康保障，使得健康体系的关口前移，有可能产生新兴产业。

健康人可以通过组学等一系列研究，对现在的健康作以评估。

在健康检查的基础上，对未来可能导致疾病的部分进行干预，使得能够延缓疾病的发生，或者排除某些疾病的发生，使得健康得以保障。

实现精准医学的重要基础：1.必须获取分子水平上的数据信息，并挖掘其内涵，在挖掘组学数据时，一定要使用大数据分析技术，因此是大数据与组学的交汇。

组学包括基因组，转录组，蛋白质组，代谢组；大数据包括人群和队列2.建立分子水平上的知识与宏观疾病表型的联系，即基因型和表型的关联，搭建分子水平信息和疾病间的桥梁，在搭建桥梁时，生物信息学，生物网络，系统生物学的知识是其核心知识。

e商务文档

2019版国科大生物信息学期末考试复习题

相关文档推荐：