当前位置：文档之家› 生物信息学复习资料

生物信息学复习资料

第一章1.生物信息学：用数学的、统计的、计算的方法来解决生物问题，这基于用DNA、氨基酸及相关信息。

即生物+信息学，其中生物是指从基因型到表型：DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。

信息学是指从数据到发现：数据管理→数据计算→数据挖掘→模型/模拟2.人类基因组计划：①前基因组时代(1990年前)：通过序列之间的对比，寻找序列变化，确定序列功能。

②基因组时代(1990年后～2001年)迅猛发展：标志性的工作包括基因寻找和识别，数据库系统的建立。

③后基因组时代(2001年至今)功能基因组研究：研究内容发展到基因和基因组的功能分析，即功能基因组，学研究。

从传统的还原论研究生命过程转到了整体论思想。

2001年,中美日德法英6国科学家耗费十年，联合公布人类基因组草图3.基因芯片：又称DNA芯片，由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。

原理：杂交测序方法，在一定条件下，载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交，如果把样品中的核酸片段进行标记，在专用的芯片阅读仪上就可以检测到杂交信号。

药物处理细胞总mRNA用Cy5标记，未处理的细胞总mRNA用Cy3标记，颜色？将两者杂交形成固相探针，包含cDNA和寡核苷酸，最后进行结果观察和信息分析。

、EMBL、DDBJ5.数据挖掘：①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。

数据挖掘中的常见算法思想：判断、聚类、关联。

数据挖掘模型：①监督模型、预测模型②无监督模型：聚类分析和关联分析②数据降维：主成分分析和因子分析。

第二章：1.Sanger法：①1977年，提出了“双脱氧核苷酸末端终止测序方法”②技术基础：PCR扩增；双脱氧核苷酸的扩增终止；电泳分离扩增片段③优点1.读取片段长2.准确率高99.9% 缺点：1.测序通量低2.成本高、流程多④方法、原理：每个反应含有所以四种dNTP使之扩增，并混入限量的一种不同的ddNTP使之终止，由于ddNTP缺乏延伸所需要的3’-OH基团，使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止，终止点由反应中相应的双脱氧而定，每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。

它们具有共同的起始点，但终止在不同的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测2. 第2代测序技术（2005）①特点：1.PCR反应空间限定在特定的微小载体中。

降低成本，实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤：(1)制备模板，单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础：基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点：高通量、没有电泳的步骤，成本降低缺点：读取片段长度短、准确率下降3．Read contig Scaffold ①Read:测序读到的碱基序列片段，测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold：通过pair ends信息确定出的contig排列，中间有gap4.测序的应用：①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序5. 转录组测序（RNA Seq）:①定义：把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有：tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法：获得cell总RNA，然后根据实验需要，对RNA样品进行处理，处理好的RNA再进行片段化，然后反转录形成cRNA，获得cDNA文库，然后在cDNA片段接上接头，最后用新一代高通量测序进行测序④作用：(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网络和编码基因的变异(3)通过RNA-seq分析可变剪切(4)通过RNA-seq分析小RNA第三章1.Fasta格式：DNA或Protein序列的最简单展示方式。

大于号(>)表示一个新文件的开始，起着分隔符作用2.GBFF格式：Genebank数据库的基本信息单位，是最广泛使用的生物信息序列格式之一。

特征1.每个条目都是一份纯文本文件。

每行左端为：空格或识别字，识别字均为完整英文字，不用缩写2.主体内容可以分成3个部分：①描述信息：从LOCUS开始②注释信息：从FEATURES开始③序列信息：从ORIGIN开始3.所有的核苷酸数据库记录（EMBL/GenBank/DDBJ)都是在最后一行以//结尾1.LOCUS：位点名/位置名，有8个字符，通常前面的字母代表特定物种名称2.DEFINITION：说明。

包括来源物种、基因/蛋白质名称、序列的完整性3.ACCESSION：检索号4.VERSION：版本号。

格式：检索号.版本号。

其后的GI号，一条核酸序列对应一个gi号，序列变化，gi号变化，但检索号不变5.KEYWORDS, SOURCE(序列来源的简称)和ORGANISM(序列来源的物种名称和分类学位置)6.Rerfence：与数据相关的参考文献收录在内7.Feature：特性表。

描述基因或基因的产物以及与序列相关的生物学特性8.Origin：序列信息的起始位置3.PubMed文献检索：Entrez系统中的数据库之一。

检索工具：特定文献检索、临床查询、专题查询第四章1.序列比对：①定义：序列比对是寻找两条或多条序列(核酸或蛋白质)之间所有位置上的所有匹配方式，然后筛选出最佳匹配②分类：(1)全局比对vs局部比对(决定于有最大相似度的最长子序列) (2)两两比对（待测序列与DNA或蛋白质序列库进行比较，找出与此序列相似的已知序列）vs 多重比对（将待测序列加入到一组与之同源，但来自不同物种的序列进行多序列同时比较，以确定该序列与其他序列的同源性大小）③作用：(1)未知序列与已知序列进行比对，预测其结构和功能(2) 已知序列与另一种的已知序列之间进行比对，预测两者的进化关系(3)从方法论上来讲，结构分析，功能分析和相关分析是生物研究中最基本的研究目的2.可接受的点突变：若两个不同aa背后的DNA水平上的点突变在进化过程中频繁发生，并能被进化接受。

通常认为这两个氨基酸是同源或相似的。

3.蛋白质的打分矩阵：①PAM 相同残基之间的相似性分数越高，该aa比较保守，不易突变；不同残基之间的相似性分数越高，它们的相似性越高，容易互变(PAM-1指表示100个残基中发生了1个残基突变) ②blousm(BLOcks SUbstitution Matrix)对亲缘关系较远的蛋白序列比较，不考虑差异巨大的序列。

只以相对保守的block为单位进行比对打分。

③区别(1)用于产生矩阵的蛋白质数目不同，BLOSUM比PAM大约多20倍(2)PAM：家族内的蛋白成员的序列比较;BLOSUM：首先寻找一段保守氨基酸片断，然后以保守氨基酸模式之间的进行序列比较，适用于远缘序列对比(3)PAM-n中，n 越小，表示氨基酸变异的可能性越大；BLOSUM-n中，n越小，表示氨基酸相似的可能性越小。

4.blast支持的格式：fasta、bare seq、indentifiers第五、六、七章1.Accepted Input Formats（可支持的格式）：FASTA，Bare seq，Identifiers2.为什么要做序列比对？（序列比对原因）：①未知序列与已知序列进行比对，预测其结构和功能。

②已知序列与另一种的已知序列之间进行比对，预测两者的进化关系。

③从方法论上来讲，结构分析，功能分析和相关分析是生物研究中最基本的研究目的。

3. NCBI中Basic BLAST工具有那些？：nucleotide blast、protein blast、blastx、tblastn、tblasts。

4.序列比对(两两比对)的算法思想：①输入两条序列②输出：打分最高的，即最佳路线（线路优化）5.如何使得S1和S2的比对得分最高：首先寻找两条条序列之间所有可能的匹配方式，逐一打分，然后筛选出最高分，即为最佳比对。

6.动态规划：一个大问题可以分成若干个子问题，寻找每个子问题的最优解，就是最优解。

7.动态规划矩阵（用矩阵来描述序列比对的动态过程）：每个元素指长度为i与长度为j的两序列的最佳比对得分F(i,j)。

8. Needleman-Wunsch算法:全局比对(1970)：9.局部比对的重要性：不同物种间的蛋白质序列具有大量的局部保守区域，RNA剪接后产生的转录本与原基因序列是局部匹配10. Smith-Waterman算法:局部比对(1981)：①在初始化阶段，第一行和第一列全填充为0②在填充表格时，如果某个得分为负，那么就用0 代替③在回溯的时候，从得分最高的单元格开始，回溯到得分为0 的单元格为止。

11.BLAST/FASTA算法:启发式比对算法：以牺牲灵敏度为代价，提升计算速度；与Smith-Waterman 算法不同，不能保证找到最佳匹配。

12.FASTA算法:候选区域中的局部比对：①在矩阵中确定最佳路径可能经过的的区域，基于点阵图用对角线显示两条序列的局部公共片段。

②延长热点区域，形成更长的比对区域。

③给各自的比对区域赋值，获得得分更高的更长比对，确定候选区域。

④在候选区域中，采用smith-waterman 算法精确计算最佳比对。

由于候选区域所包含的元素数远小于整个矩阵的元素，因此带来计算速度的极大提升。

13. BLAST算法步骤：①种子序列的寻找：Seeding把长度为n的查询序列划分为不同的种子序列word，最后得到n-w+1个字串.（种子越短，灵敏度越高，计算速度越慢）②种子序列的定位：Seeding Mapping：用这些word来寻找超过某阀值的“近似匹配片段"③种子序列的延伸：Seeding Extending（利用打分矩阵沿左右两个方向延伸hit cluster直到打分低于一个临界值，得到的结果称为高分片段对）。

14.多序列比对（MSA)：目的：寻找基因家族中不同序列间的共同特征，能够找到最多共同特征的比对为最优多序列比对。

15.多序列比对的算法复杂度：时间复杂度O(cmn),若m=n, 时间复杂度近似为O (n2)，时间复杂度显指数增长。

e商务文档

生物信息学复习资料

相关文档推荐：