第一章1.生物信息学:用数学的、统计的、计算的方法来解决生物问题,这基于用DNA、氨基酸及相关信息。
即生物+信息学,其中生物是指从基因型到表型:DNA/基因组→RNA→蛋白质→分子网络→细胞→生理学/疾病。
信息学是指从数据到发现:数据管理→数据计算→数据挖掘→模型/模拟2.人类基因组计划:①前基因组时代(1990年前):通过序列之间的对比,寻找序列变化,确定序列功能。
②基因组时代(1990年后~2001年)迅猛发展:标志性的工作包括基因寻找和识别,数据库系统的建立。
③后基因组时代(2001年至今)功能基因组研究:研究内容发展到基因和基因组的功能分析,即功能基因组,学研究。
从传统的还原论研究生命过程转到了整体论思想。
2001年,中美日德法英6国科学家耗费十年,联合公布人类基因组草图3.基因芯片:又称DNA芯片,由大量DNA或寡聚核苷酸探针密集排列形成的探针阵列。
原理:杂交测序方法,在一定条件下,载体上的核酸分子可以与来自样品的序列互补的核酸片段杂交,如果把样品中的核酸片段进行标记,在专用的芯片阅读仪上就可以检测到杂交信号。
药物处理细胞总mRNA用Cy5标记,未处理的细胞总mRNA用Cy3标记,颜色?将两者杂交形成固相探针,包含cDNA和寡核苷酸,最后进行结果观察和信息分析。
、EMBL、DDBJ5.数据挖掘:①理解数据和数据的来源②获取相关知识与技术③整合与检查数据④去除错误或不一致的数据⑤建立模型和假设⑥实际数据挖掘工作⑦测试和验证挖掘结果⑧解释和应用。
数据挖掘中的常见算法思想:判断、聚类、关联。
数据挖掘模型:①监督模型、预测模型②无监督模型:聚类分析和关联分析②数据降维:主成分分析和因子分析。
第二章:1.Sanger法:①1977年,提出了“双脱氧核苷酸末端终止测序方法”②技术基础:PCR扩增;双脱氧核苷酸的扩增终止;电泳分离扩增片段③优点1.读取片段长2.准确率高99.9% 缺点:1.测序通量低2.成本高、流程多④方法、原理:每个反应含有所以四种dNTP使之扩增,并混入限量的一种不同的ddNTP使之终止,由于ddNTP缺乏延伸所需要的3’-OH基团,使延长的寡聚核苷酸选择性地在G,A,T或 C 处终止,终止点由反应中相应的双脱氧而定,每一种dNTPs和ddNTPs的相对浓度可以调整,使反应得到一组长几百至几千碱基的链终止产物。
它们具有共同的起始点,但终止在不同的核苷酸上,可通过高分辨率变性凝胶电泳分离大小不同的片段,凝胶处理后可以X-光胶片放射性自显影或非同位素标记进行检测2. 第2代测序技术(2005)①特点:1.PCR反应空间限定在特定的微小载体中。
降低成本,实现高通量2.边合成边测序以及平行测序②第一代测序就出现了自动化测序③Solexa步骤:(1)制备模板,单链片断固定到载片表面(2)DNA簇群生成(3)循环合成反应+荧光成像④技术基础:基于芯片或其他载体、3’受保护的荧光标记碱基、PCR ⑤优点:高通量、没有电泳的步骤,成本降低缺点:读取片段长度短、准确率下降3.Read contig Scaffold ①Read:测序读到的碱基序列片段,测序的最小单位②contig:由reads通过对overlap区域拼接组装成的没有gap的序列段③Scaffold:通过pair ends信息确定出的contig排列,中间有gap4.测序的应用:①遗传多样性分析②甲基化分析③研究与蛋白质结合的DNA序列特征④转录组测序5. 转录组测序(RNA Seq):①定义:把mRNA, non-codingRNA(ncRNA) 和smallRNA全部或者其中一些用高通量测序技术进行测序分析的技术②ncRNA主要包括有:tRNA、rRNA、snRNA、核仁小分子RNA(snoRNA)、细胞质小分子RNA(scRNA)、不均一核RNA(hnRNA)、小RNA(microRNA, miRNA) ③方法:获得cell总RNA,然后根据实验需要,对RNA样品进行处理,处理好的RNA再进行片段化,然后反转录形成cRNA,获得cDNA文库,然后在cDNA片段接上接头,最后用新一代高通量测序进行测序④作用:(1)通过RNA-seq来分析基因表达量(2)通过RNA-seq分析基因表达网络和编码基因的变异(3)通过RNA-seq分析可变剪切(4)通过RNA-seq分析小RNA第三章1.Fasta格式:DNA或Protein序列的最简单展示方式。
大于号(>)表示一个新文件的开始,起着分隔符作用2.GBFF格式:Genebank数据库的基本信息单位,是最广泛使用的生物信息序列格式之一。
特征1.每个条目都是一份纯文本文件。
每行左端为:空格或识别字,识别字均为完整英文字,不用缩写2.主体内容可以分成3个部分:①描述信息:从LOCUS开始②注释信息:从FEATURES开始③序列信息:从ORIGIN开始3.所有的核苷酸数据库记录(EMBL/GenBank/DDBJ)都是在最后一行以//结尾1.LOCUS:位点名/位置名,有8个字符,通常前面的字母代表特定物种名称2.DEFINITION:说明。
包括来源物种、基因/蛋白质名称、序列的完整性3.ACCESSION:检索号4.VERSION:版本号。
格式:检索号.版本号。
其后的GI号,一条核酸序列对应一个gi号,序列变化,gi号变化,但检索号不变5.KEYWORDS, SOURCE(序列来源的简称)和ORGANISM(序列来源的物种名称和分类学位置)6.Rerfence:与数据相关的参考文献收录在内7.Feature:特性表。
描述基因或基因的产物以及与序列相关的生物学特性8.Origin:序列信息的起始位置3.PubMed文献检索:Entrez系统中的数据库之一。
检索工具:特定文献检索、临床查询、专题查询第四章1.序列比对:①定义:序列比对是寻找两条或多条序列(核酸或蛋白质)之间所有位置上的所有匹配方式,然后筛选出最佳匹配②分类:(1)全局比对vs局部比对(决定于有最大相似度的最长子序列) (2)两两比对(待测序列与DNA或蛋白质序列库进行比较,找出与此序列相似的已知序列)vs 多重比对(将待测序列加入到一组与之同源,但来自不同物种的序列进行多序列同时比较,以确定该序列与其他序列的同源性大小)③作用:(1)未知序列与已知序列进行比对,预测其结构和功能(2) 已知序列与另一种的已知序列之间进行比对,预测两者的进化关系(3)从方法论上来讲,结构分析,功能分析和相关分析是生物研究中最基本的研究目的2.可接受的点突变:若两个不同aa背后的DNA水平上的点突变在进化过程中频繁发生,并能被进化接受。
通常认为这两个氨基酸是同源或相似的。
3.蛋白质的打分矩阵:①PAM 相同残基之间的相似性分数越高,该aa比较保守,不易突变;不同残基之间的相似性分数越高,它们的相似性越高,容易互变(PAM-1指表示100个残基中发生了1个残基突变) ②blousm(BLOcks SUbstitution Matrix)对亲缘关系较远的蛋白序列比较,不考虑差异巨大的序列。
只以相对保守的block为单位进行比对打分。
③区别(1)用于产生矩阵的蛋白质数目不同,BLOSUM比PAM大约多20倍(2)PAM:家族内的蛋白成员的序列比较;BLOSUM:首先寻找一段保守氨基酸片断,然后以保守氨基酸模式之间的进行序列比较,适用于远缘序列对比(3)PAM-n中,n 越小,表示氨基酸变异的可能性越大;BLOSUM-n中,n越小,表示氨基酸相似的可能性越小。
4.blast支持的格式:fasta、bare seq、indentifiers第五、六、七章1.Accepted Input Formats(可支持的格式):FASTA,Bare seq,Identifiers2.为什么要做序列比对?(序列比对原因):①未知序列与已知序列进行比对,预测其结构和功能。
②已知序列与另一种的已知序列之间进行比对,预测两者的进化关系。
③从方法论上来讲,结构分析,功能分析和相关分析是生物研究中最基本的研究目的。
3. NCBI中Basic BLAST工具有那些?:nucleotide blast、protein blast、blastx、tblastn、tblasts。
4.序列比对(两两比对)的算法思想:①输入两条序列②输出:打分最高的,即最佳路线(线路优化)5.如何使得S1和S2的比对得分最高:首先寻找两条条序列之间所有可能的匹配方式,逐一打分,然后筛选出最高分,即为最佳比对。
6.动态规划:一个大问题可以分成若干个子问题,寻找每个子问题的最优解,就是最优解。
7.动态规划矩阵(用矩阵来描述序列比对的动态过程):每个元素指长度为i与长度为j的两序列的最佳比对得分F(i,j)。
8. Needleman-Wunsch算法:全局比对(1970):9.局部比对的重要性:不同物种间的蛋白质序列具有大量的局部保守区域,RNA剪接后产生的转录本与原基因序列是局部匹配10. Smith-Waterman算法:局部比对(1981):①在初始化阶段,第一行和第一列全填充为0②在填充表格时,如果某个得分为负,那么就用0 代替③在回溯的时候,从得分最高的单元格开始,回溯到得分为0 的单元格为止。
11.BLAST/FASTA算法:启发式比对算法:以牺牲灵敏度为代价,提升计算速度;与Smith-Waterman 算法不同,不能保证找到最佳匹配。
12.FASTA算法:候选区域中的局部比对:①在矩阵中确定最佳路径可能经过的的区域,基于点阵图用对角线显示两条序列的局部公共片段。
②延长热点区域,形成更长的比对区域。
③给各自的比对区域赋值,获得得分更高的更长比对,确定候选区域。
④在候选区域中,采用smith-waterman 算法精确计算最佳比对。
由于候选区域所包含的元素数远小于整个矩阵的元素,因此带来计算速度的极大提升。
13. BLAST算法步骤:①种子序列的寻找:Seeding把长度为n的查询序列划分为不同的种子序列word,最后得到n-w+1个字串.(种子越短,灵敏度越高,计算速度越慢)②种子序列的定位:Seeding Mapping:用这些word来寻找超过某阀值的“近似匹配片段"③种子序列的延伸:Seeding Extending(利用打分矩阵沿左右两个方向延伸hit cluster直到打分低于一个临界值,得到的结果称为高分片段对)。
14.多序列比对(MSA):目的:寻找基因家族中不同序列间的共同特征,能够找到最多共同特征的比对为最优多序列比对。
15.多序列比对的算法复杂度:时间复杂度O(cmn),若m=n, 时间复杂度近似为O (n2),时间复杂度显指数增长。