生物信息学软件及使刘吉平liujiping@用概述生物秀-专心做生物!w w w .b b i o o .c o m生物信息学是一门新兴的交叉学生物信息学的概念:科,它将数学和计算机知识应用于生物学,以获取、加工、存储、分类、检索与分析生物大分子的信息,从而理解这些信息的生物学意义。
生物秀-专心做生物!w w w .b b i o o .c o m分析和处理实验数据和公共数据,生物信息学软件主要功能1.2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验3.实验数据的自动化管理4.寻找、预测新基因及其结构、功能5.蛋白质高级结构及功能预测(三维建模,目前研究的焦点和难点)生物秀-专心做生物!w w w .b b i o o .c o m功能1. 分析和处理实验数据和公共数据,加快研究进度,缩短科研时间Ø核酸:序列同源性比较,分子进化树构建,结构信息分析,包括基元(Motif)、酶切点、重复片断、碱基组成和分布、开放阅读框(ORF ),蛋白编码区(CDS )及外显子预测、RNA 二级结构预测、DNA 片段的拼接;Ø蛋白:序列同源性比较,结构信息分析(包括Motif ,限制酶切点,内部重复序列的查找,氨基酸残基组成及其亲水性及疏水性分析),等电点及二级结构预测等等;Ø本地序列与公共序列的联接,成果扩大。
生物秀-专心做生物!w w w .b b i o o .c o mAntheprot 5.0 Dot Plot 点阵图Dot plot 点阵图能够揭示多个局部相似性的复杂关系生物秀-专心做生物!w w w .b b i o o .c o mPeptool Lite---Dot Plot 点阵图生物秀-专心做生物!w w w .b b i o o .c o m生物秀-专心做生物!w w w .b b i o o .c o m生物秀-专心做生物!w w w .b b i o o .c o mRNAStructure 3.5 RNA 二结构预测生物秀-专心做生物!w w w .b b i o o .c o mOmiga 2.0 ORF Map生物秀-专心做生物!w w w .b b i o o .c o mDNAStar 之Protean 对氨基酸的亲疏水性分析:helical wheel 图不同颜色代表不同的AA生物秀-专心做生物!w w w .b b i o o .c o m功能2. 提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验1.用软件设计PCR 引物,测序引物或杂交探针;2.设计克隆策略,构建载体;3.做模拟电泳实验,即模拟核酸内切酶或内肽酶对相应的底物分子切割后的电泳行为;4.蛋白跨膜区域分析,信号肽潜在断裂生物秀-专心做生物!w w w .b b i o o .c o mWinplas 2.6 质粒构建生物秀-专心做生物!w w w .b b i o o .c o mAtheprot 5.0 预测蛋白跨膜区域生物秀-专心做生物!w w w .b b i o o .c o mAntheprot 5.0 预测信号肽断裂点生物秀-专心做生物!w w w .b b i o o .c o m功能3. 用计算机管理实验室数据及文献资料1.实验室结果的储存、管理和申报工作;2.从网络数据库获得的序列文件(由ENTREZ 集成检索系统所得的数据文件可以进入EndNote 或者Reference Manager 储存管理)或资料文献的管理;3.软件: EndNote ,Reference Manager 。
生物秀-专心做生物!w w w .b b i o o .c o mReference Manager 9 界面生物秀-专心做生物!w w w .b b i o o .c o m功能4. 用计算机预测新基因及其结构和功能•对CDS (Coding Sequence )蛋白编码区的预测准确率已达到90%以上•对整个基因结构的预测存在一定难度vPWM (位置权重矩阵)算法由物化原理技术开发,侧重于找基因表达系统和核酸相互作用的位点。
给信号序列各个位置每种可能出现的核苷酸分配一个分数,将各位置分数相加后得出该序列作为潜在作用位点的分数。
生物秀-专心做生物!w w w .b b i o o .c o mDNASIS 2.5 对蛋白编码区的预测A. (Codon Bias)生物秀-专心做生物!w w w .b b i o o .c o mDNASIS2.5 对蛋白编码区的预测 B. (Rare Codon)生物秀-专心做生物!w w w .b b i o o .c o mDNASIS 2.5 对蛋白编码区的预测 C. (ORF List)生物秀-专心做生物!w w w .b b i o o .c o mDNASTAR 之GeneQuest 预测CDS生物秀-专心做生物!w w w .b b i o o .c o m功能5.蛋白质高级结构预测•该项技术算法十分复杂,尚未成熟。
PDB 及MMDB 数据库目前仍然禁止收录软件预测出来的蛋白高级结构模型。
•X 射线晶体学技术和多维核磁共振技术是当前人们认识蛋白高级结构的主要手段,但两种技术都有不足之处。
前者要求必需得到高标准的蛋白晶体,后者对分子量大于3万的大蛋白不能测定。
因此理论模拟和结构预测显得十分重要。
•序列与结构关系的根源在于“蛋白质折叠的问题”,这是近期研究关注的焦点。
生物秀-专心做生物!w w w .b b i o o .c o mDNASIS 2.5 蛋白二级结构预测生物秀-专心做生物!w w w .b b i o o .c o m目前应用的蛋白质结构预测的算法1.同源预测(一级结构决定高级结构)2.结构与结构相对比(DALI 算法)3.当前最先进的结构预测方法:结构类识别(fold recognition )先建立一个已知的结构类数据库(fold library),将待测序列“穿过”该数据库构成的坐标,并根据事先确定的物理限制,逐个位置移动(threading ,sequence-structure alignment) ,由一个函数(sequence-structure fitness alignment) 判断序列与结构类的符合程度,找出未知序列在目标结构上的能量最优和构象最稳固的比对位置。
对计算机要求很高。
生物秀-专心做生物!w w w .b b i o o .c o mCn3D 2.5 显示1EQF A 链三维结构生物秀-专心做生物!w w w .b b i o o .c o mRasMol 2.7 显示1EQF A 链三维结构生物秀-专心做生物!w w w .b b i o o .c o mPCR 二.常见的部分生物学软件功能介绍Ø引物设计ØDNA 、蛋白质序列同源分析及进化树构建ØContig Express----DNA 序列片断拼接ØDNA 模拟电泳Ø重要生物数据库简介生物秀-专心做生物!w w w .b b i o o .c o mPCR 引物设计引物设计的则原1.引物要跟模板紧密结合;2.引物与引物之间不能有稳定的二聚体或发夹结构存在;3.引物不能在别的非目的位点引起高效DNA 聚合反应(即错配)。
生物秀-专心做生物!w w w .b b i o o .c o m如:•引物长度(primer length ),•产物长度(product length ),•序列Tm 值(melting temperature),•ΔG 值(internal stability),•引物二聚体及发夹结构(duplex formation and hairpin ),•错误引发位点(false priming site ),•引物及产物GC 含量(composition ),有时还要对引物进行修饰,如增加限制酶切点,引进突变等。
引物设计需要考虑的因素生物秀-专心做生物!w w w .b b i o o .c o m引物设计要点•一般引物的长度为16-23bp ,常用的长度为18-21bp ,过长或过短都不合适。
•引物3’端的碱基一般不用A ,因为A 在错误引发位点的引发效率相对比较高,而其它三种碱基的错误引发效率相对小一些。
•引物的GC 含量一般为45-55%,过高或过低都不利于引发反应。
上下游引物的GC 含量不能相差太大。
•引物所对应模板序列的Tm 值最好在72℃左右,当然由于模板序列本身的组成决定其Tm 值可能偏低或偏高,可根据具体情况灵活运用。
生物秀-专心做生物!w w w .b b i o o .c o m引物设计要点•ΔG 值反映了引物与模板结合的强弱程度,也是一个重要的引物评价指标。
•一般情况下,在Oligo 5.0软件的ΔG 值窗口中,引物的ΔG 值最好呈正弦曲线形状,即5’端和中间部分ΔG 值较高,而3’端ΔG 值相对较低,且不要超过9(ΔG 值为负值,这里取绝对值),如此则有利于正确引发反应而可防止错误引发。
•其原理,引物与模板应具有较高的结合能量,这样有利于引物与模板序列的整合,因此5’端与中间段的ΔG 值应较高,而3’端ΔG 值影响DNA 聚合酶对模板DNA 的解链,过高则不利于这一步骤。
生物秀-专心做生物!w w w .b b i o o .c o m引物设计要点•可能的错误引发位点决定于引物序列组成与模板序列组成的相似性,相似性高则错误引发率高,错误引发的引发率一般不要高过100,最好没有错误引发位点,如此可以保证不出非目的产物的假带。
•引物二聚体及发夹结构的能量一般不要超过4.5,否则容易产生引物二聚体带,且会降低引物浓度从而导致PCR 正常反应不能进行。
•对引物的修饰一般是增加酶切位点,应参考载体的限制酶识别序列确定,常常对上下游引物修饰的序列选用不同限制酶的识别序列,以有利于以后的工作。
生物秀-专心做生物!w w w .b b i o o .c o m关于引物的自动搜索和评价分析•推荐使用自动搜索软件:Primer Premier 5.0 •推荐使用引物评价软件:Oligo 5/6生物秀-专心做生物!w w w .b b i o o .c o mOLIGO 5.0 PCR 引物设计生物秀-专心做生物!w w w .b b i o o .c o mDNA 、蛋白质序列同源分析及进化树构建生物秀-专心做生物!w w w .b b i o o .c o m相似相同源性性与同源性•似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。