当前位置:文档之家› 生物信息学复习提纲

生物信息学复习提纲

生物信息学(4/6)HGP,类基因组计划(Human Genome Project)遗传图谱(genetic map)又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。

物理图谱(physical map)是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。

转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。

生物信息学:采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科结构生物学是以生物大分子特定空间结构、结构的特定运动与生物学功能的关系为基础,来阐明生命现象及其应用的科学。

系统发生(phylogeny)——是指生物形成或进化的历史系统发生学(phylogenetics)——研究物种(遗传学特征)之间的进化关系,认为特征相似的物种在遗传学上接近.系统发生的结果常以系统发生树表示;系统发生树(phylogenetic tree)——表示形式,描述物种(遗传学特征: 形态, 基因序列, 蛋白质序列等等) 之间进化关系(系统发生树: 物种(遗传特征)之间的关系;进化树: 从低等到高等, 有始有终)EST:大量表达序列标签(Expressed Sequence Tag,EST)SSR:简单重复序列(SSR,simple sequenee Respts),也称作微卫星DNA (Mierosatellite DNA)是指一类由几个(多为1-6个)碱基组成的基元串联重复而成的DNA序列,在染色体上呈随机分布,由于重复次数不同及重复程度的不完全而造成了每个座位的多态性。

SNP:单核苷酸多态性PDB:蛋白质数据库(Protein Data Bank,PDB)▲生物信息学主要研究两种信息载体:DNA分子、蛋白质分子▲生物信息学研究的内容:课本上版本PPt简化版本1.生物信息的收集、储存、管理与提供2.基因组序列信息的提取和分析3.功能基因组分析4.生物分子设计5.药物设计6.生物信息分析的技术与方法研究7.应用于发展研究8.系统生物学研究1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构预测▲生物信息学之父:马来西亚的美籍学者林华安(Hwa A. Lim,林博士)▲生物信息学的热点领域:1.人类基因组计划2.人类蛋白质组计划3.新药开发中的应用 4.基因芯片5.生物信息学与医学▲生物分子信息的特征:生物分子信息数据量大、生物分子信息复杂、生物分子信息之间存在着密切的联系▲Linux系统的主要特征:开放性、多用户、多任务。

▲主要数据库有:基因组数据库(EMBL、GenBank、DDBJ)、蛋白质序列数据库(SWISS-PROT、PIR)、蛋白质结构数据库(PDB)▲目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能▲蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测是了解蛋白质功能的重要途径▲蛋白质结构预测分为:二级结构预测、空间结构预测▲复杂结构分析方法:X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法▲起始密码子:AUG 终止密码子:UAA AUG UGA (与启动子和终止子区别清楚,顺便UTR、ORF、顺式作用元件等基因上的名词也需要明白是什么东西)▲生物信息学研究的意义:1)认识生物本质。

了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系2)改变生物学的研究方式。

改变传统研究方式,引进现代信息学方法3)在医学上的重要意义。

为疾病的诊断和治疗提供依据;为设计新药提供依据▲基因组测序的基本策略有哪些?什么叫contig?逐个克隆法、全基因组鸟枪法、Contig(重叠群,基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长片段)▲什么事件大大促进了生物信息学的发展——人类基因组计划▲生物信息学中最重要的贡献是什么?Needleman和Wunsch提出了著名的序列比对算法,是生物信息学发展中最重要的贡献▲DNA序列分析可大体分为两类:(1)测序DNA序列分析;(2)特定DNA序列分析。

后者内容一般包括:DNA碱基组成、密码子偏向性、内部重复序列、酶切位点、编码区分析、二级结构预测等,但不局限于这些内容。

(可以回忆下大作业做的时候分析了哪些东西)▲一般地,单次测序的正确率在500bp左右▲PCR技术优点:特异、灵敏、产率高、快速、简便、重复性好、易自动化…▲引物设计原则:1.引物与模板的序列要紧密互补(近延长方向的必须互补)2.引物与引物之间避免形成稳定的二聚体或发夹结构3.引物不能在模板的非目的位点引发DNA聚合反应(即错配)(详细限制性条件见P31)▲电子克隆基本过程:1.将待分析核酸序列(或蛋白序列,称为种子序列)用blast软件搜索GenBank的EST数据库,选择与之具有较高一致性的EST序列(称匹配序列)。

2.将匹配序列与种子序列装配产生新生序列,此过程称为片断重叠群分析(Contig Analysis)。

(如果种子序列不是核酸,则不必拼装新序列)3.以新生序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。

4.对延伸产物进行ORF分析,确定cDNA的完整性。

▲ORF可靠性验证——Kozak规则:1)第4位的偏好碱基为G2)ATG的5’端约15bp范围内的侧翼序列内不含碱基T3)在第3、6、9位,G为偏好碱基4)除3、6、9位,在整个侧翼序列区中,C为偏好碱基(以上条件不需要全部满足,一般满足前两项即可)▲真核基因启动子在-25~-35区含有TATA序列,在-70~-80区含有CCAAT序列,在-80~-110区含有GCCACACCC或GGGCGGG序列。

▲蛋白质序列分析主要内容蛋白质序列分析蛋白质一级序列蛋白质基本理化性质分析蛋白质亲疏水性分析跨膜区结构预测卷曲螺旋预测翻译后修饰位点预测蛋白质二级结构蛋白质二级结构预测蛋白质序列信号位点分析蛋白质超二级结构蛋白质结构域分析蛋白质三级结构蛋白质三维结构模拟蛋白质分类 蛋白质家族分析▲不稳定系数>40则为稳定蛋白,否则为不稳定蛋白▲同源建模评价1.拉氏图:前三项(核心区+允许区+最大允许区)之和大于95%即可2. ERRA T: 计算0.35 nm范围之内,不同原子类型对之间形成的非键相互作用的数目(侧链)。

得分>85比较好。

▲结构生物学以生物大分子三级结构的确定作为手段,研究生物大分子的结构与功能关系,探讨生物大分子的作用机制和原理作为研究目的。

▲蛋白质结构预测方法:同源建模,折叠识别和从头计算▲同源建模基本原理:1、一个蛋白质的结构由其氨基酸序列唯一的决定。

由一级结构,在理论上,足以获取其二级、三级结构。

2、三级结构的保守型远远大于一级结构的保守型。

☆应用限制:模板蛋白和目标蛋白的序列一致性需要大于30%▲同源建模步骤:1、模板蛋白搜索PDB数据库、BLAST(或PSI-BLAST) 、获取模板(一个或多个)2、比对结果的校正3、主链生成4、环区建模5、模型优化6、合理性检测▲系统发生树构建基本原理:从一条序列变为另一条序列所需要的变换越多,两条序列的相关性就越小,从共同祖先分歧的时间越早,进化距离越大;反之,两个序列越相似,它们之间的进化距离可能越小.▲直系同源(orthologs): 同源的基因是由于共同的祖先基因进化而产生的,可能功能相同。

旁系同源(paralogs): 同源的基因是由于基因复制产生的,可能具有不同的功能。

这两个概念代表了两个不同的进化事件,而用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。

▲祖先类群(ancestral group):如果一个类群(物种)至少有一个子裔群,这个原始的类群就称为祖先类群单系类群(monophyletic group)包含一个祖先类群所有子裔的群组称为单系类群,其成员间存在共同祖先关系并系类群(paraphyletic group)和复系类群(polyphyletic group):不满足单系类群要求,各成员间又具有共同祖先特征的群组称为并系类群;各成员不具有共同衍生特征也不具有共同祖先特征,只具有同型特征的分类群组称为复系类群内类群(ingroup):一项研究所涉及的某一特定类群可称为内类群外类群(outgroup):不包含在内类群中又与之有一定关系的类群,为了比较内类群中各成员的特征差异.姊妹群(sister group):与某一类群在谱系关系上最为密切的类群称为姊妹群,是单系类群的一种常见类型▲常用系统进化树构建方法NJ 邻接法(neighbour joining)——平均距离大于1.0则不适用NJ法MP 最大简约法(maximal parsimony)ML 最大似然法(maximal likelihood)BI贝叶斯法▲对于一个完整的进化树分析首先需要对所分析的多序列目标进行排列▲Ka,Ks的作用和意义(不知道考不考,了解下,估摸着不会那么难)Ks = 同义突变SNP数/同义位点数 Ka = 非同义突变SNP数/非同义位点数Ka>>Ks或者Ka/Ks >> 1,基因受正选择(positive selection)Ka=Ks或者Ka/Ks =1,基因中性进化(neutral evolution)Ka<<Ks或者Ka/Ks << 1,基因受纯化选择(purify selection)检测序列的功能性(funcional or pseudo)筛选正在快速进化的基因(rapid evolution)▲RNA功能:1.控制蛋白质的合成2.RNA转录后的加工与修饰3.生物催化及其他持家功能4.调控功能5.控制发育6.调控X染色体的活性7.参与端粒RNA的合成8.对细胞分泌的作用9.转运功能(P182)▲RNA二级结构的表示方法:圆形表示法、平面图表示法、山峰图表示法、点状图表示法▲RNA二级结构元件是由配对碱基或为配对碱基之间形成的具有双螺旋、凸环、内部环和发夹环等结构特征单元,是构成RNA高级结构的基本单位。

▲siRNA设计原则与步骤见P193(大题高概率)▲关于测序技术再回顾一下,原理需要了解下。

相关主题