当前位置:文档之家› 生物信息学

生物信息学

第一章生物信息学:是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等相互渗透而形成的交叉学科。

是应用计算机技术和信息论方法采集、储存、传递、检索、分析和解读蛋白质及核酸序列等各种生物信息,以帮助了解生物学和遗传学信息的科学.基因组信息学是生物信息学的核心。

生物信息学研究的目标:通过认识生命的起源,进化,遗传,和发育的本质,破译隐藏在DNA序列中的遗传语言,并揭示基因组信息结构的复杂性及遗传语言的根本规律,以及人体生理和病理过程的分子基础,为人类疾病的诊断,预防和治疗提供最合理且有效的方法和途径‘生物信息学研究内容:1 生物信息的收集,储存,管理和提供2 基因组序列信息的提取和分析3 生物信息分析技术和方法的研究开发分析工具和实用软件4 功能基因组相关信息分析5 生物大分子结构模拟和药物模拟第二章表达序列标签(EST):是随机选取的cDNA克隆的部分序列,即一个EST就是对应于某一种mRNA的一个cDNA克隆的一段序列。

一般长度为300-500bp,经一定方法定位后转变为STS。

EST可用于全长基因的克隆、基因定位、基因表达、基因结构等的分析。

测序标签位点(STS):一段长度约200-300bp的特定的DNA序列,每个STS序列位点对于基因组中一个单独的位置。

来源于EST序列和随机序列等。

是由PCR方法确定的单拷贝序列。

作图时,相当于一个路标。

蛋白质工程(protein engineering):运用蛋白质结构的详细信息、重组DNA技术,对蛋白质分子进行重新设计,从而定向的改造蛋白质的性质,使其具有人们希望的优良性质,甚至创造不存在的蛋白质。

主要目的是通过改造编码蛋白质基因中的DNA顺序,或设计合成新的基因,经过宿主细胞的表达获得被改造了的新的蛋白质。

蛋白质组(proteome):对应于基因组的概念,指有一个细胞或一个组织的基因所表达的全部相应的蛋白质。

蛋白质组是一个动态的概念:1、和基因不一样,不同组织和不同发育时期都不一样。

2、基因在转录后,还有一系列修饰,翻译等过程都可以影响蛋白质的表达。

因此通过对蛋白质组的研究,在此基础上更能阐明遗传、发育、进化、功能调控等基本生物学问题与人类健康和疾病相关的生物医学问题。

基因克隆(cloning):采用重组DNA技术,将不同来源的DNA分子在体外进行特异切割,重新连接,组装成一个新的杂合DNA分子。

在此基础上,这个杂合分子能够在一定的宿主细胞中进行扩增,形成大量的子代分子,此过程叫基因克隆。

基因组学(genomics):从事基因组的序列测定和表征描述,以及基因活性与细胞功能关系的研究。

单核苷酸多态性(SNP):在DNA的某一个位点处的核苷酸,有一部分人是A,另一部分是T,其他为G或C,如果各种情况的比例均大于1%,则称该位点处的单核苷酸是多态性的。

第三章A生物学数据库:一级数据库:1、核酸序列数据库:GenBank、EMBL、DDBJ2、蛋白质序列数据库:SWISS-PROT、PIR3、蛋白质结构数据库:PDB二级数据库:(略)蛋白质序列数据库Swiss-prot(欧洲):最大的蛋白质序列数据库TrEMBL(欧洲): 未挑选的蛋白质数据库PIR(美国):最早的数据库UniProt(欧洲):蛋白质数据仓库蛋白质结构与分类数据库PDB(Protein Data Bank):最主要的蛋白质结构数据库SCOP(Structural Classification of Proteins)CA TH(class, architecture, topology, homology)EMBL(European Molecular Biology Laboratory),欧洲分子生物学实验室核苷酸数据库):由欧洲生物信息研究所(EBI)维护由于与Genbank和DDBJ的数据合作交换,它也是一个全面的核酸序列数据库。

DDBJ(DNA Data Bank of Japan):由日本国立遗传研究所维护和管理。

是日本唯一的DNA 数据库,负责收集研究者的DNA数据库,负责收集研究者的DNA序列信息并向数据呈报者提供国际上承认的登记号。

GenBank:由美国国立卫生研究院下属的国立的生物技术信息中心(NCBI)维护作为国家国立卫生研究院下属的国立医学图书馆的一个部门,创建于1988年11月4日,是美国国家分子生物学信息资源中心,也是全球最有影响的生物学网站之一。

B 数据库格式数据一般由两部分组成:文本注释和序列主体1、文件格式:FAST A2、数据库flat file 格式FAST A是一种表示序列数据的平面文件格式,是比较简单而使用最多的序列格式。

主要由两部分组成:第一行由“>”开头的序列说明文字(注释行),指明序列的名称与来源等信息;第二行开始是序列本身,采用标准的核苷酸符号或标准的单字符氨基酸符号。

(每行60-80个字符),序列结尾处用“*”终止,也可缺省。

EMBL,GenBank和DDBJ数据库的主要内容和格式1 描述符:序列名称、长度、日期序列说明、编号、版本号物种来源、学名、分类学位置相关文献作者、题目、刊物、日期2 特征表3 碱基组成序列,每行60个碱基flat file数据库格式(GBFF)第一部分:描述符;第二部分:特性表;第三部分:核苷酸序列本身。

Page71表3.1C数据库的信息检索:Entrez系统和SRS检索工具Entrez 用于对GenBank, EMBL, DDBJ, PIR, Swiss-Prot and PDB数据库中的核酸和蛋白的序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和PubMed MEDLINE的访问。

【NCBI】SRS检索系统【EBI】【CIB】ExPASy 用于获取蛋白质及其相关数据【SIB】(Swiss-prot)Entrez是NCBI开发的生命科学搜索引擎,也是NCBI所有数据库的核心查询系统,管理NCBI的核酸序列数据库(Necleotide)、蛋白质序列数据库(Protein)、生物医药文献数据库(PubMed)、大分子三维结构数据库(Structure)等大型生物信息数据库。

Entrez提供了对上述各个数据库的全面检索功能,同时也提供序列和染色体图谱的视图,还具有检索参考文献的功能,有的甚至包含了出版商网络资源的文献全文的链接。

SRS:是欧洲分子生物学网EMBnet的主要数据库检索工具,已经成为欧洲各国主要生物信息中心必备的数据库查询系统。

是一个开放的数据库查询系统。

SRS系统的三种查询方式:快速查询、标准查询和扩展查询D分子生物学数据库的应用:数据库查询(database query)和数据库搜索(database search)数据库查询:指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。

数据库检索:它和互联网上通过搜索引擎(Search engine)查找需要的信息是一个概念。

是数据库查询的一种。

数据库搜索:在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。

第四章序列比对(Alignment):指用某种特定的数学模型或算法,找出两个或多个序列之间的最大匹配碱基或残基,尽可能客观地反映它们之间的相似或相异,从而进一步判断它们之间是否具有同源性。

相似性(similarity或analogy):是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。

是序列间相似性的量度。

同源性(homology):两条序列有一个共同的进化祖先,那么它们是同源的。

比对的意义1进化方面:序列比对的理论基础是进化学说:生物信息学形成早期的主要研究内容就是序列比对,利用序列比对来研究生物大分子的进化。

核酸序列,蛋白质序列会发生突变。

而现代的生物学认为正是这种生物大分子序列的不断变化,形成了生物进化的分子基础。

而我们并不知道这些分子序列是如何演变至今的,所以,我们利用序列比对来寻找序列的相似性,根据相似性来推导演化的过程。

2 序列拼接方面:基因组测序一般要将若干个拷贝的长核苷酸序列打断成有重叠区域的许多小片段。

再用测序仪对小片段测序。

然后利用比对算法找到这些小片段的重叠区域,将它们连接起来还原。

3 数据库搜索方面:当获得一段DNA序列或氨基酸序列,发现对它一无所知,可以在核苷酸序列数据库中搜索关于这一序列的信息。

其中的主要方法就是用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。

4 其他:寻找序列中的特定位点,进行蛋白质结构预测等等。

序列比对分两大类:全局比对:比较两条完整的序列,从全局出发,考虑序列的完整相似性。

即序列全长进行比对,寻找一个最佳的配对.局部比对:子序列比对,考虑序列部分区域的相似性。

1、核酸的得分矩阵:a. 等价矩阵b. BLAST矩阵c. 转换颠换矩阵2、蛋白质打分矩阵:(i)等价矩阵(ii)遗传密码矩阵GCM (iii)疏水矩阵(iv)PAM矩阵(1、全局比对;2、PAM越大,亲缘关系越远)(v)BLOSUM矩阵(1、局部比对;2,BLOSUM越大,亲缘关系越近)PAM矩阵:基于进化的点突变模型,通过统计相似序列比对中的各种氨基酸替换发生率而得到该矩阵。

BLOUSUM矩阵:以序列片段为基础,它是基于蛋白质模块数据库BLOCKS,Henikoff夫妇(1992)从蛋白质模块数据库BLOCKS中找出一组替换矩阵,用于解决序列的远距离相关。

3、空位罚分体系:线性罚分和仿射罚分算法:点阵法和动态规划法(计算题1道,计算公式)1. FastA:更适合蛋白质序列数据库的搜索2. BLAST:更适合核酸序列数据库的搜索3. V AST:结构搜索HMM的基本要素:用模型五元组=(N, M, π,A,B)用来描述HMM,或简写为=(π,A,B) 参数含义实例N 状态数目缸的数目M 每个状态可能的观察值数目彩球颜色数目A 与时间无关的状态转移概率矩阵在选定某个缸的情况下,选择另一个缸的概率B 给定状态下,观察值概率分布每个缸中的颜色分布p 初始状态空间的概率分布初始时选择某口缸的概率HMM的三个经典问题:1 (评测问题)已知模型λ和输出序列О,求由λ生成О概率2 (译解问题)已知模型λ和输出序列О,求最有可能生成О的状态转移序列3 (学习问题)已知模型λ和输出序列О,求最有可能生成О时模型的参数隐马尔可夫(Hidden Markov Model)是一个动态统计模型,是一个可以从一种状态转换到另一种状态(称为马尔可夫链,Markov Chain),而每种状态转换具有不同概率的系统。

人工神经网络(ANN)人工神经网络的学习方式:有导师的学习(监督学习)、无导师的学习(无监督学习或自组织)和再励学习(强化学习)人工神经网络的特点:1.高度的并行性;2、高度的非线性全局作用;3、良好的交错性与联想记忆能力;4、很强的自适性、自学习能力。

相关主题