当前位置:文档之家› 生物信息学复习资料.doc

生物信息学复习资料.doc

生物信息学复习资料第一讲生物信息学绪论1、生物信息学诞生于计算机初创时期,1956年在美国田纳西州的Gatlinburg召开了首次“生物学中的信息理论讨论会”2、20世纪80年代末“林华安”博士创造了”bioinformatics”一词3、数据库的构建:1979年美国Genbank数据库;1982年欧洲分子生物实验室EMBL核酸序列数据库;1984年日本国家级核酸序列数据库DDBJ4、专业机构:1988年美国成立了“生物技术信息中心”(NCBI);欧洲生物信息学研究所(EBI)于1993年构建.5、生物信息学产生的背景(1)、传统生物学和现代生物学都是一门实验学科,生物学的发展需要数学模型的介入(2)、海量生物学数据信息的产生(2002年8月,Genbank中的序列量已达18197000,而碱基对数达22617000000,且以每秒220对的速度增加),数据的分析处理成为生物学发展的“瓶颈”(3)、新的生物学研究模式的出发点应是理论:从理论出发,再回到实验中追踪或验证这些理论假设6、生物信息学定义(广义):应用信息科学的方法和技术,研究生物体系和生命过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。

狭义:应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。

一般提到的“生物信息学”是就指这个狭义的概念,更准确地说,应该是分子生物信息学(Molecular Bioinformatics)7、生物信息学研究的主要对象——两种信息载体:DNA分子和蛋白质分子(1)遗传信息的载体——DNA遗传信息的载体主要是DNA,控制生物体性状的基因是一系列DNA片段,生物体生长发育的本质就是遗传信息的传递和表达(2)蛋白质的结构决定其功能蛋白质功能取决于蛋白质的空间结构,蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。

8、生物分子数据类型:DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据、9、第一步遗传密码和第二部遗传密码第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少,对于第二部密码,目前则只能用统计学的方法进行分析。

无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。

10、分子生物学的三大核心数据库(1)GenBank核酸序列数据库(2)SWISS-PROT蛋白质序列数据库(3)PDB生物大分子结构数据库11、生物信息学的目标和任务:揭示生物分子数据的内涵是生物信息学的长远目标(1)收集和管理生物分子数据(2)数据分析和挖掘(3)开发分析工具和实用软件12、生物信息学主要研究内容1)破译遗传语言、识别基因2)预测蛋白质结构和功能3)认识生物界信息存贮和传递的本质4)研究药物作用机制和开发新药13、目前生物信息学主要研究内容1)生物分子数据的收集与管理2)数据库搜索及序列比较3)基因组序列分析4)基因表达数据的分析与处理5)蛋白质结构预测14、在二级结构预测方面主要方法有:立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法、人工神经网络方法15、生物信息学研究意义1)认识生物本质了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系。

2)改变生物学的研究方式改变传统研究方式,引进现代信息学方法3)在医学上的重要意义为疾病的诊断和治疗提供依据,为设计新药提供依据16、生物信息学的应用•生物信息的经济价值与生物信息学市场•基因组分析•基因芯片•药物开发•其他领域17、生物信息学基本研究方法•建立数据库•数据库检索•序列分析•统计模型•算法第二讲 生物学知识简介(Part 1)1、现代生物学的里程碑——DNA 双螺旋结构的发现 DNA :遗传物质Mendel 的经典遗传学实验及其经典遗传学规律(1865年) Morgan 学派的基因学说(1915年)Griffith 的肺炎双球菌转化实验(1928年) Avery 的实验以及Hershey 、Chase 的噬菌体标记实验:DNA 是遗传信息的载体(1944~1951年)2、DNA 双螺旋结构模型的意义1) 为合理解释遗传物质的各种功能、解释生物的遗传和变异、揭示自然界色彩纷纭的生命现象奠定了理论基础;2) 揭示了生命世界多样性和生命本质的一致性的辨正统一; 3) 现代生命科学的里程碑。

3、生物分类体系界(kingdom ) 动物界(Animalia )门(phylum ) 脊索动物门(Chordata ) 脊椎动物亚门(Vertebtata )纲(class ) 哺乳动物纲(Mammalia ) 真兽亚纲(Eutheria ) 目(order ) 灵长目(Primates ) 类人猿亚目(Anthropoidea ) 科(family ) 人科(Hominidae ) 属(genus ) 人属(Homo ) 种(species ) 人种(sapiens ) 超-(super-);亚-(sub-)4、三主干六界说:三主干是真细菌、古细菌和真核生物,六界是真细菌、古细菌、原生生物、 真菌、植物、动物5、四大“模式生物”:酵母、线虫、果蝇、小鼠6、氨基酸标准符号符号符号酪氨酸Y(Tyr)赖氨酸K(Lys)谷氨酸/谷氨酰胺Z亮氨酸L(Leu)甲硫氨酸M(Met)色氨酸W(Trp)异亮氨酸I(Ile)缬氨酸V(Val)组氨酸H(His)硒代半胱氨酸U 甘氨酸G(Gly)苏氨酸T(Thr)本丙氨酸F(Phe)丝氨酸S(Ser)谷氨酸E(Glu)精氨酸R(Arg)天冬氨酸D(Asp)谷氨酰胺Q(Gln)半胱氨酸C(Cys)脯氨酸P(Pro)天冬氨酸/天冬酰胺B 天冬酰胺N(Asn)丙氨酸A(Ala)意义意义7、蛋白质的空间结构 :二级结构(secondary structure)氢键形成α-螺旋(α -helix) 链间形成β-折叠(β-sheet)8、生物信息数据库中的核苷酸代码代码核苷酸代码核苷酸NA 或C 或G 或T (U )V 非TS G 或CH 非G M A 或C D 非C R A 或G B 非A W A 或T (U )T T (胸腺嘧啶)K G 或T (U )G G (鸟嘌呤)Y C 或T (U )C C (胞嘧啶)U U (尿嘧啶)A A (腺嘌呤)第三讲 生物信息学方法介绍(生物信息学中的数学基础)1、概率:概率是随机事件发生的可能性大小的数量表示,是定义于事件域ℱ上取值于[0, 1]的函数。

2、条件概率(Conditional probability ): 设A 、B 为试验E 的两个事件,且P(B) > 0,称()())(B P AB P B A P =为在事件B 发生的条件下,事件A 发生的条件概率。

3、关于条件概率(1)条件概率P(A|B)的实质:减小样本空间,定义在样本子空间的概率Ω ∨ ΩBP(A) ∨ PB(A)即P(A|B)(2)条件概率也是概率,满足概率公理化定义的三个性质。

(证明略) 4、生物序列研究的两类问题 (1)判别问题Does the sequence belong to a particular family? (2)信息结构的识别Assuming the sequence does come from some family, what can we say about its internal structure? 5、例子:人类基因组中与启动子相关的CpG 岛信号在人类基因组的许多基因的转录起始区域,二核苷酸“CG”出现的频率往往要高于基因组其它的区域,因此,“CG”的高含量区(通常长达数百~数千碱基)可能意味着转录启动子的存在,这种“CG”高含量区被称为CpG 岛(CpG islands )。

对CpG 岛的识别,有助于转录起始信号的识别。

6、例题:已知48条人类DNA 序列(全长60kb ),每条都含有确认的CpG 岛位置、长度注释信息。

据此构造训练集:正方训练集(Positive )CpG 岛区的DNA 序列CpG 岛区之外的DNA 序列负方训练集(Negative )分别从positive 训练集和negative 训练集中统计出双核苷酸st 的频率,再计算概率转移矩阵:∑'+'++=t t s ststcca∑'-'--=t t s ststc c a+sta -sta t T t G t C t A +0.1820.3840.3550.079s T0.1250.3750.3390.161s G 0.1880.2740.3680.170s C 0.1200.4260.2740.180s A t T t G t C t A -0.2920.2920.2390.177s T 0.2080.2980.2460.248s G 0.3020.0780.2980.322s C 0.2100.2850.2050.300s A 对于任一段DNA 序列片段,计算下列分值:∑∑==-+---==-+=Li x x Li x xx xii ii i i a a x P x P x S 11111log)model |()model |(log )(βs A t T t G t C t A -0.6790.3930.573-1.169s T-0.7300.3310.461-0.624s G -0.6851.8120.302-0.913s C -0.8030.5800.419-0.740β作长度L 的归一处理:∑=-=Li x x ii Lx S 111)(β图的左边是非CpG 岛,右边是CpG 岛。

据此,可以对某一DNA 片段构造判别规则,判定是否CpG 岛。

第四讲 生物信息学中的计算机技术1、Unix 的组成1) 内核(Kernel )一个提供硬件抽象层、磁盘及文件系统控制、多任务等功能的系统软件,是计算机的主要控制程序2) Shell Unix 的一部分,用来解释用户的命令并传递给内核处理3) 文件系统(File System ) 存储在计算机中的信息 , 以目录形式组织 4) 组件(Utilities ) Unix 命令 2、UNIX 目录结构用于安装是文件系统的根目录,是整个文件系统的主要C 语言的头文件/usr/include用户的可执行命令/usr/bin 用户相关目录/usr 与硬件设备相关的文件,多数为设备文件/dev CD-ROM 、软驱、ZIP 驱动器或JAZ 驱动器等可移动媒介/mnt 系统存放所有用户私有目录的地方/home 存放最常用的基本用户程序/bin 目录,以及超级用户的主目录/3、Unix 常用命令 (1)、Pwd 显示当前工作路径y 用法:pwd y 例子:% pwd/home/browns02(2)Ls 列出当前目录下的文件列表用法:ls -[options] pathname 例子:% ls assembin4.fasta Misc test2.txt使用l 参数可以列出更多详细的信息% ls –l total 1768 drwxr-x--- 2 browns02 users 8192 Aug 28 18:26 Opioid 4、什么是Perl?Perl 是Practical Extraction and Report Language 的简写,译为实用摘录和报告语言,Perl 由Larry Wall 设计的,他曾说过这样一句话:“Perl 可能不好看或者不好闻,但是它能完成任务”;Perl 具有高级语言(如C )的强大能力和灵活性 ,许多特性源于C 语言;计算机语言的执行分为解释执行(Perl 、ASP 、PHP )和编译执行(C/C ++ )。

相关主题