当前位置：文档之家› 生物信息学复习资料.doc

生物信息学复习资料.doc

生物信息学复习资料第一讲生物信息学绪论1、生物信息学诞生于计算机初创时期，1956年在美国田纳西州的Gatlinburg召开了首次“生物学中的信息理论讨论会”２、20世纪80年代末“林华安”博士创造了”bioinformatics”一词３、数据库的构建：1979年美国Genbank数据库；1982年欧洲分子生物实验室EMBL核酸序列数据库；1984年日本国家级核酸序列数据库DDBJ4、专业机构：1988年美国成立了“生物技术信息中心”（NCBI）；欧洲生物信息学研究所（EBI）于1993年构建．5、生物信息学产生的背景（１）、传统生物学和现代生物学都是一门实验学科，生物学的发展需要数学模型的介入（２）、海量生物学数据信息的产生（2002年8月，Genbank中的序列量已达18197000,而碱基对数达22617000000,且以每秒220对的速度增加），数据的分析处理成为生物学发展的“瓶颈”（３）、新的生物学研究模式的出发点应是理论：从理论出发，再回到实验中追踪或验证这些理论假设6、生物信息学定义（广义）：应用信息科学的方法和技术，研究生物体系和生命过程中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。

狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。

一般提到的“生物信息学”是就指这个狭义的概念，更准确地说，应该是分子生物信息学（Molecular Bioinformatics）7、生物信息学研究的主要对象——两种信息载体：DNA分子和蛋白质分子(1)遗传信息的载体——DNA遗传信息的载体主要是DNA，控制生物体性状的基因是一系列DNA片段，生物体生长发育的本质就是遗传信息的传递和表达(2)蛋白质的结构决定其功能蛋白质功能取决于蛋白质的空间结构，蛋白质结构决定于蛋白质的序列（这是目前基本共认的假设），蛋白质结构的信息隐含在蛋白质序列之中。

8、生物分子数据类型：DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据、9、第一步遗传密码和第二部遗传密码第一部遗传密码已被破译，但对密码的转录过程还不清楚，对大多数DNA非编码区域的功能还知之甚少，对于第二部密码，目前则只能用统计学的方法进行分析。

无论是第一部遗传密码，还是第二部遗传密码，都隐藏在大量的生物分子数据之中。

10、分子生物学的三大核心数据库（1）GenBank核酸序列数据库（2）SWISS-PROT蛋白质序列数据库（3）PDB生物大分子结构数据库11、生物信息学的目标和任务：揭示生物分子数据的内涵是生物信息学的长远目标（1）收集和管理生物分子数据（2）数据分析和挖掘（3）开发分析工具和实用软件12、生物信息学主要研究内容1)破译遗传语言、识别基因2)预测蛋白质结构和功能3)认识生物界信息存贮和传递的本质4)研究药物作用机制和开发新药13、目前生物信息学主要研究内容1)生物分子数据的收集与管理2)数据库搜索及序列比较3)基因组序列分析4)基因表达数据的分析与处理5)蛋白质结构预测14、在二级结构预测方面主要方法有：立体化学方法、图论方法、统计方法、最邻近决策方法、基于规则的专家系统方法、分子动力学方法、人工神经网络方法15、生物信息学研究意义1）认识生物本质了解生物分子信息的组织和结构，破译基因组信息，阐明生物信息之间的关系。

2）改变生物学的研究方式改变传统研究方式，引进现代信息学方法3）在医学上的重要意义为疾病的诊断和治疗提供依据，为设计新药提供依据16、生物信息学的应用•生物信息的经济价值与生物信息学市场•基因组分析•基因芯片•药物开发•其他领域17、生物信息学基本研究方法•建立数据库•数据库检索•序列分析•统计模型•算法第二讲生物学知识简介(Part 1)1、现代生物学的里程碑——DNA 双螺旋结构的发现 DNA ：遗传物质Mendel 的经典遗传学实验及其经典遗传学规律（1865年） Morgan 学派的基因学说（1915年）Griffith 的肺炎双球菌转化实验（1928年） Avery 的实验以及Hershey 、Chase 的噬菌体标记实验：DNA 是遗传信息的载体（1944～1951年）2、DNA 双螺旋结构模型的意义1) 为合理解释遗传物质的各种功能、解释生物的遗传和变异、揭示自然界色彩纷纭的生命现象奠定了理论基础；2) 揭示了生命世界多样性和生命本质的一致性的辨正统一； 3) 现代生命科学的里程碑。

3、生物分类体系界（kingdom ）动物界(Animalia )门（phylum ）脊索动物门(Chordata ) 脊椎动物亚门(Vertebtata )纲（class ）哺乳动物纲(Mammalia ) 真兽亚纲(Eutheria ) 目（order ）灵长目(Primates ) 类人猿亚目(Anthropoidea ) 科（family ）人科(Hominidae ) 属（genus ）人属(Homo ) 种（species ）人种(sapiens ) 超-（super-）；亚-（sub-）4、三主干六界说：三主干是真细菌、古细菌和真核生物，六界是真细菌、古细菌、原生生物、真菌、植物、动物5、四大“模式生物”：酵母、线虫、果蝇、小鼠6、氨基酸标准符号符号符号酪氨酸Y(Tyr)赖氨酸K(Lys)谷氨酸/谷氨酰胺Z亮氨酸L(Leu)甲硫氨酸M(Met)色氨酸W(Trp)异亮氨酸I(Ile)缬氨酸V(Val)组氨酸H(His)硒代半胱氨酸U 甘氨酸G(Gly)苏氨酸T(Thr)本丙氨酸F(Phe)丝氨酸S(Ser)谷氨酸E(Glu)精氨酸R(Arg)天冬氨酸D(Asp)谷氨酰胺Q(Gln)半胱氨酸C(Cys)脯氨酸P(Pro)天冬氨酸/天冬酰胺B 天冬酰胺N(Asn)丙氨酸A(Ala)意义意义7、蛋白质的空间结构：二级结构(secondary structure)氢键形成α-螺旋(α -helix) 链间形成β-折叠(β-sheet)8、生物信息数据库中的核苷酸代码代码核苷酸代码核苷酸NA 或C 或G 或T （U ）V 非TS G 或CH 非G M A 或C D 非C R A 或G B 非A W A 或T （U ）T T （胸腺嘧啶）K G 或T （U ）G G （鸟嘌呤）Y C 或T （U ）C C （胞嘧啶）U U （尿嘧啶）A A （腺嘌呤）第三讲生物信息学方法介绍（生物信息学中的数学基础）1、概率：概率是随机事件发生的可能性大小的数量表示，是定义于事件域ℱ上取值于[0, 1]的函数。

2、条件概率（Conditional probability ）：设A 、B 为试验E 的两个事件，且P(B) > 0，称()())(B P AB P B A P =为在事件B 发生的条件下，事件A 发生的条件概率。

3、关于条件概率（1）条件概率P(A|B)的实质：减小样本空间，定义在样本子空间的概率Ω ∨ ΩBP(A) ∨ PB(A)即P(A|B)（2）条件概率也是概率，满足概率公理化定义的三个性质。

（证明略） 4、生物序列研究的两类问题（1）判别问题Does the sequence belong to a particular family? （2）信息结构的识别Assuming the sequence does come from some family, what can we say about its internal structure? 5、例子：人类基因组中与启动子相关的CpG 岛信号在人类基因组的许多基因的转录起始区域，二核苷酸“CG”出现的频率往往要高于基因组其它的区域，因此，“CG”的高含量区（通常长达数百～数千碱基）可能意味着转录启动子的存在，这种“CG”高含量区被称为CpG 岛（CpG islands ）。

对CpG 岛的识别，有助于转录起始信号的识别。

6、例题：已知48条人类DNA 序列（全长60kb ），每条都含有确认的CpG 岛位置、长度注释信息。

据此构造训练集：正方训练集（Positive ）CpG 岛区的DNA 序列CpG 岛区之外的DNA 序列负方训练集（Negative ）分别从positive 训练集和negative 训练集中统计出双核苷酸st 的频率，再计算概率转移矩阵：∑'+'++=t t s ststcca∑'-'--=t t s ststc c a+sta -sta t T t G t C t A +0.1820.3840.3550.079s T0.1250.3750.3390.161s G 0.1880.2740.3680.170s C 0.1200.4260.2740.180s A t T t G t C t A －0.2920.2920.2390.177s T 0.2080.2980.2460.248s G 0.3020.0780.2980.322s C 0.2100.2850.2050.300s A 对于任一段DNA 序列片段，计算下列分值：∑∑==-+---==-+=Li x x Li x xx xii ii i i a a x P x P x S 11111log)model |()model |(log )(βs A t T t G t C t A -0.6790.3930.573-1.169s T-0.7300.3310.461-0.624s G -0.6851.8120.302-0.913s C -0.8030.5800.419-0.740β作长度L 的归一处理：∑=-=Li x x ii Lx S 111)(β图的左边是非CpG 岛，右边是CpG 岛。

据此，可以对某一DNA 片段构造判别规则，判定是否CpG 岛。

第四讲生物信息学中的计算机技术1、Unix 的组成1) 内核（Kernel ）一个提供硬件抽象层、磁盘及文件系统控制、多任务等功能的系统软件，是计算机的主要控制程序2) Shell Unix 的一部分，用来解释用户的命令并传递给内核处理3) 文件系统（File System ）存储在计算机中的信息，以目录形式组织 4) 组件（Utilities ） Unix 命令 2、UNIX 目录结构用于安装是文件系统的根目录，是整个文件系统的主要C 语言的头文件/usr/include用户的可执行命令/usr/bin 用户相关目录/usr 与硬件设备相关的文件，多数为设备文件/dev CD-ROM 、软驱、ZIP 驱动器或JAZ 驱动器等可移动媒介/mnt 系统存放所有用户私有目录的地方/home 存放最常用的基本用户程序/bin 目录,以及超级用户的主目录/3、Unix 常用命令（1）、Pwd 显示当前工作路径y 用法：pwd y 例子：% pwd/home/browns02（2）Ls 列出当前目录下的文件列表用法：ls -[options] pathname 例子：% ls assembin4.fasta Misc test2.txt使用l 参数可以列出更多详细的信息% ls –l total 1768 drwxr-x--- 2 browns02 users 8192 Aug 28 18:26 Opioid 4、什么是Perl?Perl 是Practical Extraction and Report Language 的简写，译为实用摘录和报告语言，Perl 由Larry Wall 设计的，他曾说过这样一句话：“Perl 可能不好看或者不好闻，但是它能完成任务”；Perl 具有高级语言（如C ）的强大能力和灵活性，许多特性源于C 语言；计算机语言的执行分为解释执行(Perl 、ASP 、PHP )和编译执行(C/C ＋＋ )。

e商务文档

生物信息学复习资料.doc

相关文档推荐：