当前位置:文档之家› 生物信息学期末考试重点

生物信息学期末考试重点

第一讲生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。

生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。

生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。

生物技术与生物信息学的区别及联系生物信息学的发展历史•人类基因组计划(HGP)•人类基因组计划由美国科学家于1985年提出,1990年启动。

根据该计划,在2015年要把人体约4万个基因的密码全部揭开,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。

HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。

(百度百科)随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。

换句话说,人类基因组计划为生物信息学提供了兴盛的契机。

上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。

第二讲回顾细胞结构细胞是所有生命形式结构和功能的基本单位细胞组成细胞膜主要由脂类和蛋白质组成的环绕在细胞表面的双层膜结构细胞质细胞膜与细胞核之间的区域:包含液体流质,夹杂物存储的营养、分泌物、天然色素和细胞器细胞器细胞内完成特定功能的结构:线粒体、核糖体、高尔基体、溶酶体等细胞核最大的细胞器DNA的结构碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶G)核苷酸核苷酸是构成DNA分子的重要模块。

每个核苷酸分子由一分子称作脱氧核糖的戊糖(五碳糖)、一分子磷酸和一分子碱基构成。

每种核苷酸都有一个碱基对,也就是A、T、C、G基因是什么基因是遗传物质的基本单位基因就是核苷酸序列。

大部分的基因大约是1000-4000个核苷酸那么长。

基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。

基因在染色体上。

第四讲数据结构及其对应算法数据结构的定义数据结构探讨的是在计算机中如何有效地存放数据,使其可以方便地被处理•二维数组•链表•栈和队列第五讲序列比较序列比较的根本任务是:1.发现序列之间的相似性2.辨别序列之间的差异目的:相似序列相似的结构,相似的功能判别序列之间的同源性推测序列之间的进化关系序列对比定义:序列对比(sequence alignment)是运用某种特定的数学模型或算法,找出两个或多个序列之间的最大匹配碱基或残基数,比对的结果反映了算法在多大程度上提供序列之间的相似性关系及他们的生物学特征。

编辑距离...AGCACAC--A...... A--CACACTA...-Match(a,a)字符匹配-Delete(a,-)从第一条序列删除一个字符,或者在第二条序列相应的位置插入空位-Replace(a,b)以第二条序列中的字符b替换第一条序列中的字符a, a不等于b-Insert(-,b)在第一条序列插入空位符,或者删除第二条序列中的对应字符b编辑距离,又称Levenshtein距离,是指在对于两个字符串,由其中一个转换成另一个所需要的最少编辑次数,该编辑可以是Replace, Delete,InsertBesting -->BeatenS1. Replace (s -> a )S2. Replace (i -> e )S3. Delete (g -> -)S3. Insert (-,g)问题:把一个字符串s1最少经过多少步操作变成字符串s2相关算法•递归函数调用自身,需要有边界函数n! = n(n-1)(n-2)...1;f(n) = f(n-1)+f(n-2)•动态规划(最长公共字符子序列)将大问题分解为一系列子问题,每个子问题的解保存在数组中用来求最终解[问题描述] 字符序列的子序列是指从给定字符序列中随意地(不一定连续)去掉若干个字符(可能一个也不去掉)后所形成的字符序列。

令给定的字符序列X=“x0,x1,…,xm-1”,序列Y=“y0,y1,…,yk-1”是X的子序列,存在X的一个严格递增下标序列<i0,i1,…,ik-1>,使得对所有的j=0,1,…,k-1,有xij=yj。

例如,X=“ABCBDAB”,Y=“BCDB”是X 的一个子序列。

最长公共字符子序列A=“a0,a1,…,am-1”;B=“b0,b1,…,bm-1”;Z=“z0,z1,…,zk-1”为它们的最长公共子序列,那么关于A,B,Z应该有如下性质:1)如果am-1=bn-1,则zk-1=am-1=bn-1,且“z0,z1,…,zk-2”是“a0,a1,…,am-2”和“b0,b1,…,bn-2”的一个最长公共子序列;2)如果am-1!=bn-1,则若zk-1!=am-1,蕴涵“z0,z1,…,zk-1”是“a0,a1,…,am-2”和“b0,b1,…,bn-1”的一个最长公共子序列;3)如果am-1!=bn-1,则若zk-1!=bn-1,蕴涵“z0,z1,…,zk-1”是“a0,a1,…,am-1”和“b0,b1,…,bn-2”的一个最长公共子序列。

最长公共字符子序列现有两个序列X={x1,x2,x3,...xi},Y={y1,y2,y3,....,yj},设一个C[i,j]: 保存Xi与Yj的LCS的长度。

第六讲编辑距离问题算法•if i == 0 且j == 0,matrix(i, j) = 0•if i == 0 且j > 0,matrix(i, j) = j•if i > 0 且j == 0,matrix(i, j) = i•if i ≥ 1且j ≥ 1 ,matrix(i, j) == min{ matrix(i-1, j) + 1, matrix(i, j-1) + 1, matrix(i-1, j-1) + f(i, j) },当第一个字符串的第i个字符不等于第二个字符串的第j 个字符时,f(i, j) = 1;否则,f(i, j) = 0。

第八讲全局序列比对算法Levenshtein 与LCS 的异同点S[i-1,j-1] + cost(a i,b j) cost = 0 || 1S[i,j] = min S[i-1,j]+cost(a i,-) delete (i,-)S[i,j-1]+cost(-,b j) delete (j,-)算法DemoA B B A0 1 2 3 4B 1 1 1 2 3B 2 2 1 1 2A 3 2 2 2 1第九讲生物信息学的计算机、统计学及数学基础生物信息学的定义:生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成的一门新兴学科。

因此,计算机技术将是进行生物信息学研究的重要手段;而数学知识是研究的重要方法。

目前,一般提到的"生物信息学" 是就指这个狭义的概念,更准确地说,应该是分子生物信息学(Molecular Bioinformatics)。

2、动态规划方法动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部”逐渐接近“全局”,最终获得全局最优解在生物信息学中,使用得最多的是反向传播神经网络(Back Propagation Neural Network,简称BP网)。

专家系统专家系统(Expert System)是一种基于知识的智能系统,它将领域专家的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机使用知识库是专家系统的第一重要组成部分,知识库中的知识通常分为两类:1.一类领域的事实性知识或广泛公用的知识2.另一类是启发性知识,是该领域专家在长期研究和实践过程中积累起来的经验总结知识获取方式大致上可以分为两种:一种是由知识工程师向领域专家询问有关知识,经过整理编辑后将知识转换成计算机表示形式,送入知识库另一种是针对大量数据进行机器学习,分析、总结和抽取出有用的新知识,这是更高层次的知识获取方式。

专家系统的另一个重要部分是推理机,由它来控制和协调整个系统,并根椐当前输入的数据和知识,按一定的推理策略,去解决当前的问题,推导出结论。

第十讲数据挖掘数据挖掘(定义)从技术层面上:数据挖掘就是从大量数据中提取有用信息的过程从商业层面上:数据挖掘就是一种商业信息处理技术,通过对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据数据挖掘(任务)分类分析(Classification)通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型产生分类规则,然后用这个模型或规则对数据库中的其他记录进行分类。

已被广泛应用于用户行为分析、生物科学等领域。

聚类分析(Clustering)聚类和分类是两个容易混淆的概念。

聚类是一种无指导的观察式学习,没有预先定义的类。

而分类问题是有指导的示例式学习,预先定义类。

分类是训练样本里包含有分类属性值,而聚类是要在训练样本中发现这些分类属性值。

第十一讲动态规划矩阵相乘只有当矩阵A 的列数与矩阵B 的行数相等时A ×B 才有意义。

一个m ×n 的a(m ,n )左乘一个n ×p 的矩阵b(n ,p ),会得到一个m ×p 的矩阵c(m ,p )共计算 2 * 3 * 4 = 24次动态规划算法• 确定要用动态规划算法之后如何去分析问题① 怎么描述问题,要把问题描述为交叠的子问题 ② 交叠子问题的初始条件(边界条件) ③ 动态规划在形式上往往表现为填矩阵的形式回顾编辑距离 或者 LCS 算法,以上三点也都在我们的分析中体现 背包问题 背包问题简述问题:如何在不超出背包重量的前提下得到最大价值 思考解决问题的结构,寻找最优子结构 Item {a1,a2,a3} W: {5,3,2} P : {9,7,8} MaxWeight: 5=⎪⎪⎪⎭⎫⎝⎛⨯⎪⎪⎭⎫ ⎝⎛123412341234345123W: {5,3,2}P : {9,7,8}MaxWeight: 5问题:一共要计算多少种可能性核心算法c[i][m]=max{c[i-1][m],c[i-1][m-w[i]]+p[i]}第十四讲信息可视化技术背景计算机图形学的产生和发展为可视化的诞生奠定基础1987年正式将可视化分为:数据可视化、信息可视化、科学可视化数据可视化将数据以图像的形式呈现出来数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。

相关主题