基因表达gene expression:是基因中的DNA序列生产出蛋白质的过程。
步骤大致从DNA 转录成mRNA开始,一直到对于蛋白质进行后转译修饰为止。
基因水平转移horizontal gene transfer:指生物将遗传物质传递给其他细胞而非其子代的过程,基因水平转移是一个重要的现象。
人工神经网络(Artificial Neural Networks)人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。
序列比对sequence alignment:序列比对指将两个或多个序列排列在一起,标明其相似之处。
序列中可以插入间隔。
对应的相同或相似的符号(在核酸中是A, T(或U), C, G,在蛋白质中是氨基酸残基的单字母表示)排列在同一列上。
这一方法常用于研究由共同祖先进化而来的序列,特别是如蛋白质序列或DNA序列等生物序列。
在比对中,错配与突变相应,而空位与插入或缺失对应。
可变剪接alternative splicing :通过不同的剪接位点,从一个单独的前体mRNA生成两个或多个mRNA成熟分子的现象。
启动子(promotor): 指一段能使基因进行转录的DNA序列。
启动子可以被RNA聚合酶辨认,并开始转录。
在RNA合成中,启动子可以和决定转录开始的转录因子产成相互作用,继而控制细胞开始转录翻译蛋白质。
增强子Enhancer:是DNA上一小段可与转录因子蛋白结合的区域,结合之后,基因的转录作用将会加强。
强化子可能位于基因上游,也可能位于下游。
分支约束法branch and bound method :一种对最大简约树进行逐层搜索的智能高效的方法,包括两个步骤:一、将上边界确定为数据集的最大简约树的长度;二、每次增加一个分支,逐步生成一棵树,以此描述部分被考虑序列的相互关系。
趋同演化(Convergency):在演化生物学中指的是两种不具亲缘关系的动物长期生活在相同或相似的环境,或曰生态系统中,它们因应需要而发展出相同功能的器官的现象。
Chou-Fasman 参数Chou-Fasman parameter:表示与α螺旋、β折叠以及发夹环各个位置相关的氨基酸二级结构经验观察趋势的一系列数值参量。
位置特异性打分矩阵position-specific scoring matrix:一个矩阵,矩阵中的每一个数表示某个特定的氨基酸占据多序列比对中某个位置的频率。
基因芯片(gene chip),又称DNA微阵列(microarray),是由大量cDNA或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。
系统生物学system biology:是一个试图整合不同层次信息以理解生物系统如何行使功能的学术领域。
通过研究某生物系统各不同部分之间的相互关系和相互作用(例如,与细胞信号传导,代谢通路,细胞器,细胞,生理系统与生物等相关的基因和蛋白网络),系统生物学期望最终能够建立整个系统的可理解模型。
请阐述生物信息学研究的主要内容。
The main contents of bioinformatics research.生物信息学作为一门新的交叉学科,其研究范畴是以基因组DNA序列的信息分析作为出发点,分析基因组结构,寻找或发现新基因,分析基因调控信息,并在此基础上研究基因的功能,研究基因的产物即蛋白质,模拟和预测蛋白质的空间结构,分析蛋白质的性质,其结果将为基于靶分子结构的药物分子设计和蛋白质分子改性设计提供依据。
当前,生物信息学已在理论生物学领域占有了核心的地位。
生物信息学主要有以下几个方面的研究内容。
(1)生物分子数据的收集与管理;(2)数据库搜索及序列比较;(3)基因组序列分析;(4)基因表达数据的分析和处理;(5)蛋白质结构预测。
从生物分子数据的收集和管理到数据库搜索,从基因组序列和基因表达数据分析到蛋白质结构与功能的研究形成生物信息学研究的主线,进一步的工作还包括药物分子设计和蛋白质设计。
简述分子生物学中的“中心法则”。
A brief description of the "Central Dogma" in molecular biology.DNA是遗传物质,是携带遗传信息的载体。
信息从基因的核苷酸序列中被提取出,用来指导蛋白质合成的过程对地球上的所有生物都是相同的,分子生物学家称之为中心法则(central dogma)。
“中心法则”的核心:DNA分子中的遗传信息转录(transcription)到RNA分子中(即RNA聚合酶以DNA为模板合成RNA),再由RNA翻译(translation)生成体内各种蛋白质,行使特定的生物功能。
国际上有哪几个著名的核酸序列数据库?The three well-known international nucleotide sequence database.核酸序列是了解生物体结构、功能、发育和进化的出发点。
国际上权威的核酸序列数据库有三个,分别是美国生物技术信息中心(NCBI)的GenBank (/Web/Genbank/index.html),欧洲分子生物学实验室的EMBL-Bank(简称EMBL,/embl/index.html),日本遗传研究所的DDBJ (http://www.ddbj.nig.ac.jp/)。
三个组织相互合作,各数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。
这三个数据库是综合性的DNA和RNA序列数据库,其数据来源于众多的研究机构和核酸测序小组,来源于科学文献。
用户可以通过各种方式将核酸序列数据提交给这三个数据库系统。
数据库中的每条记录代表一个单独、连续、附有注释的DNA或RNA片段。
简述Alignment基本原理。
The basic principles of Alignment.两条序列的比对(alignment)是指这两条序列中各个字符的一种一一对应关系,或字符对比排列。
序列的比对是一种关于序列相似性的定性描述,它反映在什么部位两条序列相似,在什么部位两条序列存在差别。
最优比对揭示两条序列的最大相似程度,指出序列之间的根本差异。
对两条序列进行编辑操作,通过字符匹配和替换,或者插入和删除字符,使得两条序列达到一样的长度,并使两条序列中相同的字符尽可能地一一对应。
设两条序列分别是s和t,在s或t中插入空位符号,使s和t达到一样的长度。
在进行序列比对时,可根据实际情况选用代价函数或得分函数。
两条序列s和t的比对的得分(或代价)等于将s转化为t所用的所有编辑操作的得分(或代价)总和,s和t的最优比对是所有可能的比对中得分最高(或代价最小)的一个比对,s和t的真实距离应该是在得分函数p值(或代价函数w值)最优时的距离。
请简要介绍基因组序列分析步骤。
The steps of genome sequence analysis.基因组序列分析步骤一般如下:(1)发现重复元素。
这是重要的一步,因为重复元素会给DNA序列分析带来许多问题。
所以,一般先寻找并屏蔽重复的和低复杂性的序列,然后寻找基因以及与其相关的调控区域。
(2)数据库搜索。
通过数据库搜索,发现相似序列或者同源序列,根据相似序列具有相似结构及相似功能的原理,通过类比,得到关于待分析序列的初步信息,指导进一步的详细序列分析。
(3)分析功能位点。
其主要目的是识别DNA序列上存在的序列信号,具体地说,就是特殊的片段。
这些片段与基因及调控信息有关,如转录剪切位点、启动子、起始密码子等。
对于基因识别问题来说,信号识别有助于确定基因所在的区域。
(4)序列组成统计分析。
蛋白质编码区域与非编码区域在DNA序列组成上具有明显不同的统计特征,编码序列具有三联周期性,编码区域多联核苷酸出现频率与非编码区域不同。
因而,可以通过统计分析预测基因的编码区域,预测一段DNA序列成为编码区域的可能性,寻找可能的基因外显子。
(5)综合分析。
综合数据库搜索、功能位点分析、序列组成分析等的阶段性结果,检查这些结果的相容性,经过整理,最终得到一致性的分析结果。
请简要介绍基因识别及主要原理。
The gene recognition and main methods.由于DNA测序技术的迅速发展,我们已经得到一些完整的基因组序列,有效地解决基因识别问题显得越来越迫切。
基因识别中的一个关键问题是预测编码区域。
所谓编码区域预测,一般是指预测DNA序列中编码蛋白质的部分,即基因的外显子部分。
而基因识别的最终目标是预测完整的基因结构,正确地识别出一个基因的所有外显子及其边界。
识别DNA序列中蛋白质编码区域的方法主要有两类。
一类是基于特征信号的识别。
真核基因外显子(编码区域)具有一些特别的序列信号,如内部的外显子被剪切接受体位点和给体位点所界定,5’-端的外显子一定是在核心启动子(例如TA TA盒)的下游,而3’-端的外显子的下游包含多聚A信号和终止编码。
根据这些序列特征信号确定外显子的边界,从而达到识别编码区域的目的。
然而没有一个算法在预测基因时仅仅检测这些信号,因为这些信号的强度太弱,它们缺乏统计的显著性。
另一类是基于统计度量的方法,对编码区进行统计特性分析。
通过统计而获得的经验说明,DNA中密码子的使用频率不是平均分布的,某些密码子会以较高的频率使用,而另一些则较少使用。
这样就使得编码区的序列呈现出可察觉的统计特异性,即“密码子偏好性”。
利用这一特性对未知序列进行统计学分析可以发现编码区的粗略位置。
基因识别方法又可以分成两大类,即从头算方法(或基于统计的方法)和基于同源序列比较的方法。
从头算方法根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域。
基于同源的方法利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。
最理想的方法是综合两大类方法的优点,开发混合算法。
请阐述基因组测序技术及其发展。
The genome sequencing technologies and their development.DNA测序(DNA sequencing)是指分析特定DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)與鳥嘌呤的(G)排列方式。
一、传统的DNA测序技术——Sanger测序法Sanger双脱氧链终止法是Sanger于1975年发明的。
测序过程需要先做一个聚合酶连锁反应(PCR)。
PCR过程中,DNA分子可能随机的被加入到正在合成中的DNA片段里。
由于双脱氧核糖核酸多脱了一个氧原子,一旦它被加入到DNA链上,这个DNA链就不能继续增加长度。
最终的结果是获得所有可能获得的、不同长度的DNA片段。