当前位置:文档之家› 功能位点分析

功能位点分析


(2)密码子的使用有一定的统计规律
• 对同义密码子的使用存在着偏爱 不同种属偏爱的密码子不同 人类基因组: 密码子第三位取A、U的情况占90%
而第三位取G、C仅占10%
密码子的使用偏性与基因功能、蛋白质结构相关
(3)密码子中的密码

三个碱基的位置与所编码的氨基酸性质存在着联系 例如:
• 芳香族氨基酸——以U作为第一位碱基
析软件包大多整合有检索酶切位点的程序。这
些程序附带一个酶切位点的数据库文件,根据
这个文件对序列作酶切位点的查找。
限制性内切酶分析常用软件
RESTRICTION ANALYSIS DNAssist 1.02 DFW 2.21 Generunner
下载地址:
/dna.html
列对 DNA 序列数据库的类似性检索、两个序列
的比较、碱基互补配对和发卡结构分析以及酶
两联核苷酸频率: • 不同基因组中两个连续核苷酸出 现的频率也是不相同的 • 4种核苷酸可以组合成16种两联 核苷酸
பைடு நூலகம்
对酵母基因组两 联核苷酸的统计 结果 其中核苷酸对出 现频率最高的达 到0.119 而出现频率最低 的只有0.028
酵母基因组两联核苷酸频率表
三联核苷酸——基因密码子: • 在进行编码区域识别时,常常需要对三联 核苷酸进行统计分析,这实际上是分析密 码子的使用偏性。
核苷酸
频率
A
C G
0.3248693727808
0.1751306272192 0.1751306272192
T
0.3248693727808
酵母基因组核苷酸出现频率
• 在统计过程中,如果同时计算DNA的正反 两条链,则根据碱基配对原则,A和T、C 和G的出现频率相同。 • 如果仅统计一条链,则虽然A和T、C和G的 出现频率不同,但是非常接近。
230000/220000=210000≌103000
基因组计划带来的希望:
• 实验数据的积累速度在迅速地增加
• 计算机科学和技术也在不断地发展
单个基因组分析:
基因序列
基因功能 基因的表达调控
基因产物
基因多态性
比较基因组分析: 物种关系 物种进化
物种起源
二、序列格式转化
各种软件为了自己的需要,通常对序列格式 有一定的要求,给我们的使用带来了一定的困难。
一个基本的DNA序列分析方案
发现重复序列
数据库搜索
分析功能位点
序列组成统计分析
综合分析
2. 核苷酸关联分析 • 对于一个给定的基因组,最简单的计算就 是统计DNA序列中各类核苷酸出现的频率 • 对于随机分布的DNA序列,每种核苷酸的 出现是均匀分布的
– 出现频率各为0.25。
• 而真实基因组的核苷酸分布则是非均匀的
序列、检索DNA的特殊位点或信号、开放读框的查
找、鉴定DNA的编码区和翻译基因序列等。
基因编码区是指可以由核糖体翻译成蛋白
质的序列,它的5’端有转录和翻译的起始位点,
3’ 端有终止位点。基因的起始位点通常是 ATG ,
终止位点为TAA、TAG、TGA。
一个起始和终止密码子之间的序列称为一
个 开 放 阅 读 框 ( Open Reading Frame , 简 称
(3)EBML格式 与 GBFF 格式的主要区别是:每行左端均有由 两个大写字母组成的识别标志,是GenBank识 别标志的缩写。另外,序列的序号在右侧。
(4)GCG格式:是商业性的 GCG软件包的专用 格式。
Seqverter
最新下载
/download.htm *下载后直接安装即可
– 由于密码子的简并性(degeneracy),每个氨 基酸至少对应1种密码子,最多有6种对应的密 码子。 – 在基因中,同义密码子的使用并不是完全一致 的。 – 不同物种、不同生物体的基因密码子使用存在 着很大的差异
• 基因密码子的使用与基因编码的蛋白的结构和功 能有关,与基因表达的生理功能有着密切的联系 • 蛋白的三级结构与密码子使用概率有密切的关系
是一个长度为3×109的一维序列。
• 科学家对这本天书了解最多的部分就是遗传密码 或者说掌握了DNA对蛋白质编码的规律 • 关于密码子 (1)密码子的使用是非随机的 • 如果密码子的第一、第二位碱基是A、U, 那么第三位将尽可能使用G、C;反之亦然。
• 如果三位都用G、C,则配对容易,分解难;
三位都用A、U,则相反。 • 一般地说,高表达的基因,要求翻译速度快, 要求密码子和反密码子配对快、分开也快。
ORF),它是一个潜在的蛋白质编码区。
• 对于任何给定的核酸序列(单链DNA或 mRNA),根据密码子的起始位置,可 以按照三种方式进行阅读。 • 例如,序列ATTCGATCGCAA (1) ATTCGA TCGCAA (2) A TTCGAT CGCAA (3) AT TCGATCGCAA
• 这三种阅读顺序称为阅读框(reading frames)
基因可变剪切示意图
基因可变剪切示意图
gene A
序列翻译、ORF查找
1. Generunner 2. 在线的ORF finder /gorf/gorf.html
Generunner
功能:
包括内含子、简单重复序列、移动元件、伪基因 重复序列:
卫星(satellite)DNA
小卫星(mini-satellite)DNA 微卫星(micro-satellite)
顺式调控元件:
启动子、增强子、沉默子
关于生物复杂性:
生物的复杂性不仅仅是基因的数目 人类基因约为30000个 线虫有20000个基因
序列编辑与类似序列查找、建立自己 的序列数据库进行查找、序列比较、序列 翻译、蛋白序列分析等,还包括 DNA 分析 常用到的一些功能,如碱基百分组成、分 子量计算等。
ORF finder
/gorf/gorf.html 输入序列
在Enter GI or ACCESSION 后面的框中输入公共序列
(2)Genbank格式(GenBank flatfile,GBFF) 最广泛地用于表示生物序列的格式之一,也 是 DDBJ/EMBL/GenBank交换数据时采用的格式。 例如:
LOCUS AB094638_1 38 a 146 bp 17 c 43 g DNA 48 t 13-APR-2006 0 others BASE COUNT ORIGIN 1 gttttaatgt gttgccttgg ttgagtggtg aagctggtta gggtagcgtg taaaacatgg 61 tgggtagatt aatgctttgt gtcaccatgc cgtttggttc gattaatgta atcataagga 121 gagaccataa gttatgaata cgcaga
– 通过对密码子的聚类分析,可以很清晰地将具有不同 三级结构蛋白质的编码基因分成不同的类,而具有相 似三级结构蛋白的编码基因则大致聚在同一类中,从 而证明基因密码子的使用偏性与蛋白质三级结构具有 密切的相关性。
• 在不同物种中,类型相同的基因具有相近的同义 密码子使用偏性
– 对于同一类型的基因由物种引起的同义密码子使用偏 性的差异较小
格式转换软件可以将不同格式数据转换以方便使
用。很多综合性软件可以进行序列格式转换,如
DNAstar,seqverter等。
常见序列格式:
(1)FASTA格式(又称Pearson格式) 是比较简单而使用最多的序列格式。序列 以 ">" 号开头,其后是单行的关于序列的描述信 息,最后是序列。例子:
>10KD_VIGUN P18646 vigna unguiculata 10 kda protein precursor MEKKSIAGLCFLFLVLFVAQEVVVQSEAKTCENLVDTY RGPCFTTGSCDDHCKNKEHLLS
3. 功能位点分析
• 功能位点(functional site)
– 与特定功能相关的位点,是生物分子序列上的一个功能 单元,或者是生物分子序列上一个较短的片段。
• 功能位点又称为功能序列(functional sequence)、 序列模式(motif)、信号(signal)等。 • 核酸序列中的功能位点包括转录因子结合位点、转 录剪切位点、翻译起始位点等。 • 在蛋白质序列分析中,常使用序列模式这个名词, 蛋白质的序列模式往往与蛋白质结构域或者作用部 位有关。
• 在 DNA序列中,除了基因之外,还包含许多其它 信息,这些信息大部分与核酸的结构特征相关联, 通常决定了DNA与蛋白质或者DNA与RNA的相互 作用。 • 存放这些信息的DNA片段称为功能位点 – 如 启 动 子 ( Promoter ) 、 基 因 终 止 序 列 (Terminator sequence)、剪切位点(Splice site)等。
的gi号或ACCESSION号
在or sequence in FASTA format 后面的框中输入完整
的序列
设置序列范围
在 FROM: TO: 后面的框中输入进行 ORF查找的序列范围
Genetic codes 可以选择采用何种遗传编码
按OrfFind 按钮即可执行
五、限制性内切酶分析
三、DNA序列分析
——基因序列 ——基因表达调控信息 寻找基因涉及到两个方面的工作 :
– 识别与基因相关的特殊序列信号 – 预测基因的编码区域 结合两个方面的结果确定基因的位置和结构
基因表达调控信息隐藏在基因的上游区域,在组 成上具有一定的特征,可以通过序列分析识别这 些特征。
1. DNA序列分析步骤
限制性内切酶是在许多细菌体内发现的能识
别和切割外源 DNA 的核酸酶。细菌自身的 DNA
相关主题