当前位置:文档之家› 基因组序列注释的方法.

基因组序列注释的方法.


特定生物体的基因中并不是所有密码子的使用 频率都是平等的。 如Leu的密码子有6个(TTA、TTG、CTT、CTC、 CTA、CTG),在人类基因中,绝大多数Leu都是由 CTG编码的,而且几乎不由CTA和TTA编码。 特定种属有特征性的密码子偏爱,这些序列在 编码区常常出现,非编码区只保持平均的碱基分 布水平。
谢谢!
吉姆工程成果 吉姆工程耗时两年复查6次,通过 所提取的沃森血样,454生命科学公司 在两年时间里逐个识别沃森基因的30 亿个碱基对,并用67天时间为这些碱 基对排序,从而绘制了沃森的基因组 图谱。
吉姆工程的意义
个人基因组图谱隐藏的遗传信息好似“生命 密码”,如果破译,可以自人们出生之日起就采 取相应对策,减少患上特定疾病的风险,防患于 未然。 沃森举例说,如果一个孩子的基因组图谱显 示,这个孩子患上糖尿病的风险较高,那么就应 该严格控制这个孩子的体重。这样一来,在这个 孩子学会走路之前,他患上糖尿病的风险已经大 大降低。还有不少科学家认为,绘制出个人基因 组图谱,意义不仅在于降低患病风险,还可以铲 除疾病根源。
OR
通过物种已建立的遗传图和物理图来 确定基因的位置
三、基因组序列注释的应用
1、Jim工程
吉姆工程是美国454生命 科学公司(基因技术公司)在 2005年前给“DNA之父”称誉 的美国科学家詹姆斯·沃森绘 制完整的个人基因组图谱的工 作,美国这家基因技术公司将 相关工作所以命名为“吉姆工 程”是因为沃森名字“詹姆斯” 昵称“吉姆”。“DNA之父” 沃森的个人基因组图谱于2007 年05月31日首次向全世界公开, 成为世界首份个人基因组图谱; 将来普通人只需1000美元就可 掌握自己的“生命天书”。
(2)ATG的5’端约15bp范围的侧翼序列内不含碱基T;
(3)在-3,-6和-9位置,G是偏好碱基; (4)除-3,-6和-9位,在整个侧翼序列区,C是偏好 碱基
2)终止密码子 :
终止密码子: TAA, TAG,TGA GC% = 50% 终止密码子每 64 bp出现一次; GC% > 50% 终止密码子每100-200 bp 出现一 次;
ENCODE计划成果
4年来,通过建立一个目录,详尽地描述1% 人类基因组的全部生理功能基础。该结果 高度肯定了鉴定和归类人类基因组功能元 件的工程的成功,并且由于几项新技术的 兴起,大量关于功能元件的数据被获得, 这标志着技术发展阶段也获得了成功。
ENCODE计划的意义 ENCODE计划首次系统地研究了所有 类型的功能元件的位点和组织方式, 对基因组计划的实际应用具有划时代 的意义,为未来进一步认识整个人类 基因组的功能蓝图开辟了道路。
c、上游调控顺序
几乎所有基因(或操纵子)上游都有调控 序列,它们与DNA结合蛋白作用,控制基因 表达,通过同源性比较来预测mRNA的5’端, 最常用的与转录起始位点相关的数据库是 真核启动子数据库 (The TRADAT Project , Eukaryotic Promoter Database, EPD. http://www.epd.unil.ch/ )。 另外个别基因组特有组成也可作为判别依 据,如脊椎动物基因组许多基因的上游都 有大约1kb长的CpG岛。
由于多数基因ORF均多于50个密码子,因此最可能 的选择应该是ORF选择不少于100个密码子。
细菌基因组的ORF阅读相对比较简单,错误的概率较少, 但单纯的ORF扫描对高等真核生物DNA效果不佳。
内含子使ORF扫描复杂化
对ORF扫描的基本程序的编写要 考虑以下几个问题:
a、密码子偏倚
编码同一氨基酸的不同密码子称为同义密码, 其差别仅在密码子的第3位碱基不同。
2、ENCODE计划
The Encyclopedia of DNA Elements Project :即 “DNA元件百科全书计划”,简称ENCODE计划。2003年9月 由美国国立人类基因组研究所(National Human Genome Research Institute)组织的又一个重大的国际合作计划。 其目的是解码基因组的蓝图,鉴定人类基因组中包括基因、 启动子、增强子、抑制子/沉默子、内含子等已知的和还 不知功能的多个物种的保守序列等在内的所有功能元件。 ENCODE计划中提出的每一类元件都是已经被发现过的,所 不同的是现在要在全基因组的范围内进行系统的研究。
b、外显子-内含子边界
外显子和内含子的边界有一些明显的特征如:

内含子的5’端常见的顺序为 5’-AG↓GTTAAGT-3’;

3’端多为5‘PyPyPyPyPyPyCAG3’(“Py”嘧啶核苷酸,T或C);
上游外显子 -内含子边 界的共有序 列在真正基 因中发现的 真实序列之 间的关系。
运用外显子-内含子边界特殊 序列的方法来注释基因的成功率不 高。

这些结果均可作为基因判定的指标,可单独用, 也可综合用。
基因注释软件
1)目前基因注释程序的编写主要依据两种信息内涵: 1.signal terms ( 信号指令 ), 如起始密码 , 终止密码 , 终止信号,多聚嘧啶顺序,分支点等保守的顺序组成; 2.content terms (内容指令), 如密码子使用偏好. 对结构紧凑的小基因组上述注释软件效果不错,但对大基因 组特别是超长基因的注释有很大困难 . 在一个长度数十或 数百kb的内含子中, 存在许多可能误判的信号指令. 2)常用的注释软如GenScan主要偏重于内容指令, 而FgeneSH 则着重于信号指令 . 由于每种生物都有种属专一性的密码 子偏好 , 也存在某些非保守的信号指令 , 因此在超长基因 注释中常出现正向错误(false-positive, 多注释)或负向 错误(false-negetive, 少注释).
2、同源查询
利用已存入数据库中的 基因序列与待查基因组序列 进行比较,从中查找可与之 匹配的碱基序列及相同; B. 开放阅读框排列类似; C. 开放阅读框翻译成的氨基酸序列的相同; D. 模拟多肽高级结构相似。
一般认为,氨基酸序列的相似性在25%以上可视 为同源基因。
引自: Nature reviews genetics, 4:741-749,2003.
3、通过实验确认基因
a、确认基因的存在: 通过Northern杂交确定DNA片段是表达 序列; 由EST或cDNA指认基因。EST和cDNA是 基因转录加工后的产物,可以确切无疑的 代表相应基因成员的存在。
b、确定基因的位置: 获取基因全长cDNA序列。 根据已知片段设计引物,通过RACE技 术得到基因的全长cDNA序列; 确定DNA顺序中基因的位置。 通过对全长cDNA序列的测序,并与基 因组DNA的比较,确定基因所在的区域;
基因组序列注释的方法
一、基因组序列注释
以基因组序列为基础,确定全基因 序列中基因的确切位置
二、注释的方法
1、根据开放阅读框(ORF)预测
1)起始密码子ATG: 第一个ATG的确定依据Kozak规则,所谓 Kozak规则,即第一个ATG侧翼序列的碱基 分布所满足的统计规律:
若将第一个ATG中的碱基A,T,G分别标为1,2, 3位,则Kozak规则可描述如下: (1)第4位的偏好碱基为G;
相关主题