基因转录组的测定及分析
EST数量排名前10的物种
Organism Homo sapiens (human) Mus musculus + domesticus (mouse) Zea mays (maize) Bos taurus (cattle) Arabidopsis thaliana (thale cress) Danio rerio (zebrafish) Glycine max (soybean) Xenopus tropicalis (western clawed frog) Oryza sativa (rice) Ciona intestinalis
● 93年前ESTs数据收录于GenBank, EBI和DDBJ。 ● 1●993年NCBI(National Center of Biotechnology Information)建立了一 个专门的EST数据库dbEST来保存和收集所有的EST数据。 ● 95年中期GenBank 中EST的数目超过了非EST的数目。 ● 现在GenBank中EST的数目已经超过了三千五百万,约占GenBank中 序列数的60%.
基因转录组的测定及分析
胡松年 husn@ 中国科学院北京基因研究所
大规模表达序列标签(EST)测定及分析
1、什么是EST? 2、EST的应用 3、EST序列测定及分析过程
什么是 ESTs ?
ESTs(Expressed Sequence tags )是从已建好的cDNA库中随机取出一个克隆,从 5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp 的一段cDNA序列。
ESTs 8,301,471 4,852,146 2,018,798 1,620,962 1,559,485 1,527,299 1,481,930 1,422,983 1,271,375 1,249,110
截止到2010年3月19日
EST相关数据库
储存EST原始ቤተ መጻሕፍቲ ባይዱ据的一级数据库
◆ EMBL ◆ GenBank (dbEST) ◆ DDBJ
EST的应用 4
ESTs与SNPs
来自不同个体的冗余的ESTs可用于发现基因组中转录区域存 在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现 基因相关的SNPs (Buetow et al., 1999;Garg et al., 1999; Marth et al., 1999; Picoult-Newberg et al., 1999) 。
● 由于没有内含子的存在,因此在cDNA及基因组模板中其 PCR产物的大小相同;
● 与编码区具有很强的保守性不同,3’UTRs序列的保守性 较差,因此很容易将单个基因与编码序列关系非常紧密的相 似基因家族成员分开。 (James Sikela等,1991年)
EST的应用 3
ESTs与基因预测
由于EST的一个基因的 部分序列。使用合适的比对参数,大于90%的已经注释的 基因都能在EST库中检测到(Bailey et al., 1998)。ESTs可以 做为其它基因预测算法的补充,因为它们对预测基因的交 替剪切和3‘ 非翻译区很有效。
● 已知基因的不同剪切模式的搜寻。【注:不过很难确 定一个新的序rg et al., 1997)】
EST的应用 2
ESTs与基因图谱的绘制
EST可以借助于序列标签位点(sequence-tagged sites)用于 基因图谱的构建. STS本身是从人类基因组中随机选择出来的长 度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。 来自mRNA的3’非翻译区的ESTs更适合做为STSs,用于基因图 谱的绘制。其优点主要包括:
基因组转录图谱计划
Number of ESTs (millions)
Growth of dbEST
40 35 30 25 20 15 10 5 0
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2010-5Jun-06 Year
EST的应用 1
ESTs与基因识别
ESTs已经被广泛的应用于基因识别,因为ESTs的数目比 GenBank中其它的核苷酸序列多,研究人员更容易在EST库 中搜寻到新的基因(Boguski et al., 1994).
● 在同一物种中搜寻基因家族的新成员(paralogs)。
● 在不同物种间搜寻功能相同的基因(orthologs)。
大规模EST序列测定的开始
1983年:Costanzo等提出EST概念的雏形 1991年:Adams测定了三种人脑组织共609条EST,宣布
了cDNA大规模测序的时代的开始代 1991年:Okubo等提出大规模cDNA测序的研究战略 1993年:Venter等创立现在的EST技术 1993年:Boguski & Schuler提出以EST为界标的人类
对EST进行聚类拼接的二级数据库
◆ UniGene (/UniGene) ◆ TIGR Gene Indices (/tdb/tgi/) ◆ STACK (http://www.sanbi.ac.za/Dbases.html)
应注意区别真正的SNPs和由于测序错误( ESTs为单向测序 得来,错误率可达2%)而引起的本身不存在的SNPs。解决这一 问题可以通过:
● 提高ESTs分析的准确性。
● 对所发现的SNPs进行实验验证。
EST的应用 5
利用ESTs大规模分析基因表达水平
因