基因表达分析1、EST(Expressed Sequence Tag)表达序列标签(EST)分析1、EST基本介绍1、定义:EST是从已建好的cDNA库中随机取出一个克隆,进行5’端或3’端进行一轮单向自动测序,获得短的cDNA部分序列,代表一个完整基因的一小部分,在数据库中其长度一般从20到7000bp不等,平均长度为400bp。
EST来源于一定环境下一个组织总mRNA所构建的cDNA文库,因此,EST也能说明该组织中各基因的表达水平。
2、技术路线:首先从样品组织中提取mRNA,在逆转录酶的作用下用oligo(dT)作为引物进行RT-PCR 合成cDNA,再选择合适的载体构建cDNA文库,对各菌株加以整理,将每一个菌株的插入片段根据载体多克隆位点设计引物进行两端一次性自动化测序,这就是EST序列的产生过程。
3、EST数据的优点和缺点:(1)相对于大规模基因组测序而言,EST测序更加快速和廉价。
(2)EST数据单向测序,质量比较低,经常出现相位的偏差。
(3)EST只是基因的一部分,而且序列里有载体序列。
(4)EST数据具有冗余性。
(5)EST数据具有组织和不同时期特异性。
4、EST数据的应用EST作为表达基因所在区域的分子标签因编码DNA序列高度保守而具有自身的特殊性质,与来自非表达序列的标记(如AFLP、RAPD、SSR等)相比,更可能穿越家系与种的限制。
因此,EST标记在亲缘关系较远的物种间比较基因组连锁图和比较质量性状信息是特别有用的。
同样,对于一个DNA序列缺乏的目标物种,来源于其他物种的EST也能用于该物种有益基因的遗传作图,加速物种间相关信息的迅速转化。
具体说,EST的作用表现在:(1)用于构建基因组的遗传图谱与物理图谱;(2)作为探针用于放射性杂交;(3)用于定位克隆;(4)借以寻找新的基因;(5)作为分子标记;(6)用于研究生物群体多态性;(7)用于研究基因的功能;(8)有助于药物的开发、品种的改良;(9)促进基因芯片的发展等方面。
研究物种的转录组,基因组上转录表达的部分;发现基因,一是可以为研究基因结构提供exon/intron边界,二是提供基因组上可能基因区域;研究可变剪切;研究基因的表达谱;可以为制做物理图谱提供序列,为芯片提供clone数据。
正是因为EST表现出了这些巨大潜能,使其得到了充分的利用与发展。
5、常用的EST数据库(1)NCBI dbEST网址:/dbEST/index.html数据量:表7-1为NCBI dbEST截至2006年8月22日的数据情况,数据库里一共有38,056,628条EST。
(2)NCBI Unigene网址:/entrez/query.fcgi?db=unigene介绍:Unigene把dbEST的数据利用一些常规的基因数据聚在一起。
对于一个cluster而言,提供了许多相关信息。
Unigene经常重新构建,所以cluster标识不识固定的。
(3)The TIGR Gene IndicesThe Gene Indices 更多的基于拼接(Assembly)得到的congtigs序列,而不是聚类的结果The Gene Indices 的基因索引比NCBI Unigene多。
TIGR包括EGAD(The Expressed Gene Anatomy Database),EGAD的索引被包括在Human Gene Indices(4)其他的一些常用数据库SANBI,南非,收集人的EST contigsMIPS,慕尼黑,SBI收集.Unigene的BIAST可搜集conligTIGEM,意大利,EST搜索及组装工具,包括本地及远程的CBIL,宾西法尼亚州大学,DOTS组装数据库2、EST 分析流程介绍图7-2 EST分析流程图(1)测序EST数据可以从5’和3’两个方向进行测序,可以根据不同的实验目的选择测序方向图7-3 测序方向的选择不同方向测序的优点:5’端测序:更有利于得到全长的cDNA序列,有助于研究基因表达的多样性。
3’短测序:有助于得到基因的特异性区域,为STS、SAGE、Microarray提供序列资源。
(2)EST数据预处理过程①Basecalling将序列的峰图从测序仪中提取出来。
常见的峰图文件有SCF和ABI格式,可以在Windows用Chromas下打开。
图7-4 Chromas在Windows下打开峰图文件②将峰图文件转化成phd、fasta文件,并去除序列中的低质量区域。
A、峰图文件转化成phd文件,并去除序列中的低质量区域。
软件:phred基本用法:phred –id峰图文件夹–pd输出的phd文件夹–trim_phd –trim_alt “”–trim_cutoff 0.05参数说明:–trim_phd:将峰图文件转化成phd文件–trim_alt:清理序列,去除低质量的区域,用–trim_cutoff的标准。
如果从特定的酶切为点开始处理序列,可应用参数-trim_alt酶的序列,如果从头开始处理,用参数-trim_alt “”–trim_cutoff:去除低质量发生错误的几率,默认是0.05,意思是允许100个碱基里有5可能错误。
测序的质个量的评估公式:Q = -10 log10 (P)公式中的Q代表了碱基的测序质量值,P代表了每个碱基出错的概率。
例如:如果每100个碱基有一个错误,那么P=0.01,这样Q就为20(我们通常说的Q20标准);如果P=0.001,Q就为30(Q30)。
注意:当P为错误阈值(cutoff,默认为0.05)时,Q近似为13,所以13就可用作背景来估计总体的质量值。
PHD文件格式介绍:BEGIN_SEQUENCE <sequence_name>BEGIN_COMMENT[信息注释]END_COMMENTBEGIN_DNA[峰图序列格式是:碱基、质量值、在峰图上的位置]END_DNAEND_SEQUENCE例子:BEGIN_SEQUENCE BGI.scfBEGIN_COMMENTCHROMAT_FILE: BGI.scfABI_THUMBPRINT: 0PHRED_VERSION: 0.000925.dCALL_METHOD: phredQUALITY_LEVELS: 99TIME: Wed Dec 20 07:00:52 2006TRACE_ARRAY_MIN_INDEX: 0TRACE_ARRAY_MAX_INDEX: 11108TRIM: 0 630 -1.00CHEM: unknownDYE: unknownEND_COMMENTBEGIN_DNAt 15 750g 19 766c 25 782a 18 793g 18 804g 17 819.........a 32 10595t 32 10611g 32 10635g 32 10651t 24 10669c 15 10689a 12 10707t 12 10722a 12 10751c 14 10771c 9 10785t 19 10801g 20 10824t 15 10838t 14 10854t 14 10878c 21 10891c 24 10913t 20 10933g 22 10952END_DNAEND_SEQUENCEB、将phd 文件转化成fasta 文件。
软件:phd2fatsa基本用法:phred–id phd:文件夹–os:输出的fasta文件–oq:输出的质量文件③屏蔽序列中的载体序列软件:crossmatch基本用法:cross_match 序列文件载体序列–screen >screen.out④去除嵌合(chimeric)的克隆序列软件:perl Chimeric_Check.pl–s:序列文件–q:质量文件–ns:新的序列文件–nq:新的质量文件说明:嵌合(chimeric)的克隆是在文库构建过程的反应中产生的,其序列特征表现为,序列的中间有很长的polyA序列,或载体序列,其形式如下:>Back-to-back poly(A)+ tails AAAGCTGGAGCTCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGAATT CGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCT CCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAG GCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGCCACAGTGAAGAA AGGCAAGCCAGAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAGAAGTCGTATCGGC GAAAAGATGGCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAA GGATCAGCCATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGG TAGCATTGCCTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTCTCGAGGGGGGGCCCG GTAACCAATTCGCCCTATAGTGAGTCGTATTA>Linker-to-linker in middle of the sequence AAAGCTGGAGCTCACCGCGGTGGCGGCCGCTCTAGAACTAGTGGATCCCCCGGGCTGCAGGAATTCGAATT CGAATTCCGACAATGTCTAAGAGAGGACGTGGTGGGTCATCGGGAGCCAAGTTCCGTATTTCACTGGGTCT CCCAGTGGGAGCGGTCATCAACTGCGCTGACAACACAGGTGCCAAGAACCTGTACATCATATCCGTCAAAG GCATCAAGGGTCGTCTGAACAGGCTCCCTGCCGCTGGTGTGGGCGACATGGTTATGGXXXXXXXXXXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX GCGTGTTTCTTTACTTCGAAGACAATGCAGGGGTCATAGTAAATAACAAAGGAGAAATGAAAGGATCAGCC ATCACAGGACCCGTAGCCAAGGAATGCGCAGACCTGTGGCCCAGGATTGCTTCCAATGCTGGTAGCATTGC CTGAGCGCAAATGTGGCTTGTCGTTTTCAATAAAATACTCAAAGTTTCTCGAGGGGGGGCCCGGTAACCAAT TCGCCCTATAGTGAGTCGTATTA⑤去除序列中的污染序列,如大肠杆菌等软件:blast说明:把EST数据与已知的可能污染序列数据库进行比对,去除污染。