转录组学研究方法
◆ STACK (http://www.sanbi.ac.za/Dbases.html)
EST的应用 1: EST与基因识别
EST已经被广泛的应用于基因识别,因为EST的数目比 GenBank中其它的核苷酸序列多,研究人员更容易在EST库中 搜寻到新的基因(Boguski et al., 1994).
RT-PCR
RT-PCR是将RNA的反 转录(RT)和cDNA的 聚合酶链式扩增(PCR )相结合的技术。首 先经反转录酶的作用 从RNA合成 cDNA,再 以cDNA为模板,扩增 合成目的片段。
3’ RACE
• 以mRNA的 polyA为锚定
5’ RACE
• 原理上比3’RACE要 稍微复杂 • 要点: 逆转录酶 MMLV合成cDNA具 有加尾特性,即在 合成的cDNA链3’加 上3-4个dCTP,而且 当存在帽子结构时 该酶的加尾活性最 高 • 然后以这段polyC为 锚定
完成注释
续 分
无理想匹配
InterproScan
较好匹配
域的注释
析
无理想匹配
New seque工分类
大部分以Adams 95年的文章中的采用分类体系为标准。
【Adams. MD, et al. Initial assessment of human gene diversity and expression patterns based upon 83 million nucleotides of cDNA sequence. Nature. 1995 377(6547 Suppl):3-174 】
◆
两端测序 获得更全面的信息。
基因注释及功能分类
注释:
◆ 序列联配
Blastn, Blastx
◆ 蛋白质功能域搜索(二结构比对) Pfam Interproscan
EST sequences
常 用 的 基 因 注 释 流 程
Nr Blastx
无理想匹配
较好匹配
完成注释
后
较好匹配
Nt Blastn
二、序列测定及数据分析
随机挑取克隆进行5’或3’端测序
序列前处理
聚类和拼接
基因注释及功能分类
后续分析
EST软件平台
EST序列
库/序列的质量检查
测序量监控
全长ORF寻找
发现全长基因
聚类和拼接检查 (借助于基因组信息)
交替剪接检测
EST特有信息
表达量分析
功能分类
研究表达基因概况的主要实验手段 (DNA chip、proteomics的先驱)
转录组学的研交:cDNA芯片(GeneChip,microarr 呈互补的碱基序列的单链 DNA即complementary DNA之缩写。
• 以mRNA为模板,经反转录 酶在体外反转录成cDNA, 与适当的载体(常用噬菌体 或质粒载体)连接后转化受 体菌,则每个细菌含有一段 cDNA,并能繁殖扩增,这 样包含着细胞全部mRNA信 息的cDNA克隆集合称为该 组织细胞的cDNA。◆计算机批量处理
利用标准基因词汇体系Gene Ontology,进行近似的分类(分 子功能、生物学过程、分子组分)。 (/) 基因产物直系同源簇的分析(COG:Cluster of Orthologous Groups of proteins )
Integrated Chips
Ø
整合型芯片
Integrated uF, microarray and detection chips with PCR, fluorescence or e-detection
基因芯片的探针
基因芯片的杂交实验
Year
● 1993年前EST数据收录于GenBank, EBI和DDBJ。 ● 1993年NCBI(National Center of Biotechnology Information)建立了一 个专门的EST数据库dbEST来保存和收集所有的EST数据。 ● 95年中期GenBank 中EST的数目超过了非EST的数目。 ● 现在GenBank中EST的数目已经超过了三千五百万,约占GenBank中 序列数的60%.
转录组学基本研究方法
陈军 chenjun@ 2011.5.10
上堂课内容
• mRNA检测技术
– 核酸杂交技术 – 原位杂交 – 逆转录PCR (Reverse transcription PCR,RT-◆
(/COG/)
表1:家猪脂肪组织的已知基因功能分类
表2:猪脂肪组织与猪胚胎胸腺组织和猪甲状腺组织表达谱的比较
参考文献:1、猪脂肪组织表达序列标签(ESTs)大规模测序及分析 邓亚军等,遗传学报,Vol.31, NO.11, 2004 2、两种家猪心脏组织基因表达谱的分析 曾燕舞等,遗传学报,Vol.31, No.6, 2004
EST的代谢途径分析(KEGG)
http://www.genome.ad.jp/kegg/
后续分析
◆ ◆ ◆ ◆ ◆
比较基因组学分析
基因表达谱分析
新基因研究 基因可变剪切分析 实验验证
►
MicroArray
►
► ►
GeneChip
RT-PCR Northern blotting
EST数据的不足
◆ EST很短,没有给出完整的表达序列; ◆ 低丰度表达基因不易获得; ◆ 由于只是一轮测序结果,出错率达2%-5%; ◆ 有时有外源的mRNA污染或是基因组DNA的污染; ◆ 有时出现镶嵌克隆; ◆ 序列的冗余,导致所需要处理的数据量很大。
基因芯片
不同的生物芯片技术平台
Spotted Microarrays
28S rRNA 18S rRNA
B. WITEK-ZAWADA,2003
原位杂交1
• FISH:Fluorescence In Situ Hybridization
原位杂交3
Moroz LL, 2006
逆转录(Reverse transcription)
• 逆转录酶:依赖于RNA的DNA聚 合酶。这种酶是 1970 年美国科 学家特明 (H. M. Temin) 和巴尔的 摩 (D. Baltimore) 分别于动物致癌 RNA 病毒中发现,他们并因此获 得 1975 年度诺贝尔生理学或医 学奖。
全长 cDNA文 库构建
EST
• 90年代初Craig Venter 提出了EST的概念,并测 定了609条人脑组织的EST,宣布了cDNA大规模 测序的时代的开始 (Adams et al., 1991)。
• EST(Expressed Sequence tags,表达序列标 签 )是从已建好的cDNA库中随机抽取克隆,从5’ 末端或3’末端对插入的cDNA片段进行一轮单向自 动测序,所获得的约60-500bp的一段cDNA序列。
● 在同一物种中搜寻基因家族的新成员(paralogs)。 ● 在不同物种间搜寻功能相同的基因(orthologs)。 ● 已知基因的不同剪切模式的搜寻。【注:不过很难确 定一个新的序列是由于交替剪切产生的或是由于cDNA文 库中污染了基因组DNA序列(Wolfsberg et al., 1997)】
核酸杂交
northern blot
探针制备
• 放射性同位素标记物
α-32P-dCTP 灵敏度达0.01pg
• 非放射性标记物
地高辛 灵敏度达0.1pg DIG-dUTP-----通过酶促反应掺入到DNA/RNA中去 制成探针----杂交----加抗地高辛-酶的复合物— 加底物—显色
探测不同条件下的基因表达变化
SAGE的先驱
测序方向的选择
根据不同的实验目的选择不同的测序方向:
◆
5 ’端
5’上游非翻译区较短且含有较多的调控信息。一般在寻找新基 因或研究基因差异表达时用5’端EST较好,大部分EST计划都是选 用5’端进行测序的,而且从5’端测序有利于将EST拼接成较长的基 因序列。
◆
3 ’端
3’端mRNA有一20-200bp的plyA结构,同时靠近plyA又有特异性 的非编码区,所以从3’端测得EST含有编码的信息较少.但研究也 表明,10%的mRNA3’端有重复序列,这可以作为SSR标记;非编码 区有品种的特异性,可以作为STS标记.
Growth of dbEST 40
Number of ESTs (millions)
35 30 25 20 15 10 5 0
19 93 19 94 19 95 19 96 19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 2 1- 0 05 Ju n06
EST相关数据库
储存EST原始数据的一级数据库
◆ EMBL ◆ GenBank (dbEST) ◆ DDBJ
对EST进行聚类拼接的二级数据库
◆ UniGene (/UniGene) ◆ TIGR Gene Indices (/tdb/tgi/)
● Digital Gene Expression Displayer (DGED)
● cDNA xProfil规模分析基因表达水平
因为EST序列是从某特定组织的cDNA中随机测序而得到,所以可以用利 用未经标GAP 为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计 划(Cancer Genome Anatomy Project , CGAP)构建了很多正常的或容
• Real-time PCR • 转录组学基本研究方法
– 概念 – 基于测序的转录组学的转录组学方法
• 基因芯片 • 生物信息学分析
Real-time PCR 基本原理
• Ct:threshold cycle
SYBR-Green荧光染料标定dsDNA