当前位置:
文档之家› 五基因结构预测与基因表达分析
五基因结构预测与基因表达分析
分析举例:水稻Xa21基因区段DNA序列(U37133) CDS:1-2677 bp处和3521-3921 bp处 Blastx分析结果(检索蛋白质数据库):与 水稻蛋白质序列比较
有些蛋白质序列是推测获得的
Blastn分析结果(检索est other数据库): 与水稻cDNA序列比较 取决于数据库中EST数据的数量和长度 通过“Tree view”查看与U37133序列 同源的其它EST序列
Chapter 5 基因结构预测 与基因表达分析
cDNA序列
翻译
基因组序列
编码区预测
基因结构分析
蛋白质序列
蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测
调控元件分析
选择性剪切 SNP
序列比对 功能注释 KEGG GO 系统发育树
基因预测和基因结构分析
生物信息学中的重要内容之一
TTGACA和TATAAT
核糖体结合位点(转录起始位点后) GGAGG
真核生物
基因结构复杂
已知外显子、内含子-外显子边界、启动子序 列特征
基因预测方法
• 不同方法预测 – 核酸序列出现频率统计法 – 同源比较法 – 隐马尔可夫模型法 – 决策树方法 – 语言学方法 – 神经网络分析法 …… • 训练数据集有针对性 – 原核生物vs.真核生物 – 动物vs.植物
预测编码蛋白质的基因
(一) 基因预测的基本分析内容 排除重复序列
确定开放阅读框(open reading frame, ORF)——内含子/外显子 剪切位点识别;选择性剪切分析 确定基因的调控区——核心启动子/转录因子结合位点/转录启始位 点的识别;转录终止信号的预测; CpG 岛的识别等 ATG TGA
分析举例(1) Softberry()的 Gene Finding工具,分三大类
Gene Finding in Eukaryota
Operon and Gene Finding in Bacteria
Gene Finding in Viruses
不同的基因预测软件分析结果有差异
因此,要综合多个基因预测软件的分析结果
一种分析工具可选择分析基因的不同结构 exon, poly-A, promoter
重复序列
某些分析工具可选择物种模式(matrix)作 为参照比较对象
某些分析工具可用不同的方式呈现分析结果 (文字或图形)
每一大类包括多个分析软件 在Softberry主页选择“Gene Finding in Eukaryota”类中的“FGENESH” 在FGENESH网页粘贴AY364476的DNA序列、选 择物种作为参照
分析结果(文字和图像)
以图像形式 展示
分析举例(2)
GenScan(/GENSCAN.html)用三个物 种模式作为参照
Sim4
Sim4通过cDNA与基因组序列的联配,识 别目标序列中的基因结构(exon/intron)。
http://pbil.univ-lyon1.fr/sim4.php
Spidey
• NCBI开发的在线预测程序
– /spidey
• 基于BLAST和Dot View局部联配的算法
目前最好的基因预测工具预测一个基因组中的所有外显 子的准确率最多达到75%,预测基因结构的准确率< 50%(Rogic S, Ouellette BF, Mackworth AK. Improving gene recognition accuracy by
combining predictions from two gene-finding programs. Bioinformatics 18 (8):1034-1045, 2002)
分析举例(4) Gene Feature Searches () 包括多个基因预测软件
NNPP分析启动子位点
在BCM的分析主页选择“Gene Feature Searches”
在“Gene Feature Searches”网页粘贴AY364476 序列、选择“NNPP/Eukaryotic-eukaryotic promoter prediction”
/tools/genefinder/(Dr. Michael Zhang ) /all.htm /tdb/glimmerm/glmr_form.html /all.htm /generation/
基因预测软件
基因结构分析工具
GENSCAN /GENSCAN.html Web/Linux
GeneMark
Gene Finder FGENESH GlimmerM FgeneSB/ FgeneSV Generation
/genemark/ /GeneMark/
Web Web Web Web Web/Linux Web Web
GeneSplicer MZEF SpliceProximalCheck SplicePredictor
分析mRNA/cDNA的外显子组成
GeneSeqer Spidey PROT_MAP Sim4 BLAT BLAST FASTA /cgi-bin/gs.cgi /spidey /berry.phtml?topic=prot_map&group=pr ograms&subgroup=xmap http://gamay.univ-perp.fr/analyse_seq/sim4 / /~kent/src/unzipped/blat/ ftp:///BLAST/Executables ftp:///pub/fasta/win32_fasta/fasta34t21b5d.zip Web/Linux Web Web Web/Linux Linux Web/Windows/ Linux Web/Windows/ Linux
Web
Web/Linux / Windows Web
目前还没有一个基因预测工具可以完全正确地预测一个 基因组中的所有基因(Mathe C, Sagot MF, Schiex T, Rouze P. Current
methods of gene prediction, their strengths and weaknesses. Nucleic Acids Res. 30 (19):4103-4117, 2002)
对基因组序列的读码框区域进行预测
NNSplice Splice View NetGene2
SPL/SPLM/RNASPL/FSPLICE
/seq_tools/splice.html r.it/~webgene/wwwspliceview.html http://www.cbs.dtu.dk/services/NetGene2/ /all.htm /tdb/GeneSplicer/gene_spl.html /~thanaraj/MZEF-SPC.html /cgi-bin/sp/wrapper.cgi /cgi-bin/sp.cgi
预测工具:
GENSCAN,GENEMARK NetGene2,Splice View
5’ GT….AG 3’
内含子/外显子剪切位点识别
如何分析mRNA/cDNA的外显子组 成?
与相应的基因组序列比对,分析比对片段的分 布位置 预测工具:RNASPL,Spidey,SIM4,BLAT, BLAST,FASTA
Vertebrate Arabidopsis
Maize
在GenScan主页粘贴AY364476的DNA序列、选择 “Arabidopsis”作为参照
分析结果(文字和图像)
分析举例(3)
Repeat-GrailEXP(/grailexp) 分析重复序列 在GrailEXP主页选择参照物种和“Repetive Elements”分析功能、粘贴AY364476的DNA序列 在GrailEXP的分析网页点击“Check results” 分析结果:检测到两处simple repeat(位 于Xa26基因后)
Web
Web/Linux Web
GenomeScan
GeneWise
GRAIL BCM Gene Finder
/Software/Wise2/
/grailexp/ /seq-search/genesearch.html
主要选项/参数
序列在线提交形式:
界面中有两个窗口:
• 上方窗口用于输入基因组序列(直接粘贴序列或用Genbank ID/AC号) • 下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用Genbank ID/AC号)
分析结果
可以选择不同 的预测软件
启动子和转录因 子结合位点 预测软件
GeneBuilder
r.it/~webgene/genebuilder.html
内含子/外显子剪切位点识别
对基因组序列的读码框区域进行预测
内含子5’端供体位点(donor splice site): GT 内含子3’端受体位点(acceptor splice siteExon 1
Exon 2
3’-UTR
(二) 基因预测的基本方法 1. 序列相似性搜索 基因组DNA序列 A. 在6个阅读框中进行翻译并与蛋白质数据库中的序 列进行比较分析(如Blastx) B. 对EST数据库中同一生物的cDNA序列进行比较 分析(如Blastn) 确定基因数目和对应的ORF
Web
Web Web/Linux Linux Web Web
GeneBuilder
FGENESH+ /++
r.it/~webgene/genebuilder.html
/all.htm /genomescan.html
Blastx结果 与cDNA的比对结果