当前位置:文档之家› 生物信息学-第五章-核苷酸序列分析

生物信息学-第五章-核苷酸序列分析


预测工具:
GENSCAN,GENEMARK NetGene2, Splice View
基因结构分析
内含子/外显子剪切位点识别
如何分析mRNA/cDNA的外显子组成?
RNASPL(软件) 与相应的基因组序列比对,分析比对片段的 分布位置 预测工具:
Spidey,SIM4,BLAT,BLAST,FASTA
FgeneSB
Softberry
细菌
FgeneSV
Generation FGENESH+ GenomeScan
/all.htm
/generation/ /all.htm /genomescan.html
选择性剪接是调控基因表达的重要机制 了解不同物种、细胞、发育阶段、环境压力下基因 的调控表达机制
分析方法: 查询选择性剪切相关的网站 多序列比对
基因结构分析
查询选择性剪切相关的网站
从已知基因的功能推测剪切机制
/asd/index.html http://splicenest.molgen.mpg.de/ /new_alt_exon_db2/
Softberry
ORNL Softberry MIT
病毒
原核 原核 脊椎、拟南芥、玉米
GeneWise
GRAIL
/Wise2/
/grailexp/
EBI
ORNL
人、蠕虫
人、小鼠、拟南芥、果蝇
基因预测
选择物种
可同时输入多条cDNA/mRNA序列与同一条基因组序列进行分析
输入基因组序列 或序列数据库号
判断用于分析的序列间的差异, 并调整比对参数 比对阈值 选择物种
输入mRNA.txt文档中的 6条序列
不受默认内含子长度限制, 默认长度:内部内含子 为35kb, 末端内含子为100kb 输出格式
基因结构分析
预测外显子位置、 可信度等信息
同源 比对 信息
基因预测
GenomeScan输出结果:图形
基因结构分析
基因结构分析
内含子/外显子剪切位点识别
对基因组序列的读码框区域进行预测
内含子5’端供体位点(donor splice site): GT 内含子3’端受体位点(acceptor splice site): AG
CpG岛 转录终止信号 GC含量
转录调控序列 分析
序列组分分析
限制性核酸内切酶位点 密码子偏好性使用
开放读码框的识别
• 开放读码框(open reading frame, ORF) 是一段起始密码子和终止密码子之间的碱基序列 • ORF 是潜在的蛋白质编码区
What does this sequence mean?
核苷酸序列分析
GENSCAN
基因预测
开放读码框
GenomeScan GLIMMER NetGene2 Spidey ProSplicer Spidey EPD Cister CpGPlot Hcpolya genskew NEBcutter CodonW
内含子/外显子剪切位点
基因结构分析
选择性剪切 启动子/转录起始位点
/all.htm /tdb/GeneSplicer/gene_spl.html /cgi-bin/sp.cgi
Web
Web Web/Linux Web
1 输入GI号或Accession,或直接输 NCBI ORF finder 入序列的 fasta 格式
2 结果出现六个图形,这是根据六种不同的 编码方式得到的(包括正反链)。
• 3 拿到氨基酸序列后,你可以直接做blastp, 如果有匹配到,就是正确的ORF区了。另外也 可以用Pfam的方法,在Pfam数据库搜索。
第三章 核苷酸序列分析
基因组功能分析
基因组序列 cDNA序列
翻译
编码区预测
蛋白质序列
蛋白质理化性质 二级结构预测 结构域分析 重要信号位点分析 三级结构预测
基因结构分析
序列比对 功能注释 KEGG GO 系统发育树 Codon bias 选择性剪切 GC Content 转录调控因子 限制性酶切位点
Web/Windows/ Linux
Web/Windows/ Linux
基因结构分析
剪切位点识别:NetGene2
http://www.cbs.dtu.dk/services/NetGene2/
基因结构分析
NetGene2输出结果
供体位点 可信度
受体位点
基因结构分析
mRNA剪切位点识别:Spidey
基因结构分析
选择性剪切数据库:ProSplicer
.tw/
基因名、数据 库号或关键字 查询
序列查询
பைடு நூலகம்
基因结构分析
ProSplicer查询结果
查询NOX1基因:
4.结果表明该ORF编码的蛋白是属于BTB家族。
基因开放阅读框/基因结构分析识别工具
ORF Finder BestORF GENSCAN Gene Finder FGENESH GeneMark GLIMMER /gorf/gorf.html /all.htm /GENSCAN.html /tools/genefinder/ /all.htm /GeneMark/ /genomes/MICROBES/ glimmer_3.cgi /software/glimmer /all.htm NCBI Softberry MIT Zhang lab Softberry GIT Maryland 通用 真核 脊椎、拟南芥、玉米 人、小鼠、拟南芥、酵母 真核 原核 原核
基因结构分析
基因开放阅读框/基因结构分析工具
对基因组序列的读码框区域进行预测
NNSplice /seq_tools/splice.html Web
NetGene2
SPL/SPLM/RNASPL/FSPLICE
http://www.cbs.dtu.dk/services/NetGene2/
可信概率、 得分值
基因预测
GENSCAN输出结果:图形
exon1 exon2 exon3 exon4
exon5
基因预测
ORF识别: GenomeScan
/genomescan.html
提交待分析序列
提交同源蛋白质序列
基因预测
GenomeScan输出结果:文本
/spidey
• NCBI开发的在线预测程序 • 用于mRNA序列同基因组序列比对分析
基因结构分析
Spidey序列提交页面
序列在线提交形式:
界面中有两个窗口:
• 上方窗口用于输入基因组序列(直接粘贴序列或用Genbank ID/AC号) • 下方窗口用于输入cDNA/mRNA序列(直接粘贴序列或用Genbank ID/AC号)
GeneSplicer SplicePredictor
分析mRNA/cDNA的外显子组成
GeneSeqer Spidey Sim4 BLAT BLAST FASTA /cgi-bin/gs.cgi /spidey http://gamay.univ-perp.fr/analyse_seq/sim4 / /~kent/src/unzipped/blat/ ftp:///BLAST/Executables ftp:///pub/fasta/win32_fasta/fasta34t21b5d.zip Web/Linux Web Web/Linux Linux
5’端到3’端 第一位起始: ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC 第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC 第三位起始: GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C
3’端到5’端 第一位起始: GCG GGT ATA AAG CAG ATT GGT CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT 第二位起始: CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT 第三位起始: GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T
如何判断DNA序列的单一基因产物NCBI ORF finder
• 在没有其它信息的前提下,DNA序列可以按 六种框架阅读和翻译(每条链三种,对应 三种不同的起始密码子)。ORF识别包括检 测这六个阅读框架并决定哪一个包含以启 动子和终止子为界限的 DNA序列而其内部不 包含启动子或终止子,符合这些条件的序 列有可能对应一个真正的单一的基因产物。
综合 综合 综合 人 线虫 拟南芥
/tigr-scripts/tgi/splnotes.pl?species=human .tw/ .au/altExtron
/~kent/intronerator/altsplice.html /tdb/e2k1/ath1/altsplicing/splicing_variations.shtml
限 制 酶
目标基因 传统分子生 物学方法 现代生物信 息学方法
重组 基因
BLAST
细胞转化
宿主菌
Gene family Or Protein Family
几分钟的时间
几周的时间 蛋白质分离纯化及性质测定
Function annotation
以Blastx为例:
相关主题