当前位置:
文档之家› 生物信息学概论-组学与生物信息学II 共107页
生物信息学概论-组学与生物信息学II 共107页
GA
na
RGeRadRPRWWSSSS_SSSoSlebxSaSqSu_aSlSitSybSSS__b_bP_a_s_s_____ 1 QSEQ
(40bp)
string
QC
Title
(location)
Read
• 1:1:30:19875:4468
(40bp)
CAAAAACAAACAAACAAACAAACAAACCTGAAATCTGAGA
Pfam: /Software/Pfam/
Pfam分为两部分: Pfam-A:涵盖了7459 protein families . Pfam-B:通过计算SwissProt&Trembl的序列
信息自动产生的蛋白功能域信息(ProDoM). 在 Pfam-A中不能找到功能域信息时可以提供辅助 帮助.
详情请参阅:/
7 基因表达丰度分析
用以上拼接得到的基因(有限考虑>=500 bp的基因)做库,用序 列相似性比对的方法求各基因在各样本中的表达丰度。使用软 件bowtie0.12.7,使用single-end的mapping方法,允许一个reads 比对到多个基因上。
• 样本基因序列,分别与SWISS-PROT、CDD、PFAM、NR和TREMBL 库进行比对,取相似度>30%,且e<1e-5的注释,合并基因得到的所有 注释详细信息。
4 基因的COG分类
“COG”是Cluster of Orthologous Groups of proteins(蛋 白相邻类的聚簇)的缩写。构成每个COG的蛋白都是被假定为来自于 一个祖先蛋白,并且因此或者是orthologs或者是paralogs。 Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来 的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs是那 些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来 有关的功能。
dna.affrc.go.jp/PLACE oberon.fvms.ugent.be:8080/PlantCARE/index.html
Saccharomyces cerevisiae /jian/
Gene Expression
UniGene
GEO
Tools in Expasy
Microarray
Signaling
Transcriptomics
Signal Transduction
Small RNA
Network
Immunity
Protein sequence analysis
TF, Motif
Genetic Regulation Network
Protein-DNA interaction
详情请参阅:genome.jp/kegg/
红:差异表达上调的基因; 绿:差异表达下调的基因; 蓝:注释上的基因既有上
调也有下调的基因;
• 6 基因的GO注释
对得到的基因进行GO分类,统计基因在Biological Process, Cellular Component, Molecular Function 三个类别的各GO term。此分析是 基于blast uniprot的结果 ( 即合并与swissprot和trembl的结果 ),利 用得到的uniprot号比对GO term。
LOGO
组学与生物信息学(II)
郝 沛 博士,研究员
中科院上海巴斯德所生物信息平台
基于中心法则的现代分子生物学研究
NCBI…, Organism Particular DB
Cell Cycle, Apoptosis
SNP Genomics
Exon, Promoter, Signal sequence
TransFac
Transcription Regulatory Region
gene-regulation/pub/databases.html#transfac
EPD TRRD Jaspar Zhang Lab DBTSS MIRAGE Bacillus subtilis Drosophila melanogaster E. coli Human PlantProm
详情请参阅:/COG/
• 5 基因的KEGG注释
转录组的KEGG注释主要是对得到的基因注释进行KEGG Pathway分 析,此分析是基于预测得到ORF序列,利用KAAS预测得到对应的KO号 ,然后利用KO号对应到KEGG pathway上, 分析基因与KEGG中酶注 释的关系文件以及映射到pathway的信息。
ProtParam/ProtScale
ProtParam/ProtScale
Number of amino acids Molecular weight Theoretical pI Amino acid composition Extinction coefficients Estimated half-life Instability index Aliphatic index Grand average of hydropathicity
覆盖度较低。
Illumina Seloxa HiSeq 2000
Seloxa从性价比上而言,无疑是目前三种测序技术中最为优秀的。HiSeq 2000 每次运行的通量能达到200-600G,读长为2*100bp。在相近的实验成本的 情况下,其性价比已经超越了SOLiD平台。Solexa测序的数据也不存在如454 平台的连续同类型碱基检测不准确的问题,其准确度堪比SOLiD平台。
Hale Waihona Puke Prosite: /prosite/
Prosite: /prosite/
通过观察序列相似性加以功能信息、结构信息而 确定的蛋白功能域和蛋白家族。基于进化中蛋白 维持蛋白功能的区域相对保守,而这些区域对保 持蛋白三级结构至关重要。
+
(3313884444444C444444C444CC
Sanger quality string
FASTA Q
无参考基因组
1 Reads质量预处理
质量预处理步骤: 1) 滑动窗口法去除低质量片段:质量阈值20(错误率=1%),窗口大 小5 bp,长度阈值35 bp 2) 切除reads中含N部分序列:长度阈值35 bp
• 选择拼接后长度大于等于500 bp的unigene作为样本的gene与公共数 据gene进行比较,通过gene的同源性进行功能注释。
• 注释到NR、SWISS-PROT、CDD、PFAM、TREMBL库的基因分别有 59.77%、52.06%、48.37%、56.63%、60.84%,例如:
• 基因相似比对主要使用BLAST算法。BLAST,全称Basic Local Alignment Search Tool,即“基于局部比对算法的搜索工具”,由 Altschul等人于1990年发布。Blast能够实现比较两段核酸或者蛋白序 列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列 并对比对区域进行打分以确定同源性的高低。
(GRAVY)
Pfam: /Software/Pfam/
Pfam: /Software/Pfam/
Pfam收集了通过隐马可夫模型计算大量蛋白序列 比对发现的通用的蛋白功能域和蛋白家族.在 Pfam中可以得到关于蛋白家族的以下信息:
多蛋白排列信息 蛋白功能域的结构 检测物种分布 链接到其他数据库 看已知蛋白的结构
基因表达量通过RPKM(Reads Per Kilobase of exon model per Million mapped reads)值来衡量,RPKM值的计算方法如下:
8 差异表达基因分析
根据各样本基因的表达丰度值(RPKM)做基因的差异表达分析,包括 :fold change分析,fisher检验,chisq检验等差异表达分析。
of evolutionary.
第二部分 功能基因组学
深度测序数据分析流程
基础分析项
高级分析项
Roche公司的454测序仪
454最大的有点在于读长,能达到400-500bp的长度。但是相对的,454的通量 较低,每次能产出的数据量不高,成本比较高。
在RNA-Seq的领域,454主要用于检测未知基因组的转录组测序。 454的准确率和通量的限制,使得454的对大型转录组中低丰度基因的表达检测的
Plant
epd.isb-sib.ch/ wwwmgs.bionet.nsc.ru/mgs/gnw/trrd jaspar.cgb.ki.se/cgi-bin/jaspar_db.pl /software/index1.htm dbtss.hgc.jp/index.html / dbtbs.hgc.jp/ /labs/Kadonaga/DCPD.html /ecoli_matrices/ /~mfrith/HPD.html softberry/berry.phtml?topic=plantprom&group=data&subgroup=pla ntprom
故此,我们认为最适用于绝大部分RNA-Seq测序分析的实验技术是Seloxa平台。
Sequence format
Machin Ru
e
n
Lan e
Tile
Spot -x
Spot -y
Singleread
unknown 1 1 30 19875 4468 0 1
CAAAAACAAACAAACAAACAAACAAACCTGAAATCTGAIllumi
Alternative Splicing
Protein-Protein Interaction
Proteomics
Mass Spectrum