当前位置：文档之家› 转录组测序(RNA-Seq)--杨军

转录组测序(RNA-Seq)--杨军

相关概念
• 高通量测序时，在芯片上的每个反应，会读出一条序列，是比较短的，叫read，它们是原始数据；有很多reads通过片段重叠，能够组装成一个更大的片段，称为contig；多个contigs通过片段重叠，组成一个更长的scaffold；一个contig被组成出来之后，鉴定发现它是编码蛋白质的基因，就叫singleton；多个contigs组装成scaffold之后，鉴定发现它编码蛋白质的基因，叫unigene。 • Unigene是UniqueGene的英文缩写，意为广泛通用的基因数据库，通过电脑对相同基因座(Locus)的收集整理集合形成一个非冗余的基因数据库。
• 测序质量控制：Q20% >80
相关概念
• 高通量测序中，每测一个碱基会给出一个相应的质量值，这个质量值是衡量测序准确度的。Q20与Q30则表示质量值大于等于20或30的碱基所占百分比。 • Q20值是指的测序过程碱基识别过程中，对所识别的碱基给出的错误概率。 • 质量值Q20，错误识别概率是1%，即正确率是99%；质量值Q30，错误识别概率是0.1%，即正确率是99.9%；质量值Q40，错误识别概率是0.01%，即正确率99.99%； Q“N”0的质量值，就是正确率有N个9的百分比。 • N50 即覆盖50%所有核苷酸的最大Unigene长度或覆盖 50%所有核苷酸的最大序列重叠群长度。
转录本
All transcripts
All mRNAs
Total RNA样品检测
• OD260/280:1.8~2.2； • RNA 28S:18S ≥ 1.0; RIN≥7 ； • 样品总量不低于15ug； • 样品浓度：total RNA浓度不低于400ng/ul。微珠纯化mRNA �� mRNA片段化处理 �� 反转录反应合成合成双链cDNA �� 双链DNA末端修复及3’末端加‘A’ �� 使用特定的测序接头连接DNA片段两端 �� 高保真聚合酶扩增构建成功的测序文库
相关数据库概念
• NR是NCBI里的非冗余蛋白数据库，即NCBI的blastp程序中的NR数据库，我们可以用自己的query序列，blast搜索这个数据库，得到这些query序列的具有序列相似性的蛋白序列。 NT：NCBI的blast页面，选择nucleotide blast，数据库选others，也就是（nr/nt）. SWISS-PROT是经过注释的蛋白质序列数据库，由欧洲生物信息学研究所(EBI)维护。 KEGG(Kyoto Encyclopedia of Genes and Genomes，京都基因与基因组百科全书)是基因组破译方面的数据库。 COG是Cluster of Orthologous Groups of proteins（蛋白相邻类的聚簇）的缩写，即直系同源基因数据库。 COG是对基因产物进行直系同源分类的数据库，每个 COG蛋白都被假定来自祖先蛋白，COG数据库是基于细菌、藻类、真核生物具有完整基因组的编码蛋白、系统进化关系进行构建的，我们将Unigene和COG数据库进行比对，预测Unigene可能的功能并对其做功能分类统计，从宏观上认识该物种的基因功能分布特征。 GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库，旨在建立一个适用于各种物种的，堆积因和蛋白质功能进行限定和描述的，并能随着研究不断深入而更新的语言词汇标准． • • • •
3. DNA成簇（Cluster）扩增
4. 高通量测序（Illumina Genome Analyzer IIx） 5. 数据分析 �� 原始数据读取 �� 与数据库比对并进行注释 �� 深层次数据分析
实验流程
标准信息分析流程
生物信息分析
基本信息分析
• 数据量产出：>2Gb per sample • 测序策略：HiSeq2000, PE91 or 101 • 插入片段大小：200 bps
De novo reads组装流程
Unigene GO 分类
Unigene COG 功能分类
基因表达差异分析
N1:total tag Number in sample A
N2:total tag Number in sample B
X :Gene expression level in sample A y :Gene expression level in sample B Reference: Audic S. et al. The significance of digital gene expression profiles. Genome Res. 1997 7(10):986-995
转录组？ • 转录组是特定组织或细胞在某一功能状态下所能转录出来的所有RNA的总和，包括mRNA和非编码RNA。 • 转录组（transcriptome）广义上指某一生理条件下，细胞内所有转录产物的集合，包括信使RNA、核糖体RNA、转运RNA及非编码RNA；狭义上指所有mRNA的集合。蛋白质是行使细胞功能的主要承担者，蛋白质组是细胞功能和状态的最直接描述，转录组成为研究基因表达的主要手段，转录组是连接基因组遗传信息与生物功能的蛋白质组的必然纽带，转录水平的调控是目前研究最多的，也是生物体最重要的调控方式。
转录组测序(RNA-Seq)
Jun Yang
RNA-Seq 的技术背景
• RNA-Seq又称转录组高通量测序(transcriptome sequencing)或称为全转录组鸟枪法测序(Whole Transcriptom Shotgun Sequencing WTSS) • 2005年以来, 以Roche 公司的454 技术、Illumina 公司的Solexa 技术和ABI 公司的SOLiD 技术为标志的新一代测序技术诞生, 之后HelicosBiosciences 公司又推出单分子测序(Single molecul深度测序或高通量测序。
环境转录组也可以这样做
有参考基因组序列生物信息分析
• 基因结构优化 • 鉴定基因可变剪接 • 预测新转录本 • SNP 分析
• 基因融合鉴定
有参考基因组序列信息分析流程
无参考基因组生物信息分析
• • • • • • Unigene功能注释 Unigene的GO分类 Unigene代谢通路分析预测编码蛋白框（CDS） Unigene表达差异分析 Unigene在样品间的差异GO分类和Pathway 富集性分析
•
相关概念
• 基因的编码区(Coding region），亦称为 “编码序列”（Coding sequence）或 “CDS”（Coding DNA Sequence），是指 mRNA序列中编码蛋白质的那部分序列。 CDS也等同于ORF（open reading frame）是编码蛋白质的序列，以ATG开始--终止密码子结束。
Unigene pathway 富集性分析
Pathway富集性分析列表
Thank you！
环境转录组也可以这样做
• 使用RNA-seq手段对实验样本进行转录组分析，关注个体或者组织器官在不同环境条件下基因表达的动态变化，挖掘生物对逆境适应的分子机制。 • 方案设计思路建议： • （1）植物个体受到较多环境因素的影响，包括温度、干旱、涝害、光照、盐碱、污染物、虫害以及病原菌侵染等等,相应采取的应答策略也较为多样，可以通过激素信号分子和细胞表面受体调控相关基因的表达。建议设置多个关键处理时间点，研究植物个体短时间内和长时间内转录组动态变化趋势；揭示同一器官组织在不同环境胁迫下或不同器官组织在同一环境胁迫下基因的时空表达模式； • （2）动物器官组织样本主要来源畜牧动物、水产动物、昆虫、人以及模式动物小鼠和线虫，关注点为温度处理、光照处理、污染物处理、病原菌/虫感染、用药前后特异性表达基因，根据基因表达模式分析揭示器官组织响应环境胁迫过程的分子机制； • （3）对于微生物样本，主要通过环境转录组分析不同培养环境、次生代谢产物积累以及毒素产生差异基因表达，解析环境诱导活性物质生产的分子机理。

e商务文档

转录组测序(RNA-Seq)--杨军

相关文档推荐：