当前位置:文档之家› 转录组测序(RNA-Seq)--杨军

转录组测序(RNA-Seq)--杨军


相关概念
• 高通量测序时,在芯片上的每个反应,会读出一条序列, 是比较短的,叫read,它们是原始数据;有很多reads通 过片段重叠,能够组装成一个更大的片段,称为contig; 多个contigs通过片段重叠,组成一个更长的scaffold;一 个contig被组成出来之后,鉴定发现它是编码蛋白质的基 因,就叫singleton;多个contigs组装成scaffold之后,鉴定 发现它编码蛋白质的基因,叫unigene。 • Unigene是UniqueGene的英文缩写,意为广泛通用的基因 数据库,通过电脑对相同基因座(Locus)的收集整理集合 形成一个非冗余的基因数据库。
• 测序质量控制:Q20% >80
相关概念
• 高通量测序中,每测一个碱基会给出一个相应的质量值, 这个质量值是衡量测序准确度的。Q20与Q30则表示质量 值大于等于20或30的碱基所占百分比。 • Q20值是指的测序过程碱基识别过程中,对所识别的碱基 给出的错误概率。 • 质量值Q20,错误识别概率是1%,即正确率是99%; 质量值Q30,错误识别概率是0.1%,即正确率是99.9%; 质量值Q40,错误识别概率是0.01%,即正确率99.99%; Q“N”0的质量值,就是正确率有N个9的百分比。 • N50 即覆盖50%所有核苷酸的最大Unigene长度或覆盖 50%所有核苷酸的最大序列重叠群长度。
转录本
All transcripts
All mRNAs
Total RNA样品检测
• OD260/280:1.8~2.2; • RNA 28S:18S ≥ 1.0; RIN≥7 ; • 样品总量不低于15ug; • 样品浓度:total RNA浓度不低于400ng/ul。微珠纯化mRNA ������ mRNA片段化处理 ������ 反转录反应合成合成双链cDNA ������ 双链DNA末端修复及3’末端加‘A’ ������ 使用特定的测序接头连接DNA片段两 端 ������ 高保真聚合酶扩增构建成功的测序文 库
相关数据库概念
• NR是NCBI里的非冗余蛋白数据库,即NCBI的blastp程序中的NR数据库 ,我们可 以用自己的query序列,blast搜索这个数据库,得到这些query序列的具有序列相似 性的蛋白序列。 NT:NCBI的blast页面,选择nucleotide blast,数据库选others,也就是(nr/nt). SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维 护。 KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)是 基因组破译方面的数据库。 COG是Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇)的缩写, 即直系同源基因数据库。 COG是对基因产物进行直系同源分类的数据库,每个 COG蛋白都被假定来自祖先蛋白,COG数据库是基于细菌、藻类、真核生物具有 完整基因组的编码蛋白、系统进化关系进行构建的,我们将Unigene和COG数据库 进行比对,预测Unigene可能的功能并对其做功能分类统计,从宏观上认识该物种 的基因功能分布特征。 GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库, 旨在建立一个适用于各种物种的,堆积因和蛋白质功能进行限定和描述的,并能随 着研究不断深入而更新的语言词汇标准. • • • •
3. DNA成簇(Cluster)扩增
4. 高通量测序(Illumina Genome Analyzer IIx) 5. 数据分析 ������ 原始数据读取 ������ 与数据库比对并进行注释 ������ 深层次数据分析
实验流程
标准信息分析流程
生物信息分析
基本信息分析
• 数据量产出:>2Gb per sample • 测序策略:HiSeq2000, PE91 or 101 • 插入片段大小:200 bps
De novo reads组装流程
Unigene GO 分类
Unigene COG 功能分类
基因表达差异分析
N1:total tag Number in sample A
N2:total tag Number in sample B
X :Gene expression level in sample A y :Gene expression level in sample B Reference: Audic S. et al. The significance of digital gene expression profiles. Genome Res. 1997 7(10):986-995
转录组? • 转录组是特定组织或细胞在某一功能状态下所能 转录出来的所有RNA的总和,包括mRNA和非编 码RNA。 • 转录组(transcriptome)广义上指某一生理条件 下,细胞内所有转录产物的集合,包括信使RNA、 核糖体RNA、转运RNA及非编码RNA;狭义上指 所有mRNA的集合。蛋白质是行使细胞功能的主要 承担者,蛋白质组是细胞功能和状态的最直接描 述,转录组成为研究基因表达的主要手段,转录 组是连接基因组遗传信息与生物功能的蛋白质组 的必然纽带,转录水平的调控是目前研究最多的, 也是生物体最重要的调控方式。
转录组测序(RNA-Seq)
Jun Yang
RNA-Seq 的技术背景
• RNA-Seq又称转录组高通量测序(transcriptome sequencing)或称为全转录组鸟枪法测序(Whole Transcriptom Shotgun Sequencing WTSS) • 2005年以来, 以Roche 公司的454 技术、Illumina 公司的Solexa 技术和ABI 公司的SOLiD 技术为标 志的新一代测序技术诞生, 之后HelicosBiosciences 公司又推出单分子测序(Single molecul深度 测序或高通量测序。
环境转录组也可以这样做
有参考基因组序列生物信息分析
• 基因结构优化 • 鉴定基因可变剪接 • 预测新转录本 • SNP 分析
• 基因融合鉴定
有参考基因组序列信息分析流程
无参考基因组生物信息分析
• • • • • • Unigene功能注释 Unigene的GO分类 Unigene代谢通路分析 预测编码蛋白框(CDS) Unigene表达差异分析 Unigene在样品间的差异GO分类和Pathway 富集性分析

相关概念
• 基因的编码区(Coding region),亦称为 “编码序列”(Coding sequence)或 “CDS”(Coding DNA Sequence),是指 mRNA序列中编码蛋白质的那部分序列。 CDS也等同于ORF(open reading frame) 是编码蛋白质的序列,以ATG开始--终止密 码子结束。
Unigene pathway 富集性分析
Pathway富集性分析列表
Thank you!
环境转录组也可以这样做
• 使用RNA-seq手段对实验样本进行转录组分析,关注个体或者组织器 官在不同环境条件下基因表达的动态变化,挖掘生物对逆境适应的分 子机制。 • 方案设计思路建议: • (1)植物个体受到较多环境因素的影响,包括温度、干旱、涝害、 光照、盐碱、污染物、虫害以及病原菌侵染等等,相应采取的应答策 略也较为多样,可以通过激素信号分子和细胞表面受体调控相关基因 的表达。建议设置多个关键处理时间点,研究植物个体短时间内和长 时间内转录组动态变化趋势;揭示同一器官组织在不同环境胁迫下或 不同器官组织在同一环境胁迫下基因的时空表达模式; • (2)动物器官组织样本主要来源畜牧动物、水产动物、昆虫、人以 及模式动物小鼠和线虫,关注点为温度处理、光照处理、污染物处理、 病原菌/虫感染、用药前后特异性表达基因,根据基因表达模式分析 揭示器官组织响应环境胁迫过程的分子机制; • (3)对于微生物样本,主要通过环境转录组分析不同培养环境、次 生代谢产物积累以及毒素产生差异基因表达,解析环境诱导活性物质 生产的分子机理。
相关主题