当前位置:文档之家› 基因注释与功能分类

基因注释与功能分类


miRanda算法的基本步骤
➢ 对miRNA和mRNA的3′UTR序列进行碱基互补分析; ➢ miRanda采用一种类似于Smith-Waterman的算法来构建
打分矩阵; ➢ miRNA与靶基因形成二聚体的热力学稳定性, miRanda
利 用 Vienna 软 件 包 中 的 RNAlib 计 算 miRNA 与 mRNA 3′UTR结合的自由能; ➢ miRanda要求靶点在多物种间保守,即靶点在多物种 3′UTR序列比对中相同位置具有相同的碱基。
microRNA数据库
➢ MicroRNA(miRNA)是一类内生的、长度约2024个核苷酸的小RNA,是发夹结构的约70-90个碱 基大小的单链RNA前体经过Dicer酶加工后生成。 其在细胞内具有多种重要的调节作用。
microRNA 特点
• 序列特点
– miRNA本身不具有开放阅读框ORF,不编码蛋白质 – 成熟的miRNA 5′ 端为单一磷酸基团,3′端为羟基
涵盖了基因的细胞组分(cellular component)、分子功能 (molecular function)、生物学过程(biological process)。
GO数据库最初收录的基因信息来源于3个模式生物数据库: 果蝇、酵母和小鼠,随后相继收录了更多的数据,其中包 括国际上主要的植物、动物和微生物基因组数据库。
• 保守型特点
– 在物种间高度
miRNA的作用机制
• 抑制或降解 – 取决于miRNA与靶mRNA种子区域的互补程度 • 种子区域 – 通常指miRNA 5′端第二位到第八位的核苷酸序列 – 两者完全互补 • 降解 – 两者不完全互补 • 抑制翻译
miRNA靶基因预测遵循的原则和基本步骤
遵循的原则 • miRNA的“种子区”与mRNA的3′UTR序列碱基互补 • 靶点在多物种间的序列保守性 • miRNA与mRNA形成双链结构的热力学稳定性 • 靶基因二级结构和靶点外的序列对靶基因预测的影响
注释系统中每个结点 (node)都是基因或 蛋白的一种功能描述, 结点之间保持严格的 关系,即“is a”或 “part of”。
练习操作:
➢ 浏览GO网站,了解该数据库的功能模块。 ➢ 利用GO,从分子功能、生物学功能和亚细胞位置三
个方面对KCNA5进行功能注释。
京都基因与基因组百科全书
如果有miRNA基因 簇,这里会给出簇 成员与基因组位置 及编码链的方向
其他数据库中的这 个基因
所属的基因家族
对5’成熟序列的描述 深度测序证据与其 他实验证据
几种靶位点预测软 件预测结果
对3’成熟序列的描述
参考文献
miRTarBase数据库
– 目前使用广泛的存储真实miRNA与靶基因间关 系的数据库
基因注释与功能分类
Gene Annotation And Functional Classification
基因本体(gene ontology, GO)数据库
GO(gene ontology)是基因本体联合会(Gene Ontology Consortium)所建立的数据库。
目的是建立一个适用于各种物种的,利用标准化的词汇对基 因和蛋白质功能进行限定和描述。
➢ RNAhybrid没有考虑靶基因的物种间保守性,允许用户自 己定义自由能的阈值、P 值,也允许用户自己设置 miRNA“种子区”的位置和长度以及是否允许出现G-U错 配等。
选miRNA来源物种
针对不同
物种基因 的3 ‘UTR进
行预测
只要输入了mRNA,就只显 示mRNA预测结果;若仅输 入miRNA,则给出所有可 能被该miRNA靶向的mRNA
人, 果蝇, 斑马鱼
序列匹配, 双链结合自由能, 物种间保 守性
/mmu_6 0/
人, 小鼠, 大鼠, 狗, 鸡 黑猩猩,恒 河猴,牛,负鼠 蛙
提出“miRNA种子区”的概念
http://pictar.mdc-berlin.de/
脊椎动物
区分“完全匹配种子区”与“不完全匹 配种子区”
➢ 京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes, KEGG)是系统分析基因功能、基因组信息的 数据库,它整合了基因组学、生物化学等信息,有助于研 究者把基因及表达信息作为一个整体网络进行研究。
➢ KEGG提供的整合代谢途径查询十分出色,包含全部完整的 基因组序列和部分测序的基因组序列,并伴有实时更新的 基因相关功能注释。
➢ KEGG DISEASE是一个存储疾病基因、通路、药物、以及疾病诊断标 记等信息的新型数据库。
www.genome.jp/kegg/
kcnq1 hsa
练习操作:
➢ 浏览KEGG网站,了解KEGG各模块功能。 ➢ 利用KEGG,查看P53参与的代谢通路。
批量的注释?
• DAVID (/) • DAVID 2008 Functional Annotation
– 网址: .tw/ – 数据库以Excel文件形式存储,可供用户下载本
地化使用。
microRNA 靶位点预测方法原理
miRNA靶基因预测方 法
网址
检索范围
算法特点
miRanda TargetScan
PicTar
/microrn a/home.do
基本步骤
在3′UTR上探寻和miRNA“种子区”完全互补的序列; 计算miRNA和这些序列结合产生的自由能下降值,对靶点进
行筛选; 对靶点进行物种间序列比对,利用物种保守性进一步筛选。
帮助
提交
版本号及 更新时间
命名规则 参考文献
根据序列相 似性命名
根据时间 先后命名
根据成熟序列在前体序列上的 位置与生物体中的稳定存在量
命名 例外
参考文献
开始检索
输入关键词进行快速检索,如miR-302、302、 mmu-mir-302,注意这里的检索词必须是整个 名字的一部分,如果检索mmu-302,是无法找
到任何结果的
通过miRNA名称 进行检索
通过miRNA基因组 定位进行检索
检索特定物种中 的miRNA基因簇
检索特定物种中特定组织 细胞中表达的miRNA
GO术语在多个合作数据库中的统一使用,促进了各类数据库 对基因功能描述的一致性。
➢ GO 通过控制注释词汇的层次 结构使得研究人员能够从不 同层面查询和使用基因注释 信息。
➢ 从整体上来看GO注释系统是 一个有向无环图(Directed Acyclic Graphs),包含三个分 支,即:生物学过程,分子 功能和细胞组分。
RNAhybrid算法
➢ RNAhybrid考虑了靶基因结合自由能对预测结果的影响。 该算法利用动态规划算法寻找一条短链RNA(miRNA) 和一条长链RNA(mRNA 3′UTR)杂交时的最优自由能鉴 别miRNA的靶点。
➢ 与其他的RNA二级结构预测软件mfold、RNAfold等相比, RNAhybrid除了具有明显的速度优势外,RNAhybrid算法 还禁止miRNA 分子间和靶基因间杂交产生二聚体。
• 表达特点
– miRNA具有时序性以及组织特异性 • 在特定的时间,组织中才会表达
• 调控特点
– miRNA与其靶基因间是多对多的关系 • 一个miRNA可能调控多个靶基因 • 一个基因也可能受多个miRNA调控
• 物理位置特点
– miRNA倾向于成簇出现在染色体上 – 通常定义50kb的距离为一簇
KEGG存储内容
• KEGG目前共包含了19个子数据库,它们被分类成系统信 息、基因组信息和化学信息四个类别 。
➢ 基因组信息存储在GENES数据库里,包括全部完整的基因组序列和部 分测序的基因组序列,并伴有实时更新的基因相关功能的注释。
➢ KEGG中化学信息数据库被称为KEGG LIGAND数据库,包含化学物 质、酶分子、酶化反应等信息。
➢ KEGG BRITE数据库是一个包含多个生物学对象的基于功能进行等级 划分的本体论数据库,它包括分子、细胞、物种、疾病、药物、以及 它们之间的关系。
➢ 一些小的通路模块被存储在MODULE数据库中,该数据库还存储了其 他的一些相关功能的模块以及化合物信息。
➢ KEGG DRUG数据库存储了目前在日本所有非处方药和美国的大部分 处方药品。
miRDB
/miRDB/
人,小鼠,大鼠,狗, 鸡
利用支持向量机分析已证实的 miRNA:mRNA相互作用而预测新的 靶位点
miRanda
• 第一个利用生物信息学方法开发的基于序列的 miRNA靶基因预测算法
/microrna/home.do
通过输入序 列进行blast 比对,检索
miRNA
有4个茎环结构和 8个成熟序列的名
字符合检索词
茎环结构 前体序列
成熟序列
题名表示这是一条前 体序列的记录
miRBase序列号与名字
茎环结构 序列
点此获得茎环结构的 FASTA格式序列
基因组上的位置
高通量测序结果 揭示成熟序列位
置与丰度
与其他基因的关系
输入靶基因
输入想要研究的 miRNA,例如let-7a
几个不同的 isoforms

3‘UTR
下 拉
一个保守的miR家族在 这个位置靶向这个 mRNA
不同物 种中该 靶位点 的保守

各项分值可点击观看解释 该家族各成员与mRNA配对情况及分值
所有可能的靶基因
点击看详情
ቤተ መጻሕፍቲ ባይዱ
Let-7的靶位点
练习操作:
• 利用Targetscan方法预测调控KCNA5的 microRNAs。
• 利用miRBase查看microRNA-26b的信息。
相关主题