生物芯片数据分析简介
生物芯片 技术及分析
一、基因芯片与基因表达 二、基因表达谱统计与分类分析 三、Ontology与基因功能注释 四、基于芯片数据的pathway分析
一、基因芯片与基因表达
什么是生物芯片?
一块指甲大小(1cm3 )的有多聚赖氨酸包被的硅片或其 它固体支持物(如玻璃片、硅片、聚丙烯膜、硝酸纤维 素膜、尼龙膜等 )。 生物芯片通过微加工和微流体系 统将生化分析中的样品制备、生 化反应、及结果检测有机地结合 集成在一起 。 具有高速度、分析自动化、及高 度并行处理能力 。
Subcellular components where a gene-product is found. Encompasses subcellular structures, locations, and macromolecular complexes
GO example
(Browser at /cgi-bin/go.cgi)
cDNA microarray
microRNA Chip
Biological question
Experimental design Microarray experiment
Image analysis
Normalization
Estimation
Testing
Clustering
Discrimination
13,601 Genes
Signal Transduction Ligand Binding or Carrier Motor Protein
GO Analysis—目标基因群显著性、靶向性基因功能分析。 Go Analysis对目标基因(差异基因等)进行GO分类,而后 对GO进行基于离散分布的显著性分析、误判率分析、富集度 分析,得出与实验目的有显著联系的、低误判率的、靶向性 的基因功能分类,该分类即导致样本性状差异的最重要的功 能差别,其所属基因是进一步验证的重要目标基因。 数据要求:标有上调和下调比值的差异基因列表。
Biological verification and interpretation
二、基因表达谱统计与聚类分析
在所有基因芯片中,基因表达谱芯片应用最为广 泛,技术上也最成熟。这种芯片可以检测整个基因组 范围的众多基因在mRNA表达水平的变化,例如来源于 不同个体、不同组织、不同细胞周期、不同发育阶 段、不同分化阶段、不同生理病理、不同刺激条件下 的组织细胞内基因表达情况。从而对基因群在个体特 异性、组织特异性、发育特异性、分化特异性、疾病 特异性、刺激特异性的变化特征和规律进行描述。
Sciபைடு நூலகம்nce 297, 2270 (2002);
三、 Ontology与基因功能注释
什么是GO? GO(gene ontology),生物信息领域中一个极为重要的方法和 工具,通过建立一套具有动态形式的控制字集(controlled vocabulary),来解释真核基因及蛋白在细胞内所扮演的角色,并随 着生命科学研究的进步,不断积累和更新。一个ontology会被一个控 制字集来描述并给予一定的名称,通过制定“本体”ontologies并运用 统计学方法及自然语言处理技术,可以实现知识管理的专家系统控 制。 它的存在大大加快了我们对所拥有的生物数据的整合和利用。可 以说, GO是生物学的统一化工具。
GenePattern
至今聚类分析成功 地解读了大量生物信息 学数据,成为了目前基 因芯片数据分析中使用 最广泛、有效的一类方 法,但它主要基于统计 学的理论而很少利用到 生物领域的知识,这既 使得聚类结果因缺乏领 域内知识的约束而可能 出现不合理性,同时又 失去了利用领域内知识 优化算法的好处。
Molecular Function Ontology:
Fundamental biochemical tasks performed by individual gene products without regard to biological context
Biological Process Ontology
生物芯片的发展
80年代,俄罗斯国家科学院恩格尔分子生物学研究所和美 国阿贡国家实验室开始探索生物芯片技术 1989年,在美国AFFYMETRIX公司诞生了世界上第一块原位 合成基因芯片 1992年,斯坦福大学P.B.Brown实验室发布了世界第一个 微阵列技术 1996年,AFFYMETRIX公司登陆纳斯达克 2004年,全球有超过2000家公司和实验室从事生物芯片相 关研究和产业
Overview of data
聚类分析
芯片数据的聚类包括发掘(diseovery)和归类(classification)。 所谓发掘,就是发现一些未知细胞状态或者疾病的亚型以及 一些能识别这些样本状态的基因,或者说是发现一类功能相 似的基因或者一类有共同调控机制的基因。也称无监督 (unsupervised)的聚类,也常称之为“聚类(cluster)”。 另一种就是基于已有知识,通过训练分类器来辨识与已知细 胞状态或疾病亚型相类似的样本或是与已知共调控基因表达 类型相似的基因,这在芯片分析中常称为有监督(supervised) 的聚类,也常称之为“分类 (classification)”
数 据 数据可视化
图像处理
基因表达谱芯片数据流图
Biology
Bioinformatics
Computer Science
Statistics
核心问题
具有相似表达模式的基因可能具有共同的特征,如共同的调节 元件,共有的生物功能,或者共同的细胞起源等等。 芯片数据分析的核心问题是如何鉴定基因的共同表达模式,并 把基因按共同表达模式分成不同的种类以提供对其生物功 能,基因调控途径和调控网络等方面的深入了解。
Drosophila基因的GO分析 Functional Assignment using Gene Ontology
Nucleic Acid Binding 8% Hypothetical 11% Enzyme 18% Signal Transduction 4% Transporter 4% Structural Protein 2% Unknown 48% Ligand Binding or Carrier 2% Motor Protein 1% Nucleic Acid Binding Transporter Cell Adhesion Unknown Enzyme Structural Protein Chaperone Hypothetical Chaperone 1% Cell Adhesion 1%
聚类分析
以基因作为输入样本,根据实验条件作为特征进行分 类,或者以实验条件作为样本,根据基因作为特征进行 分类。最终将具有相同表达模式的的基因归为一类,这 些基因具有相似的生物功能、相似的细胞起源或者相似 的调节作用。这样可以补充和推导未知基因的功能注 释,了解基因之间的调控关系,进一步了解基因功能。 同时基因表达数据的聚类分析可以判别细胞所处状态或 组织类型,对临床医学的诊断治疗都具有实际意义。
目前运用在芯片数据分析中应用最多的是 层级聚类方法(hierarchical clustering), 这种聚类方法得到类似于进化分析的系统树 图,具有相似表此临近,它们可能具有相似 的功能。其主要思想是先将n个样本类间的距 离,再将相似性最高的两类合并为一个新, 得n一1类系矩阵,不断重复这个过程直至所 有的基因融合成为一个大类。
基因芯片技术的应用领域
临床疾病的 基因诊断 基因组研究 后基因组计划
药物研究开发
基因芯片
生物信息学
法医学鉴定
生物试剂检测
动植物检疫
Total microarray articles indexed in Medline
600 500
Number of papers
400 300 200 100 0
1995
1996
1997
1998
1999
2000 2001 (projected)
Year
自Schena于1995年在Science上发表第一篇利用芯片 技术研究基因表达谱的论文以来,利用细菌、酵母、 爪蟾、线虫、果蝇、海胆、小鼠等作为研究对象,仅 从全基因组角度出发,利用生物芯片技术阐明这些生 物生长发育过程中的mRNA(转录谱)或蛋白质表达谱 (蛋白质谱)的研究,已发表研究论文约50篇,大部 分论文发表在Cell及其子刊、Science、Genome Research、PNAS、Development等国际顶尖或相关顶 级专业杂志。
Cell 125, 173–186, 2006
GO分析的不足之处
Genes of the same function may be annotated with terms from different hierarchic debths. Most databases provide GO-annotation for genes, not gene-products. Many genes encode different gene-products with different attributes. GO has to be updated and edited manually quite often. Individual curators evaluate data differently. Automatic annotation is often insecure. Many aspects of biology are not included in GO (domain structure, 3Dstructure, evolution, expression, etc.).
Global biological objectives of gene-products accomplished by ordered assemblies of molecular functions Function in general biological context