当前位置:文档之家› 基因表达数据分析

基因表达数据分析

第8章基因表达数据分析基因芯片或DNA微阵列等高通量检测技术的发展,可以从全基因组水平定量或定性检测基因转录产物mRNA,获取基因表达的信息。

由于生物体中的细胞种类繁多,同时基因表达具有时空特异性,因此,基因表达数据要比基因组数据更为复杂、数据量更大、数据的增长速度更快。

基因表达数据中蕴含着基因调控的规律,可以反映细胞当前的生理状态,例如(??)是否恶化、(??)是否对药物有效等。

对基因表达数据的分析是生物信息学的重大挑战之一,也是DNA微阵列能够推广应用的关键环节之一。

基因表达数据分析的对象是在不同条件下,全部或部分基因的表达数据所构成的数据矩阵。

通过对数据矩阵的分析,回答一些生物学问题,例如,基因的功能是什么?在不同条件或不同细胞类型中,哪些基因的表达存在差异?在特定的条件下,哪些基因的表达发生了显著改变,这些基因受到哪些基因的调节,或者调控哪些其它的基因?哪些基因的表达是条件特异性的,根据它们的行为可以判断细胞的状态(正常或癌变)????等等。

对这些问题的回答,结合其他生物学知识和数据有助于阐明基因的调控路径和基因之间的调控网络。

揭示基因调控路径和网络是生物学和生物信息学共同关注的目标,是系统生物学(Systems Biology,在附录中增加解释条目!)研究的核心内容。

目前,对基因表达数据的分析主要是在三个逐渐复杂的层次上进行:1、分析单个基因的表达水平,根据在不同实验条件下,该基因表达水平的变化,来判断它的功能,例如可以确定肿瘤类型特异基因。

采用的分析方法可以是统计学中的假设检验等。

2、考虑基因组合,将基因分组,研究基因的共同功能、相互作用以及协同调控等。

多采用聚类分析等方法。

3、尝试推断潜在的基因调控网络,从机理上解释观察到的基因表达谱。

多采用反工程的方法。

本章首先介绍基因表达数据的来源和预处理方法;然后介绍基因表达数据分析的主要方法,即表达差异分析和聚类分析;最后简单介绍从基因表达数据出发研究基因调控网络的一些经典模型。

8.1 基因表达数据的获取基因表达数据反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的拷贝数或者水平(转录??),这些数据可以用于分析哪些基因的表达发生了改变,它们有何相关性,在不同条件下基因是如何受影响的。

它们在医学临床诊断、药物疗效判断、揭示疾病发生机制等方面有重要的应用。

目前检测mRNA水平的方法有DNA微阵列、基因芯片、基因表达串行化分析(Serial analysis of gene expression,SAGE)、RT-PCR、EST测序等。

目前,最主要的表达数据来自于基因芯片或cDNA微阵列,它们的原理是相同的,利用4种核苷酸之间两两配对互补的特性,使两条在序列上互补的单链形成双链,这个过程被称为杂交。

基本技术是:在一个约1cm2大小的玻璃片上,将称为探针的核苷酸片段固定在上面,这个过程称为芯片制备;从细胞或组织中提取mRNA,通过RT-PCR合成荧光标记的cDNA,与芯片杂交;用激光显微镜或荧光显微镜检测杂交后的芯片,获取荧光强度,分析细胞中的mRNA的相对水平。

8.1.1 cDNA微阵列cDNA微阵列最早是在1995年,由斯坦福大学研制并应用于基因表达分析的。

首先将细胞内的mRNA逆转录成cDNA并分离,然后将分离得到的所有或部分cDNA(通常大于200bp)作为探针,用机器手点到玻璃片上,玻璃片上的每一个点包含一种cDNA分子,这样就制成了cDNA微阵列。

固定在玻片上的cDNA探针可以通过测序得到序列或者其来源是已知的。

在使用cDNA微阵列时,首先是提取组织或细胞系的mRNA样本,逆转录成cDNA 并用荧光素标记;然后把标记混合物加到cDNA微阵列上,与探针杂交,杂交过程完成后,清洗微阵列;然后用激光扫描仪扫描并获取荧光图像,对图像进行分析,得到cDNA芯片上每一个点的荧光强度值。

荧光强度值定量反映了样本中存在的与探针互补的mRNA量,也就是反映了探针对应基因的表达水平。

在制造cDNA微阵列时,点样点的大小是不能保证完全一样的,点的排列也是不规则的,这样要比较不同微阵列图像的荧光绝对强度是不合理的,因此通常使用双色荧光系统来纠正点之间的差异。

在制备样本时,使用两个样本,一个称为控制样本或对照样本,其cDNA 用红色(Cy5)或绿色(Cy3)荧光素标记,另一个为测量样本,其cDNA用与对照样本不同的绿色或红色荧光素标记。

这两个样本按1:1的比例混合,同时与微阵列杂交,杂交后用不同波长的激光扫描,分别获取荧光强度,并成像。

来自两个样本的基因如果以相同水平表达则显示黄色,而如果表达水平有差异,则图像显示红色或绿色。

因此,cDNA微阵列的实验数据反映了两个样本中基因的相对表达水平。

通常,在cDNA微阵列实验中对获取的原始图像数据必须进行归一化,例如基于全局强度值调整、强度相关归一化、玻片之间的对比归一化等,通常这些工作由与微阵列扫描系统配套的软件自动完成。

为什么要进行归一化?如果用不同荧光素标记的是相同的样本,那么比率Cy5/Cy3(ratio值)的期望值为1,但由于Cy3和Cy5的标记效率不相等,或存在系统噪声等原因,得到的Cy5/Cy3往往不等于1,所以通过归一化可以使之回到1,并调整其它的测量值。

归一化方法包括总密度(假设两个样本中的总RNA是相等的)、线性回归、Ratio统计、迭代log(ratio)平均值中心化等。

cDNA微阵列实验得到的值反映了基因的相对表达水平,即测量样本与对照样本之间荧光信号强度的比率或者比率取对数,这是一个无量纲的值,可用于比较一组实验中的基因相对表达水平。

如果对照样本的信号非常低,那么这个比率就可能很大,因为可能主要是噪声信号,因此它很可能是无意义的,对于这些数据往往看作是不确定的,在后续分析时要注意这些数据,根据需要确定是否保留以及如何赋值。

(是否是自己的语言???,或用我们的文章,陆老师)8.1.2 寡核苷酸芯片又称为基因芯片、DNA芯片。

它是在玻璃片上按阵列固定寡核苷酸探针,这些探针是在片原位合成的。

现有产品中应用最广泛的是Affymetrix公司制造的GENECHIP®芯片,它使用一种光掩模技术和传统的DNA合成化学的组合以非常高的密度制造寡核苷酸阵列。

例如,Affymetrix公司的Human Genome U133芯片包含了100万个不同的寡核苷酸探针,代表了33000个人类基因。

寡核苷酸芯片主要用于DNA多态性检测和基因表达分析,还可以用于微生物基因组的再测序。

寡核苷酸探针的长度通常为20-25bp,在检测mRNA表达水平时可能存在寡核苷酸之间的非特异性交叉杂交的冗余信息,可能会掩盖杂交信号;此外,对于特定的寡核苷酸,信号强度对于寡核苷酸的碱基组成是敏感的。

对于第一个问题,通常是采用匹配/失配(PM/MM)探针对的方法,即在设计一个特异的寡核苷酸(匹配)时,同时设计一个非特异的寡核苷酸探针,仅仅在中间位置有一个碱基替换(失配),这样可以用PM与MM之间的差值作为信号强度。

为了解决第二个问题,在设计探针时,对于每一个待检测的mRNA包含多个寡核苷酸探针,例如为每一个转录本设计11-20个探针对来检测。

与cDNA微阵列不同的是,与寡核苷酸芯片杂交的是测量样本,而不是cDNA微阵列实验中的测量样本与对照样本的混合物。

对于基因芯片的检测结果有两种,一种是P/A/M,表示有/无/不确定,另一种是信号强度。

前者的结果主要是用来判断样本中有无特定基因的表达,这个结果对于部分实验,特别是一些定性实验是有意义的,例如判断肿瘤与正常情况下的细胞基因表达差异。

当需要对几个不同条件下的基因表达情况进行分析时,对基因表达的相对变化更感兴趣,所以多采用第二种方式。

有时基因表达数据的信号强度是负值,这是由于测量的信号小于背景信号或者背景/阴性控制样本的定义不正确造成的,对于前者,一般把负值做为0考虑,现在的Affymetrix的芯片分析系统已不产生负值。

(??)在考虑基因表达谱时,所采用的数据与cDNA微阵列数据一样,也是一系列测量样本与对照样本之间的信号强度比率或比率的对数值。

实验得到的信号强度也是经过规格化的数值,规格化的方法很多,但归一化过程一般都包含在芯片扫描系统的图像处理软件中。

cDNA微阵列或基因芯片(以下统称微阵列)在用于基因表达分析时的一个最大优点是高通量性,在一次芯片实验中可以对成千上万个基因的表达进行并行测量。

由于实验环节较多,虽然在设计芯片时可以通过添加阴性和阳性探针等手段来保证数据的可靠,但是需要提醒的是,数据的可靠性仍然是对数据进行后续分析时必须考虑的一个问题。

8.1.3 基因表达数据的网络资源大量基于微阵列实验的基因表达数据是公开在Internet网上的,尤其是学术机构在发表论文时所用的实验数据都能免费提供给全世界的研究人员下载使用。

作为学术论文的补充资料在网上发布的数据主要是文本文件或Excel格式的文件,这些数据往往都是经过归一化处理后的Ratio值或log2(Ratio),对于寡核苷酸芯片数据有的是P/A/M(Present/Absent/Don’t Know)的表示或基因绝对表达值。

因为这些数据文件没有包含原始的实验方案、实验材料、原始扫描图像、图像处理方法和数据归一化方法等信息,对于要比较、集成和整合分析来自不同研究小组的基因表达数据是非常困难的。

主要原因是微阵列并不是在任何客观的个体上测量基因表达水平,大多数测量值仅仅是基因表达的相对变化,而且使用的并不是一个标准化的对照样本。

同时,基因表达数据比基因组序列数据要复杂的多,这些数据仅仅在有具体的关于实验条件的描述时才是有意义的,对于不同的细胞类型,在不同的条件下都有一套转录本。

因此,基于微阵列的基因表达数据存储量是非常大的,对于具有20000个探针的微阵列实验,以10um的分辨率扫描,产生3千万个离散的数据点,如果以tiff文件贮存,将占用~60Mb的硬盘空间。

一方面是基因表达数据量非常庞大,数据中蕴含着丰富的生物学知识,另一方面是这些数据没有注释,迫切需要一种标准来描述和存贮微阵列基因表达数据,同时建立公共的微阵列数据仓库。

欧洲生物信息学研究所(EBI)与德国肿瘤研究中心(DKFZ)在1999年成立了MGED讨论组(The Microarray Gene Expression Data)。

MGED(/)是一个国际性的成员联盟,参与人员包括生物学家、计算机科学家、数据分析学家。

它的目标是促进由功能基因组学和蛋白组学研究产生的微阵列数据的共享。

当前集中于建立微阵列数据注释和交换的标准,推动微阵列数据库建设和相关软件来实现这些标准,促进高质量的、经过注释的基因表达数据在生命科学领域的共享。

相关主题