基于DNA微阵列的基因表达数据管理和分析029129 谢建明2002年10月摘要:DNA微阵列是生命科学研究的重要工具,在疾病诊断、药物开发等领域得到了广泛应用。
在应用过程中,产生了大量的数据,这些数据的存储、分发和数据挖掘成为DNA微阵列能被推广应用的关键技术。
本论文简单介绍了这两方面的研究现状。
关键词:DNA微阵列数据挖掘数据仓库标准基因表达分析一、引言DNA微阵列(DNA microarray),也叫基因芯片,是近几年发展起来的一种能快速、高效检测DNA片段序列、基因型及其多态性或基因表达水平的新技术。
它将几十个到上百万个不等的称之为探针的核苷酸序列固定在微小的(约1cm2)玻璃或硅片等固体基片或膜上,该固定有探阵的基片就称之为DNA微阵列。
它利用核苷酸分子在形成双链时遵循碱基互补原则,可以检测出样本中与探阵阵列中互补的核苷酸片段,从而得到样本中关于基因结构和表达的信息。
它的技术来源追溯到一个多世纪之前,Ed Southern发现被标记的核酸分子能够与另一被固化的核酸分子配对杂交。
因此,Southern blot可被看做是最早的基因芯片。
在八十年代,Bains W.等人就将短的DNA片断固定到支持物上,借助杂交方式进行序列测定。
1995年,斯坦福大学开发出第一片cDNA芯片并用于生命科学研究,1998年美国Affymetrix公司将第一片带有13.5万个基因探阵的寡聚核苷酸芯片推向市场,标志着DNA微阵列的产业化,从此基因芯片或DNA微阵列的研究和应用得到了广泛的重视,可以说在生命科学研究界和产业界掀起了基因芯片热潮,1999年Nature出专刊介绍这门基因芯片及其应用。
基因芯片可用于DNA序列的再测序、基因SNP或多态性检测和基因表达分析。
由于基因芯片技术是一种高通量检测技术,它可是并行的同时检测成百上千,甚至成千上万个基因的活动情况或DNA片段,改变了传统的每次只能检测一个基因的情况,因此能大大提高检测效率,降低检测成本,并保证了检测质量。
基因芯片技术可广泛应用于疾病诊断和治疗、药物筛选、农作物的优育优选、司法鉴定、食品卫生监督、环境检测、国防、航天等许多领域。
它将为人类认识生命的起源、遗传、发育与进化、为人类疾病的诊断、治疗和防治开辟全新的途径,为生物大分子的全新设计和药物开发中先导化合物的快速筛选和药物基因组学研究提供技术支撑平台。
通过基因表达谱的研究可以进行进一步的理论研究或应用研究。
1、理论研究。
根据基因组基因表达谱可以进一步分析共表达基因是否存在共同的顺式调控元件,发现新的调控元件。
此外,可以研究基因的调控规律,构建调控网络。
2、应用研究包括疾病诊断和药物开发。
根据不同疾病状态下的差异表达谱的研究可以确定疾病的类型和进展。
研究药物作用后基因表达谱的改变可以确定药物的毒性、预后和疗效,从而指导药物开发和临床合理用药。
在基于DNA微阵列的基因表达分析研究中,数据的分析和管理是一个关键性的问题,它直接影响了实验结果的准确型和实验的可靠性。
量化矩阵图1 DNA微阵列的基因表达数据的获得二、数据分析数据的分析包括了三个部分:芯片图像处理获得单次实验的基因表达水平;整合多次实验得到基因表达矩阵;根据基因表达矩阵进行知识挖掘。
下面简单介绍一下其中涉及的关键技术:包括归一化和聚类分析。
归一化对于cDNA微阵列技术,包含Cy3和Cy5两个通道,通常存在两个通道荧光亮度不平衡的问题,Cy3的亮度低于Cy5[Quackenbush, 2001]。
归一化的目的是平衡实验过程中Cy3与Cy5两个通道的相对荧光亮度。
它基于如下的假设:芯片上的所有的基因,一组基因子集或一套外源的控制在标记前产生RNA,其平均表达率等于1。
使用归一化因子调整数据,弥补实验的变化,“平衡”待比较的两个样本的荧光信号。
主要有3种被广泛使用的技术用于来自同一个芯片杂交的基因表达数据的归一化。
1、总亮度归一化总的亮度归一化数据依赖于假设:两个标记的样本的起始量是一样的,此外,假设一些基因在待检测的样本中相对于控制样本是上调的,另外一些是下调的。
对于芯片上成百上千或成千上万的基因,这些变化应该是平衡的,因此,总的与芯片杂交的RNA的量是一样的。
因此,芯片上所有的元素计算得到的总的累加亮度在Cy3和Cy5通道上是一样的,在这种假设下,计算归一化因子,并用于芯片上每个基因的亮度比例计算。
2、用回归技术归一化对于起源于相关样本的mRNA,被分析的基因的显著性分数在相似的水平上被表达。
在Cy5与Cy3亮度(或对数值)的散点图上,这些基因沿着直线聚类,如果两个样本标记和检测效率是一样的则该斜率将是1。
这些数据的归一化等于用回归技术计算它的最合适斜部回归技术更合适,例如LOWESS(局部权值散点图平滑)回归。
3、使用比率统计归一化Chen描述的基于比率统计的归一化方法。
假设尽管在紧密相关的细胞中,单个基因可以上调或下调,RNA产生的总量与重要的基因近似相等,例如看家基因。
基于这种假设,他们发展了一种近似概率密度比率T k=R k/G k(R,G分别代表第k个元素的测量的红/绿亮度比)然后他们用于迭代过程,归一化平均表达率为1,计算可信度阈值用于识别差异表达的基因。
除了以上三种在应用中被广泛使用的除外,还有一些复杂的、非线性的方法用于归一化。
归一化后,每个基因的数据以表达率或表达率的对数报告。
应用对数值的优点是理解更简单,如果值大于0,则表示该基因的表达率大于1,反之小于1。
对于合成寡聚核苷酸微阵列不存在cDNA微阵列荧光不平衡导致的系统歪曲的问题,但是对于相比较的两组实验来说,需要用两块芯片与两个样本杂交两次,产生的原因包括两个样本中mRNA数量的差异或用于标记样本的染料的质量不同,都可能导致错误。
在这里归一化的目的也是去除这些错误。
聚类分析通过图1的数据获取过程,可以得到细胞的基因表达矩阵。
基因的表达矢量定义为每个基因在表达空间的位置。
用基因表达的观点看,每个实验在空间中表达一个隔离的和不同的轴,在该实验中的基因的测量值log2(比率)代表了几何坐标。
例如,如果我们有三个实验,对于一个给定的基因在实验1种的log2(比率)值是它的x坐标,在实验2中的值是y坐标,在实验3中的值是z轴,因此,我们能表示所有的信息,一个基因在x-y-z表达空间中用一个点表示。
第2个基因,对于每个实验近似相同的值(log2(比率))将在表达空间中空间相近的点表示。
不同表达模式的基因将于最初的基因离的较远。
对于更多的实验这种推广是直接的(尽管很难画出),表达空间的维度的增加与实验的数目相等。
用这种方式,表达数据可以表示为n维表达空间,n是实验的数目,每个基因表达矢量表示为该空间内的单个点。
有了测量基因间距离的方法后,聚类算法根据在表达空间中的分离度选择基因和将基因分组。
需要提及的是如果我们感兴趣聚类实验,我们将每个实验表示为一个实验矢量,包括每个基因的表达值。
这里定义的实验空间,维度等于每个实验中分析的基因数目。
同样的方法定义距离,我们能够应用任何的聚类方法来分析和分组实验。
为了解释多个实验分析的结果,直觉的可视化表示是很有帮助的。
通常使用的方法依赖于表达矩阵的建立,矩阵的每一列表示单个实验,每一行表示特定基因的表达矢量。
根据表达数据用不同的颜色表示矩阵元素建立多个实验的基因表达模式的可视化。
表达矩阵有无数的方案来着色和表示。
最常用的方法是根据每个实验的log2(比率)值,log2(比率)等于0用黑色,大于零的用红色表示,负数的用绿色表示。
对于矩阵中的每一个元素,相对亮度表示了相对表达水平,约亮的元素表示差异表达越大。
对于任何特定的实验组,表达矩阵通常没有明显的模式或顺序。
设计程序来聚类数据通常重组行、列或两者。
当以这种方式可视表示可以看到明显的表达模式。
在聚类数据前,有两个问题需要考虑:1、数据需要用某种调整方式来增强某一种关系?2、采用何种距离测量来分组相关的基因。
在许多微阵列实验中,数据分析被具有最大数据值的变量决定,这样掩盖了其他重要的区别。
为了避免这个问题,采用的一种方法是调整或重新确定数值范围,使每个基因的平均表达为0,称之为平均中心法过程。
在这个过程中,基因的基本表达水平被每次实验测量值相减。
这样增强了每个基因在每个实验中的表达水平的变异,而不考虑基因是否是上调或下调。
这种方法对于分析时间过程的实验是特别有用的,可以发现在基础表达水平周围变异相似的基因。
这些数据调整为-1~1之间的值。
或者每个表达矢量的长度为1。
基因的聚类分析方法根据不同的描述包括:层次式与非层次式(k-means);分解法、合成法;有师(使用现有的生物学知识,关于功能相关的特定基因指导分类算法)、无师分析方法等。
聚类分析技术非常有用,应该关注不同的算法、不同的归一化或者不同的距离矩阵,将把不同的目标放在不同的类中,此外,不相关数据的聚类仍将产生类,虽然他们没有生物学意义。
因此基因表达分析方法的挑战是针对特定的数据应用适当的方法,使数据明显的分开。
主要的无师聚类分析方法有层次式聚类法[Eisen,1998]、自组织神经网络[Tamayo,1999]、k平均法、模糊聚类法等,有师分类包括矢量学习机法[Brown,2000]等,此外还有主元分析法和利用统计学的SAM法等。
1、层次式聚类法(hierarchical clustering method)这是多元统计分析中常用聚类方法,对于n个样本构成的n个矢量,看作是n个类,先计算所有两类之间的相似性关系,将相似关系最近的两类生成一个新类,继续以上过程,直到最后只有一个类为止。
在这个过程中每次形成一个新类,类的数目间减少一个,最后形成一棵树,反映样本之间的相似关系。
在计算新类与其它类的相似关系时有不同的方法,有最小距离法、最大距离法、平均距离法、重心法、离差平方和法等。
如最小距离法是将组成新类的两个类分别与第三个类相似关系最近的值为新类和第三个类之间的相似关系。
该类方法可以直观的反映基因之间的关系,而且计算速度快,但使用不同的类间距离计算法会产生不同的聚类结果,而且对于一个样本被分类后,就不能再参与分类,因此它不能将所有的数据作为一个整体进行分析,是一个局部决策的方法。
同时当样本集非常大时,树型结果非常复杂,树的剪枝和类的确定比较模糊。
最简单、结果可视。
是用于分析基因表达数据用得最多的方法,它是一种合成分析的方法,单个基因被连接形成组,继续直到形成单棵层次树。
对于基因表达数据,平均连接聚类给出可接受的结果。
主要问题是随着类数目的增加,表达某一类的表达矢量也许不再表示类种的任何成员。
此外,与最初的基因顺序有关。
2、自组织神经网络法(SOM,self-organizing map)自组织映射是Kohonen,T提出的类似大脑思维的一种人工神经网络方法,是一种竞争学习算法,可以被看作是一种将N维模式空间各点到输出空间少数点的映射。