当前位置:文档之家› 相似性度量在基因表达聚类分析中的应用研究

相似性度量在基因表达聚类分析中的应用研究

相似性度量在基因表达聚类分析中的应用研究摘要:聚类分析是基因表达数据分析研究的主要技术之一,其算法的基本出发点在于根据对象间相似度将对象划分为不同的类,选择适当的相似性度量准则是获得有效聚类结果的关键。

采用预处理过的基因数据集在不同相似性度量准则下进行的不同聚类算法的聚类分析,并得到聚类结果评价。

其中算法本身的缺陷及距离相似性度量的局限性都是影响结果评价的因素,为了获得更有效的聚类结果,改进相关聚类算法并提出了一种比例相似性度量准则。

关键词:dna微阵列;聚类分析;相似性度量;基因表达dna 微阵列(dna microarray) 技术的日益成熟导致了基因表达数据不断扩大,尤其在近十几年内更以指数形式增长。

如何分析和处理大量的基因表达数据,从中提取有用的生物学或医学信息,已成为后基因组时代研究的瓶颈[12]。

由于基因芯片产生巨量的表达谱数据,数据挖掘技术已经被广泛的应用到基因表达谱的许多方面,并取得成功。

聚类分析是基因表达数据分析研究的主要技术之一[23],并且作为一种有效的数据分析工具, 已广泛地应用于图像处理、信息检索、数据挖掘等领域。

目前,作为研究基因表达数据的主要技术之一的聚类分析算法有很多种,如分层聚类(hierarchical clustering),k(k_means clustering),自组织映射(self organizing maps,soms),主成分分析(principal component analysis,pca)等等。

但由于不同聚类算法,甚至同一聚类算法使用不同参数,一般都会产生不同的聚类结果。

因此,在对数据处理过的基因表达矩阵聚类分析时,选择合适的聚类相似性准则至关重要,同时也是获得合理、精确的聚类结果的关键。

1dna微阵列dna微阵列(dna microarray),也叫基因芯片。

它将几十个到上百万个不等的称之为探针的核苷酸序列固定在微小的(约1 cm2)玻璃或硅片等固体基片或膜上,该固定有探针的基片就称之为dna 微阵列。

1.1基因表达数据的获得和表示在不同的实验环境条件或是不同的时间点,通过对基因芯片的扫描,可以得到不同的实验数据,所以这些数据是基因在一定实验条件下或一段时间内的表达情况。

经过对这些数据表达进行预处理和标准化后,产生得到的微阵列数据也就是基因表达数据。

微阵列基因表达数据主要为数值型,并以矩阵的方式存储,“行”为各个基因在不同环境条件下或不同时间点的表达情况,“列”是同一环境或时间下一个样本所有基因的表达谱。

每一个元素代表第i个基因在第j个样本中的表达水平。

1.2基因数据的研究现状与已经发展了几十年的结构基因组学相比,基因表达谱的生物信息学仅处于起步阶段。

现阶段基因芯片所遇到的挑战并不在于表达芯片实验技术本身,而是发展实验设计方法及数据分析[4]。

实验数据的预处理、标准化的方式,度量相似性的方式以及所选择的聚类方法都会对分析结果产生影响。

面对海量的基因数据,聚类算法也不只是拘泥于传统的k,层次聚类算法上,而是向着多元化、专门化、复杂化的方向发展。

2聚类相似性研究在日常生活中进行识别时也总是利用相似性概念,但是人们又很难对“相似”或“不相似”做出明确的定量表述,因此通常所说的相似性只具有定性的或不确定的性质。

怎样对相似性概念给以明确的定量表述是模式识别工作者要解决的任务之一。

2.1相似性度量两个样本间的相似性或离散度的测量称为相似性度量,简称相似度。

聚类通常按照样本间的相似性进行分组,因此如何描述对象间相似性是聚类分析的一个重要问题。

聚类分析按照样本之间的亲疏远近程度进行分类。

为了使类分得合理,必须描述样本之间的亲疏远近程度。

刻画聚类样本之间的亲疏远近程度主要有以下2类函数:(1)距离函数。

可以把每个样本看作高维空间中的一个点,进而使用某种距离来表示样本之间的相似性,距离较近的样本性质较相似,距离较远的样本则差异较大。

(2)相似系数函数。

两个样本愈相似,则相似系数值愈接近1;样本愈不相似,则相似系数值愈接近0。

这样就可以使用相似系数值来刻画样本性质的相似性。

d(i, j)是样本i和样本j之间相似性的量化表示,通常它是一个非负的数值,一般地,距离函数有如下数学要求:(1) d(i, j)≥0:距离是一个非负的数值;(2) d(i, i)=0:一个对象与自身的距离是0;(3) d(i, j)= d(j, i):距离函数具有对称性;(4) d(i, j)≤d(j,h)+d(h,i):从对象i到对象j的直接距离不会大于途经任何其他对象h的距离(三角不等式)。

如何选择相似性的度量方法是一个相当复杂的问题,因为相似度的选择可以在很大程度上影响聚类算法的输出[5]。

目前,有很多相似性度量应用到基因表达数据分析当中。

例如:欧式距离、曼哈坦距离、pearson相关系数、无中心pearson相关系数(对应两个数据向量之间角度的余弦值)、spearman的排列相关系数等。

在基因表达数据聚类分析中,相似度普遍采用pearson相关系数和欧氏距离[67]。

在上述的几个相似性度量中,欧几里德距离和曼哈坦距离满足前述4个要求。

但是其他几个度量标准是基于相关系数的函数,它们并不完全满足距离函数的要求。

通常用相关系数r定义距离d为:d=1-r。

这样,所有的基于相关系数的相似性度量标准都使用这个定义而被转化为距离。

但是注意这种距离函数并不满足三角不等式。

2.1.1欧氏距离设有两个基因样本xi,xj,这两个样本可能在同一类中,也可能在不同的类中,因此,可以计算同一个类内样本与样本之间的距离,也可以计算属于不同类样本与样本之间的距离。

欧氏距离测量空间中两个点的绝对距离,故同时考虑了矢量的方向和幅度。

则基因样本xi和xj之间的欧氏距离定义:di,j(xi,xj)=(xi-xj)t(xi-xj) =∑nk=1(xik-xjk)2di,j越小,则两个样本距离越近,就越相似。

2.1.2pearson相关系数pearson相关系数也是一种相似性测量,大的相关系数意味着相似性程度高。

pearson相关系数从本质上说是测量两个表达矢量所指方向的相似性。

基因样本xi和xj之间的pearson相关系数定义:r(xi,yj)=∑nm=1(xi,m-i)(yj,m-yj)∑ni=1(xi,m-i)2∑nj=1(yj,m-yj)2式中:i,yj分别为基因i和j在n个实验条件下的平均表达水平;pearson相关系数取值于[-1,1],两个相同的基因样本的相关系数为1,相关系数为0的两个基因样本被认为是不相关的,而相关系数为-1的两个基因样本是反相关的[8]。

2.2类相似性度量层次聚类算法有两个关键问题,首先是如何选取类间相似性度量,它是由两类聚合为一类的依据;其次是聚合过程应该停留在哪一级上,这与最终聚合成几类有关,也与聚类相似性有关。

如前面所述,根据不同的相似性度量标准(这里为某一距离标准或是相关系数),可以有不同的层次聚类方法。

在层次聚类算法中需要计算两个类之间的相似度度量。

常见的类间距相似性有最短距离法层次聚类、最长距离法层次聚类、平均距离法层次聚类和重心法层次聚类。

(1) 最短距离。

规定两个类间相距最近的两个点之间的距离,为两个类的相似度。

则简单连接定义为:di,j=min(di,j), dij=xi-xj,xi∈ωi,xj∈ωj式中dij是ωi中任意一点与ωj中任意一点的欧式距离。

(2) 最长距离。

规定两个类间相距最远的两个点之间的距离,为两个类的相似度。

则完全连接定义为:di,j=max(di,j), dij=xi-xj, xi∈ωi,xj∈ωj式中dij是ωi中任意一点与ωj中任意一点的欧式距离。

(3) 平均距离。

计算两类之间所有样品的距离,求和,取距离的均值作为两类间的距离。

则平均连接定义为:di,j=1ninj∑xi∈ωixj∈ωjxi-xj式中ni,nj分别是ωi,ωj类中的样品的个数。

(4) 重心连接。

各类中所有样品的平均值作为类的重心,用两类的重心间的距离作为两类距离,则重心连接定义为:di,j=x(ωi)-x(ωj)式中:x(ωi)=1ni∑x∈ωix,x(ωj) = 1nj ∑x∈ωj x 分别是ωi,ωj类所有样品的平均值,ni,nj分别是ωi、ωj类中的样品的个数。

3聚类算法研究对基因表达矩阵的分析,往往是比较矩阵行和列的相似性或差别,如果发现两个行相似,则可以推测它们对应的基因具有协同调节和功能相关性。

通过在不同水平的比较,可以发现哪些基因具有不同的表达,并且可以研究不同化合物对它们的影响。

聚类分析的首要目标是将表达谱相似的基因归纳成类,然后聚焦于那些可能参与某些生物过程的基因群,对这些类进行生物学注释,同时获得新的生物学知识[9]。

聚类分析技术是目前基因表达分析研究的主要计算技术之一,其算法的基本出发点在于根据对象间相似度将对象划分为不同的类。

指将一组样本按其相互间的相似程度归入几个子类,根本思想是确定类群,使同一类内的各样本间差异最小,而不同类间的差距最大。

(1)层次聚类算法。

层次聚类算法可分为自上而下和自下而上两种方向进行,根据不同的方向,层次聚类方法可以分为凝聚的层次聚类和分裂的层次聚类。

自底向上的层次方法是首先将每个聚类样本自成一个类,根据一定的类间相似性度量标准计算两个类间的距离。

然后反复地将距离最近的两类合并为一类,并重新计算类间距离,直到达到某个终止条件或只剩一个类。

自上而下的层次方法是首先将所有聚类样本看成一类,然后按照一定的类间相似性度量进行不断分解为越来越小的聚类,直到所有聚类各成一类或满足某一终止条件。

(2) k k n个观察样本分成k个类,必须先指定类数k和迭代次数或收敛条件。

开始先指定k个质心,根据一定的相度性度量将每一个样本分配到最接近或”相似”的质心,形成一类,从而类内的相似性高,类间的相似性低。

然后以每一类的观察样本的均值矢量作为这一类的新质心,重新分配,反复迭代直到类收敛(类的质心不变)或达到最大的迭代次数。

(3)自组织映射(soms)。

自组织映射算法是一种高维可视化的无监督学习方法,描述输入数据集的原型矢量也称作为模型矢量或权重矢量,同时将高维输入空间连续映射到低维的网格上。

这个网格由一定数目的神经元组成。

给网格节点(神经元)赋予一定权重,来表示类的质心,计算一种距离确定各输入矢量的匹配节点,并由输入矢量调整匹配节点及其邻域的权重。

经过反复学习,模拟矢量以有序的方式描述数据的概率分布。

训练好的soms网格节点上已分配好相应的基因表达谱,节点的权重矢量代表相应类内表达谱的平均,且相邻节点表示相似的类,类差别越大,其节点相距越远。

3.1聚类算法结果分析3.1.1聚类结果评价不同的聚类算法应用于同一个基因表达数据时往往得到差别很大的结果,怎样去判定聚类结果好坏。

相关主题