当前位置：文档之家› 聚类分析PPT课件

聚类分析PPT课件

DKLiG m Ka,j xGLdij
二、距离和相似函数
2、相似函数聚类分析方法不仅用来对样品进行分类，而且可用
来对变量进行分类，在对变量进行分类时，常常采用相似系数来度量变量之间的相似性。
变量之间的这种相似性度量，在一些应用中要看相似系数的大小，而在另一些应用中要看相似系数绝对值的大小。
个基因，然后合并，再找距离相近两组再合并，直到所有的基因合并到一个组中
三、分层聚类法
(5)建立表达图谱
四、K-均值聚类法
四、K-中值聚类法
K-均值聚类是动态聚类的一种动态聚类法的基本思想是，选择一批凝聚点或
给出一个初始的分类，让样品按某种原则向凝聚点凝聚，对凝聚点进行不断的修改或迭代，直至分类比较合理或迭代稳定为止。类的个数 k可以事先指定，也可以在聚类过程中确定。 K– means 聚类与分层聚类（系统聚类）有本质的区别，首先要估计出将要分出几个类，然后将全部的基因按照相似性的距离，归入这几
芯片数据的
聚类分析第五组计11
芯片数据的聚类分析
一、聚类的含义二、距离、相似函数三、分层聚类四、K-means聚类五、聚类结果的可视化
一、聚类的含义
聚类分析起源于分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行定量的分类。
随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又将多元分析的技术引入到数值分类学形成了聚类分析。
相似系数(或其绝对值)越大，认为变量之间的相似性程度就越高；反之，则越低。
聚类时，比较相似的变量倾向于归为一类，不太相似的变量归属不同的类。
二、距离ห้องสมุดไป่ตู้相似函数
相似函数一般满足的条件（1） cij ，1 当且仅当 xiaxjb,a和(0)是常b 数；
（2）（3）
，对一切
c ij
1
，对一切
阵，记作。
(4) 对重复上述D 对1 的两步得，如此下去直至
所有元D素 1 合并成一类为D 止0 。
D 2
如果某一步中最小的元素不止一个，则称此现象
为结(tie)，对D 应 m 这些最小元素的类可以任选一对合并或同时合并。
二、最长距离法
类与类之间的距离定义为两类最远样品间的距离，即
二、距离和相似函数
二、距离和相似函数
1、距离变量的测量尺度不同，聚类的结
果也不同
在生物芯片数据分析（基因表达数据分析）中，我们一般考虑间隔尺度变量，即基因数据间的 “距离”。
二、距离和相似函数
二、距离和相似函数
距离有多种定义方法，在聚类分析中最常用的是欧
氏距离，即有 p
212
dij xik xjk
三、中间距离法
三、分层聚类法
1、分层聚类(Hierarchical clustering) 分层聚类是最早也是最普遍的应用在基因芯片
数据分析研究中的聚类算法。步骤如下：（1）建立Gene-experiment 矩阵
每一列是不同的组织，或者在不同条件下的样本，每一行是基因的编号，每个基因的表达量
cij c ji
；
i, j
。
i, j
最常用的两个相似系数
三、分层聚类法
三、分层聚类法
分层聚类法即系统聚类法系统聚类法是聚类分析诸方法中用得最多的一种。
基本思想是：开始将个样品各自作为一类，并规定样品之间的距离和类与类之间的距离，然后将距离最近的两类合并成一个新类，计算新类与其他类的距离；重复进行两个最近类的合并，每次减少一类，直至所有的样品合并为一类。常用的系统聚类方法：一、最短距离法二、最长距离法
一、聚类的含义
聚类分析内容非常丰富，有系统聚类法、动态聚类法、有序样品聚类法、模糊聚类法、图论聚类法、聚类预报法等。
一、聚类的含义
生物芯片数据聚类是指根据基因片的基因表达数据，将基因按照不同的功能，或者相同的表达行为进行归类。
聚类的基因表达谱为研究人员提供基因表达差异，启动子分析，表达模式研究等等便利的条件。目前已经有很多种聚类的方法应用到基因芯片的研究当中，如分层聚类、K 均值聚类(K-means clustering)、自组织图谱SOM 、 PCA等等。
四、K-中值聚类法
1967 年,MacQueen 首次提出了K均值聚类算法(Kmeans 算法).迄今为止,很多聚类任务都选择该经典算该算法的核心思想是找出K 个聚类中C1,C2,…,Ck, 使得每一个数据点xi 和与其最近的聚类中心Cv的平方距离和被最小化(该平方距离和被称为偏差D).
定义类与类之间的距离为两类最近样品间的距离，即
DKLiG m K,ijnGLdij
最短距离法的聚类步骤
(1) 规定样品之间的距离，计算个样品的距离矩阵，它是一个对称矩阵。 n
(2)D选 0择中的最小元素，设为，则将和合
并成一个D新 0 类，记为，即
D KL
GK GL
(3) 计算新类与任一类G M 之间距G M 离的G K 递推G L 公式为
三、分层聚类法
（2）计算所有基因之间的相关系数correlation coefficient。基因的相似分值（similarity score）可以由 Pearsons correlation 公式计算
三、分层聚类法
(3) 建立Gene-Gene 的距离矩阵
三、分层聚类法
(4)建立系统发育树（dendrogram）根据Gene-Gene 的距离矩阵的分值，首先找到距离最近的两
GM
GJ
D M Ji G m M ,ijn G Jdijm ini G m K,ijn G Jdij,i G m L,ijn G Jdij
m inD K J,D L J
最短距离法的聚类步骤
在中，和所在的行和列合并成一个新行新列，
对应D 0 ，该G 行K 列G上L 的新距离值由（6.3.2）式求得，其余行列上G M的距离值不变，这样就得到新的距离矩
k1
当各变量的单位不同或测量值范围相差很大时，应
先对各变量的数据作标准化处理。最常用的标准化
处理是x ，i* j令xij sjjxj, i1 ,2, ,n, j1 ,2, ,p
其中
xj
1 n
n
和xij
i 1
sjj
1 n n1i1
2
xij分x别j 为第
个变量j
的样本均值和样本方差。
一、最短距离法

e商务文档

聚类分析PPT课件

相关文档推荐：