当前位置:文档之家› 聚类分析PPT课件

聚类分析PPT课件

DKLiG m Ka,j xGLdij
二、距离和相似函数
2、相似函数 聚类分析方法不仅用来对样品进行分类,而且可用
来对变量进行分类,在对变量进行分类时,常常采 用相似系数来度量变量之间的相似性。
变量之间的这种相似性度量,在一些应用中要看相 似系数的大小,而在另一些应用中要看相似系数绝 对值的大小。
个基因,然后合并,再找距离相近两组再合并,直到所有的 基因合并到一个组中
三、分层聚类法
(5)建立表达图谱
四、K-均值聚类法
四、K-中值聚类法
K-均值聚类是动态聚类的一种 动态聚类法的基本思想是,选择一批凝聚点或
给出一个初始的分类,让样品按某种原则向凝 聚点凝聚,对凝聚点进行不断的修改或迭代, 直至分类比较合理或迭代稳定为止。类的个数 k可以事先指定,也可以在聚类过程中确定。 K– means 聚类与分层聚类(系统聚类)有本 质的区别,首先要估计出将要分出几个类,然 后将全部的基因按照相似性的距离,归入这几
芯片数据的
聚类分析 第五组计11
芯片数据的聚类分析
一、聚类的含义 二、距离、相似函数 三、分层聚类 四、K-means聚类 五、聚类结果的可视化
一、聚类的含义
聚类分析起源于分类学,在古老的分类学 中,人们主要依靠经验和专业知识来实现分类, 很少利用数学工具进行定量的分类。
随着人类科学技术的发展,对分类的要求 越来越高,以致有时仅凭经验和专业知识难以 确切地进行分类,于是人们逐渐地把数学工具 引用到了分类学中,形成了数值分类学,之后 又将多元分析的技术引入到数值分类学形成了 聚类分析。
相似系数(或其绝对值)越大,认为变量之间的相似 性程度就越高;反之,则越低。
聚类时,比较相似的变量倾向于归为一类,不太相 似的变量归属不同的类。
二、距离ห้องสมุดไป่ตู้相似函数
相似函数一般满足的条件 (1) cij ,1 当且仅当 xiaxjb,a和(0)是常b 数;
(2) (3)
,对一切
c ij
1
,对一切
阵,记作 。
(4) 对 重复上述D 对1 的两步得 ,如此下去直至
所有元D素 1 合并成一类为D 止0 。
D 2
如果某一步 中最小的元素不止一个,则称此现象
为结(tie),对D 应 m 这些最小元素的类可以任选一对合并 或同时合并。
二、最长距离法
类与类之间的距离定义为两类最远样品间的距离, 即
二、距离和相似函数
二、距离和相似函数
1、距离 变量的测量尺度不同,聚类的结
果也不同
在生物芯片数据分析(基因表达 数据分析)中,我们一般考虑间 隔尺度变量,即基因数据间的 “距离”。
二、距离和相似函数
二、距离和相似函数
距离有多种定义方法,在聚类分析中最常用的是欧
氏距离,即有 p
212
dij xik xjk
三、中间距离法
三、分层聚类法
1、 分层聚类(Hierarchical clustering) 分层聚类是最早也是最普遍的应用在基因芯片
数据分析研究中的聚类算法。步骤如下: (1) 建立Gene-experiment 矩阵
每一列是不同的组织,或者在不同条件下的样 本,每一行是基因的编号,每个基因的表达量
cij c ji

i, j

i, j
最常用的两个相似系数
三、分层聚类法
三、分层聚类法
分层聚类法即系统聚类法 系统聚类法是聚类分析诸方法中用得最多的一种。
基本思想是:开始将个样品各自作为一类,并规 定样品之间的距离和类与类之间的距离,然后将距离 最近的两类合并成一个新类,计算新类与其他类的距 离;重复进行两个最近类的合并,每次减少一类,直 至所有的样品合并为一类。 常用的系统聚类方法: 一、最短距离法 二、最长距离法
一、聚类的含义
聚类分析内容非常丰富,有系统 聚类法、动态聚类法、有序样品 聚类法、模糊聚类法、图论聚类 法、聚类预报法等。
一、聚类的含义
生物芯片数据聚类是指根据基因片的基因 表达数据,将基因按照不同的功能,或者相同 的表达行为进行归类。
聚类的基因表达谱为研究人员提供基因表 达差异,启动子分析,表达模式研究等等便利 的条件。目前已经有很多种聚类的方法应用到 基因芯片的研究当中,如分层聚类、K 均值聚 类(K-means clustering)、自组织图谱SOM 、 PCA等等。
四、K-中值聚类法
1967 年,MacQueen 首次提出了K均值聚类算法(Kmeans 算法).迄今为止,很多聚类任务都选择该经典 算该算法的核心思想是找出K 个聚类中C1,C2,…,Ck, 使得每一个数据点xi 和与其最近的聚类中心Cv的平 方距离和被最小化(该平方距离和被称为偏差D).
定义类与类之间的距离为两类最近样品间的距离, 即
DKLiG m K,ijnGLdij
最短距离法的聚类步骤
(1) 规定样品之间的距离,计算 个样品的距离矩 阵 ,它是一个对称矩阵。 n
(2)D选 0择 中的最小元素,设为 ,则将 和 合
并成一个D新 0 类,记为 ,即
D KL
GK GL
(3) 计算新类 与任一类G M 之间距G M 离的G K 递推G L 公式为
三、分层聚类法
(2) 计算所有基因之间的相关系数correlation coefficient。 基因的相似分值(similarity score)可以由 Pearsons correlation 公式计算
三、分层聚类法
(3) 建立Gene-Gene 的距离矩阵
三、分层聚类法
(4)建立系统发育树(dendrogram) 根据Gene-Gene 的距离矩阵的分值,首先找到距离最近的两
GM
GJ
D M Ji G m M ,ijn G Jdijm ini G m K,ijn G Jdij,i G m L,ijn G Jdij
m inD K J,D L J
最短距离法的聚类步骤
在 中, 和 所在的行和列合并成一个新行新列,
对应D 0 ,该G 行K 列G上L 的新距离值由(6.3.2)式求得, 其余行列上G M的距离值不变,这样就得到新的距离矩
k1
当各变量的单位不同或测量值范围相差很大时,应
先对各变量的数据作标准化处理。最常用的标准化
处理是x ,i* j令xij sjjxj, i1 ,2, ,n, j1 ,2, ,p
其中
xj
1 n
n
和xij
i 1
sjj
1 n n1i1
2
xij分x别j 为第
个变量j
的样本均值和样本方差。
一、最短距离法
相关主题