聚类分析 数学建模
4.1.2 特征变量(指标)的提取
分类就是把各种属性差异比较小的样品合在 一类;各种属性差异大的样品分为不同的类,为 了能对事物进行科学准确的分类,在分类前,我 们必须对所需要分类的事物进行定量的特征变量 提取。
4.1.2 特征变量(指标)的提取 该如何提取事物的特征变量呢? ①所提取的特征变量要求能全面地反映样品的各 种属性, ②当然也不是特征变量越多越好,一般要求能在 反映样品本质的、主要的属性条件下,在不失去 主要信息的条件下,尽量减少特征变量的个数。 这样不但使分类中数学处理简单,而且便于 抓住本质和主要的属性,分类结果更好。
聚类分析的应用
聚类分析方法应用相当广泛,已经被广泛用 于考古学、地质勘探调查、天气预报、作物品 种分类、土壤分类、微生物分类,就是在经济 管理、社会经济统计部门,也用聚类分析法进 行定量分类。
4.1
聚类分析方法形成思路
4.1.1 分类依据形成思想 依据:同类事物具有很强的相似性 如何对事物进行定量分类呢?我们知道,同类 事物具有很强的相似性,因此我们可以用相似性 统计量这个度量标准作为事物分类的依据。 一种等价说法是同类事物之间的距离应很小, 因此我们也可以用距离统计量作为分类的依据。
综上所述,显然 越小表示样品间的距离越小,差 异就越小,两者越相似。按距离公式,将所有样品 两两间的距离 求出,即 ( ),可构成距 离矩阵
式中, 称矩阵。
(4.9) ,显然D为一实对
4.3.2 相似系数统计量
若将每个样品视为m维空间的一个向量,则 两样品间的相似程度可以用这两个向量间的夹角 余弦表示,即
设有 个样品, 个特征变量,设第 个样品,
第 个变量的观测值为 由此可构成一个 阶矩阵为
。
将式(4.1)中每个变量 换,称为标准化。
(4.1) 根据以下公式变
对每个变量的标准化计算公式为
(4.2)
式中, 标准化后变量的平均值为0,标准离差为1。
4.2.2 变量的正规化
对每个变量施行以下变换,称为正规化。
聚类分析的发展
在古老的分类学中,人们主要靠经验和专 业知识进行定性分类,如黑人、白人、黄种人, 我们凭视觉感观就能作出分类,很少利用数学 方法。 随着科学技术的迅速发展,分类要求越来 越高,以致靠经验和专业知识不能进行确切的 科学分类,于是数学这个定量化的有力工具便 被引进到分类学中来,形成了数值分类学。 近20年来,多元统计分析技术被引进到分 类学中,于是从数值分类学中逐渐地分离出聚 类分析这个新的分支。
(
)
(4.10)
式(4.10)中, 称为向量间夹角余弦。显 然, 。式中 是第 样品第 个变量的 观测值。 越接近1,则说明第 个样品与第 个样品越相似,式(4.10)把所有样品两两间 的夹角余弦求出来,就得夹角余弦矩阵
该矩阵为一实对称矩阵。 同样,变量之间也可以求其夹角余弦,以表 示它们的亲疏程度。
4.2
关于变量的数据预处理
由于所研究的各个变量的量纲往往不一致, 即使统一了量纲有时原始数据的大小也有悬殊, 为避免有些特征变量受到压抑,在分类前,可 首先对原始数据进行预处理。 通常是对变量施行必要的变换,使其所有 变量尺度均匀化。均匀化的方法很多,这里仅 介绍常用的几种。
4.2.1 变量的标准化
由此可看出,两个样品之间的距离越小, 它们之间的相似程度越高;反之,距离越大, 则表明两样品的相似程度越低。因此,可以用 样品间的距离来对样品进行分类。 在聚类分析中,对于定量变量,最常用的 距离是明考夫斯基(Minkowski)距离
(4.5)
当
时,则分别得到
(1)绝对值距离
(4.6)
(2)欧氏(Euclid)距离
(4.11)
式(4.11)中, ; 为第 个样品 第 个变量的观测值。按上式分别求出 个变量 两两间的相关系数构成相关矩阵。
显然 为对称方阵,主对角线上的元素为1, 且 , 越接近1,则表明变量 与 相关 程度越高,越密切; 越接近0,变量 与 相关 程度越小。
在实际工作中,当需要研究样品与样品之间
③ 此外,选上的特征变量应在全部样品中变化
显著,即方差比较大,如果某个特征变量反映 的是个主要的属性,但是在要进行分类的所有 样品中没有显著差别,基本相等,这样的特征 变量也应去掉。
④ 选上的特征变量之间应尽量不相关,每个特
征量反映的侧面应有明显差异。反应属性基本 重复、相关、非常密切的特征变量应简化,去 掉完全重复的。
(4.7)
(3)切比雪夫(Chebyshev)距离
(4.8)
值得注意的是在采用明考夫斯基距离时, 一定要采用相同量纲的变量。如果变量的量纲 不同,原始数据变异范围相差悬殊时,建议首 先进行数据的标准化处理,然后再计算距离。
在明考夫斯基距离中,最常用的是欧氏距离。 它的主要优点是当坐标轴进行正交旋转时,欧氏 距离是保持不变的,因此,如果对原坐标系进行 平移和旋转变换,则变换后样本点间的相似情况 (即它们间的距离)完全同于变换前的情形。此 外,在采用明考夫斯基距离时,还应尽可能地避 免变量的多重相关性。显而易见,多重相关性所 造成的信息重叠,会片面强调某些变量的重要性。
(4.3)
式中, 和 大和最小值。显然, 分别为第 个变量的最 。
4.2.3 变量的规格化
对每个变量施行以下变换,称为规格化。
(4.4) 式中, 为第 个变量的最大值。显然 。
注:
数据的预处理以不丢失原有信息为前提。 三种预处理方法的选择应根据现有数据的特 点来考虑。
4.3 分类统计量的确定 及其聚类方法的选择
4.3.3 相关系数统计量 相关系数概念的引入是在定义协方差矩阵时引 入,它主要是用于表征两个随机变量之间的线 性相关程度。 如对于二维随机变量,可用 表示随机变量 与 的协方差,记为
进而还可引进相关系数的概念,用其值的大小 来描述随机变量 与 相关程度,记为
可以证明如下结论: 1.当 =0 ,则 与 不相关。 2.当| | 越大,则 与 联系越紧密。 一般,设第 个变量与第 个变量(指样本的 第 个变量与第 个变量)间的相关系数定义为
第四章
聚类分析方法
引入
人类认识世界的一种重要方法是将认识对象 进行分类。在许多工程问题中,我们对研究对象 的类属是未知的,或者知之甚少,这时,就需要 对研究对象进行分类,它是在没有“先验”知识 的情况下进行分类的,具有相当的任意性。
比如在生物学中,为了研究生物的演变,需 要对生物进行分类,生物学家根据各种生物的特 征,将它们归属于不同的界、门、纲、目、科、 属、种之中。事实上,分门别类地对事物进行研 究,要远比在一个混杂多变的集合中更清晰、明 了和细致,这是因为同一类事物具有很大的相似 性。
4.3.1 距离系数统计量
设有n个样品分别测定了m个特征变量。如果 将n个样品看成m维空间中的一个点(或者看成m 维空间的n个点矢),则在 m 维空间可定义一种 距离,该距离应满足如下四个条件,若表示第个 样品和第个样品之间的距离,则有
a) 时,样品i和j恒等; b)对一切谓分类,一般地说就是把相似程度大的 并成一类,而把相似程度小的分为不同的类, 因此如何定量地表示样品间的相似程度,这是 聚类分析中需要解决的一个重要问题。 目前已设计了大量的表示相似程度的统计 量,Moore l972年就列出了40个,实际上超 过这个数。但是常用的主要还是距离统计量、 相似系数统计量和相关系数统计量。下面主要 介绍常用的这几种统计量。
2.分解法 它的聚类过程恰好和聚合法相反,开始把 全体样品看成一类,然后分成二类,……,一 直到每个样品为一类或分到不能再分时为止, 通常要设计一个分类函数(目标函数)来控制 整个分类过程。 3.调优法 开始人为将样品作初始分类,在一定准则下 判断这个分类是否最优,如果不是最优,则对 分类进行修改,再判断修改后的分类是否最优, 若仍不是最优,再作修改,不断重复上述步骤, 一直到分类方案最优为止。
关系时,一般用距离系数统计量或者相似系数统 计量作为分类计算依据,这种方法又称为Q型聚 类法;当需要研究变量与变量之间的关系时,常 用相关系数统计量作为分类计算依据,这种方法 又称R型聚类法。
4.3.4 选择适当的聚类方法 聚类分析的核心, 一是选取一种距离或相似系数作为分类统 计量; 二是需要确定一种聚类方法。聚类方法虽 然也有很多种,但是,就其聚类过程的主要特点 可以分为三大类:聚合法、分解法和调优法。 1.聚合法 开始把每个样品看成自成一类,计算各类之 间的相似程度的统计量,把最相似的两类合并为 一类,再计算各类相似程度统计量,把最相似的 两类合并,照此继续下去,一直到所有样品都聚 合成一类为止,最后人为确定合适的分类数,得 到分类结果。