聚类分析1.1聚类分析的概念:聚类分析法是理想的多变量统计技术,主要有分层聚类法和迭代聚类法。
聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法。
1.2常见的聚类分析法:K-means算法、凝聚聚类算法以及EM算法系统聚类法和K均值聚类法是聚类分析中最常用的两种方法经典的聚类分析方法:【数据挖掘中聚类算法研究和发展-周涛】1.2.1基于划分的相关聚类算法K-means 算法是一种最为典型的基于划分的聚类分析算法,自从该算法被开发出来后,就一直被拿来研究和改进。
该算法的主要思想是大家非常了解的,首先随机选取K个对象作为中心点,然后遍历每个数据对象,直到收敛为止。
1.2.2基于密度的相关聚类算法DBSCAN 算法是一种较为常见的基于密度的聚类分析算法,该算法首先需要将任意的数据对象设定为核心数据对象,在Eps 范围内包含的数据对象数目要不少于Minpts 规定的个数,然后根据相应的规则来对核心对象进行合并,最终完成类簇的聚类分析。
1.2.3基于层次的相关聚类算法BIRCH 算法[28]是一种出现较为基本且简单的可以进行良好的伸缩的层次聚类算法。
该算法具有较好的聚类表现,它主要包含两个概念:聚类特征(CF)和聚类特征树(CF-Tree),通过这两个概念来进行描述并使得该算法能够有效地处理数据集。
1.2.4基于网格的相关聚类算法Yang W 等人提出的STING(Statistical INformation Grid)算法的的核心思想是将目标数据集映射到矩形单元,该空间区域通过分层和递归方法进行划分,其主要是基于多分析率的网格算法。
1.2.5基于模型的相关聚类算法EM(Exception-Maximization)算法是一种基于模型的聚类方法,该算法主要分为两步,期望步和最大化步。
期望步先给定当前的簇中心,将每个数据对象划分到距离簇中心最近的簇,然后最大化步调整每个簇中心,使得该分派的数据对象到新中心的距离之和最小化,直到聚类收敛或改变充分小。
1.3目前聚类分析法的发展现状:1.3.1高维数据聚类算法【高维数据聚类算法的研究及应用_孙志鹏】随着信息技术的迅速发展,信息化的数据不断积累,高维空间数据的分析成为一个亟待解决的问题。
因此,高维数据聚类分析成为聚类分析中一个重要的课题。
目前,在高维数据聚类分析方面主要有基于传统聚类算法的改进,子空间聚类算法和基于数据对象相似度的聚类分析算法。
历经几十年的发展,研究学者已经针对不同的应用提出了许多改进的算法,大多数是基于常见的K-means算法、凝聚聚类算法以及EM算法等等的改进。
其主要任务是从大量的数据中处理并且分析数据集中隐藏的信息。
现存的大多数聚类算法处理高维数据时往往需要高昂的时空开销,并且算法执行结果往往令人失望,这种现象产生的主要原因有两个:一方面在于高维数据集可能无法在人类的思维能力和视觉感官上清晰地描述与显示出来,不同的高维数据集蕴含的信息差异性非常大,同种算法不能很好地适应于实际的高维数据集;另一方面在于高维数据的所有对象在高维空间是稀疏分布的,因此无法很好地通过欧式距离来判断两个数据对象是否能够有相似的特征和聚为一类的信息。
为了实现对真实且复杂的高维数据集的高效分析,许多的学者在近些年进行了很多方面的尝试和探索,涌现了很好处理高维数据的比较适用的算法。
研究者针对现有算法存在的自身缺陷进行深入的研究和改进,例如,Greg Hamerly等人于2004年提出了G-means算法,该算法假设每个簇的数据对象都满足高斯分布模型,相比K均值算法克服了预先设定K值的缺陷,使该算法对复杂的数据集有更好地适应性和处理效果。
由于现实中这些数据都具有较为高维的特点,因此我们可以引入数据约简技术,通过对数据的预处理来研究高维数据的聚类方案。
在分析高维数据的过程中,面临的最大的问题就是维度的极大膨胀,也就是通常所讲的“维度灾难”(Curse of Dimensionality)。
这使得含有相关信息的维度随着维度增加所占的信息比值不断降低,不相关维度形成的噪声将严重影响聚类分析的效果。
所以,处理和分析高维数据是本文的重点和难点。
数据约简将数据从高维空间约简到低维空间,约简后的数据特征尽可能的充分体现原有高维数据的本质特征,并且也消除高维数据的空间噪声。
文献提出的CLIQUE算法,该算法通过对子空间聚类分析可以得到较为准确的结果,它同时还能在一定程度上提高聚类算法的执行的时间效率。
1999年,Cheng等人提出的ENCLUS算法,该算法对原算法的主要思想进行了进一步的改进,它利用子空间的熵大小来判断该子空间中有没有包含它所在的类簇。
国内的这一领域的研究学者在围绕高维数据集处理的方面上,做出了积极的努力,并且得到了一些重要的研究成果。
针对传统相似性度量函数不能满足处理复杂数据的稳健性等要求,在高维数据空间处理时很难达到预期的效果,高维数据空间的特征决定了必然存在大量的噪声,依据距离度量的方法效果较差,在高维空间的分辨能力下降,所以在对高维数据进行处理分析的过程中,基于相似性度量的方法得到广泛发展及深入研究。
众多研究者提出了不同的基于相似性度量函数的高维数据聚类方法,对高维数据的聚类分析做出了重要贡献。
Aggarwal等人于2002年提出了一种相似性度量函数[16],该函数能够很好地描述高维数据之间的相似度,通过计算并比较数据的相似性来衡量聚类效果。
1.3.2.加权主成分距离的聚类分析方法【一种加权主成分距离的聚类分析方法吕岩威李平】传统聚类分析方法无法解决样本指标之间的高度相关性,评价结果的信度和效度难以把握。
因此许多学者采用一般主成分聚类分析方法,即通过主成分分析将原始多指标降维成少数主成分因子,以等权的主成分因子代替原始指标对研究样本进行聚类分析。
一般主成分聚类分析方法克服了指标之间高度相关性对分类结果的影响,但却忽略了不同主成分因子对分类重要性的客观差异,进而影响到方法的适用性和分类的准确性。
加权主成分距离的聚类分析方法的操作步骤如下:步骤l:比较原始指标数据数量级和离散程度的差异,以判断对数据的进一步分析是采用标准化处理后的无量纲数据还是采用非标准化的原始数据。
步骤2:计算指标的相关系数矩阵、KMO检验与Bartlett球形检验值及显著性水平,以判断样本数据是否适宜进行主成分分析,如适宜则进入步骤3。
步骤3:进行主成分分析,计算相关系数矩阵或协方差矩阵的特征值和特征向量,以及各主成分因子的贡献率和累计贡献率,提取主成分因子,并结合因子载荷矩阵对所提取的主成分因子进行命名。
步骤4:将所提取的主成分因子代替原始指标,采用本文所定义的加权主成分距离为分类统计量进行聚类,并结合实际情况确定样本的所属类别。
加权主成分距离聚类分析方法具有复杂分类问题下的适用性。
但该方法亦有其假设条件和适用前提,在实际应用中选择何种方法进行聚类还需要根据聚类对象的具体特点而定。
当指标之间的相关性不大、重要性相差无几时,传统聚类分析方法的分类效果较好,主成分聚类分析方法不再具有适用性。
当指标之间的相关性不大、重要性差异较大时,加权聚类分析方法的分类效果较好,主成分聚类分析方法亦不适用。
当指标之间存在高度相关性时,加权主成分距离聚类分析方法总体上优于其他算法,能够显著地提高分类质量。
总之,加权主成分距离聚类分析方法同时解决了传统聚类分析方法和已有主成分聚类分析方法存在的问题,分类精度明显提高,但当原始指标变量相关性较弱、所提取主成分贡献率较低、不具备主成分聚类分析的条件时,加权主成分距离聚类分析方法则会失效。
1.4聚类分析法的发展现状:【数据挖掘中聚类算法研究进展_周涛】近年来,随着人工智能、机器学习、模式识别和数据挖掘等领域中传统方法的不断发展以及各种新方法和新技术的涌现,数据挖掘中的聚类分析方法得到了长足的发展。
整体来看,主要围绕样本的相似性度量、样本归属关系、样本数据的前期处理、高维样本聚类、增量样本聚类等几个方面展开研究。
BUHMANN J M提出了谱聚类算法,该类方法建立在谱图理论基础之上,并利用数据的相似矩阵的特征向量进行聚类,使得算法与数据点的维数无关,而仅与数据点的个数有关,因而统称为谱聚类方法。
谱聚类算法是一种基于两点间相似关系的方法,这使得该方法适用于非测度空间。
与其他方法相比,该方法不仅思想简单、易于实现、不易陷入局部最优解,而且具有识别非凸分布的聚类能力,非常适合于许多实际应用问题。
文献针对谱聚类对分析尺度的选择敏感的问题,给出了一种基于密度敏感的相似性度量,它可以放大不同高密度区域内数据点间距离,同时缩短同一高密度区域内数据点间距离,最终有效描述数据的实际聚类分布;文献认为在聚类搜索过程中充分利用先验信息会显著提高聚类算法的性能。
因此通过讨论数据集本身固有的先验信息——空间一致性先验信息,设计出一种基于密度敏感的距离测度的方法。
仿射聚类是Science 报道的一个全新聚类算法,其优势体现在处理类数很多的情况时运算速度快。
AP算法通过一个迭代循环不断进行证据的搜集和传递(亦称为消息传递)以产生m个高质量的类代表和对应的聚类,同时聚类的能量函数也得到了最小化,将各数据点分配给最近的类代表所属的类,则找到的m个聚类即是聚类结果。
针对仿射聚类中存在的两个问题:(1)很难确定偏向参数取何值能够使算法产生最优的聚类结果;(2)当震荡发生后算法不能自动消除震荡并收敛。
为了解决这两个问题,文献提出了自适应仿射传播聚类方法,即自适应扫描偏向参数空间来搜索聚类个数空间以寻找最优聚类结果、自适应调整阻尼因子来消除震荡以及当调整阻尼因子方法失效时的自适应逃离震荡技术,与原算法相比,自适应仿射传播聚类方法性能更优,能够自动消除震荡和寻找最优聚类结果。