当前位置：文档之家› 浅谈聚类分析在大数据分析中的应用

浅谈聚类分析在大数据分析中的应用

新类之间的距离，这样就得到一个新的（ｍ—１）阶的距离矩阵；再从新的距离矩阵中选出最小者ｄｉｊ，把Ｇｉ和Ｇｊ归并成新类；再计算各类与新
类的距离，这样一直下去，直至各分类对象被归为一类为止。
三、使用聚类分析算法对大数据进行数据挖掘
由于大数据具有数据量庞大，分析效率低下，非结构化等特点，必须对数据进行特殊的处理。（一）构建样本的属性向量进行大数据的聚类分析，首先要从非结构化的数据中通过特定算法得到能够表示样本特征的属性，这些属性组成一个多维向量，所有的样本则组成一个多维空间。聚类的目的就是对这个空间进行划分，从而将
消极准确率ＮＡ＝ｄ／（ｂ＋ｄ）平均准确率ＡＡ＝（ＰＡ＋ＮＡ）／２ＰＡ保证了同类的识别度，ＮＡ保证的异类的区分度，ＡＡ是两者的综
最短距离聚类法，是在原来的ｍ×ｍ距离矩阵的非对角元素中找出，把分类对象Ｇｐ和Ｇｑ归并为一新类Ｇｒ，然后按计算公式计算原来各类与
进行聚类分析，由于脏数据有着与正常数据截然不同的特征，很容易将它们从空间中分离出来聚成一类或多类。观察粗分类的结果，找到疑似脏数据的聚类，并对聚类中的样本进行观察分析，确定其为脏数据后，将其排除ｍ样本。
（三）对数据进行重新分类，分析分类结果对剔除脏数据的样本进行重新分类，得到新的分类结果。由于大数据中所面对的复杂数据是多侧面的，多侧面数据本身就存
聚类分析中，存在两种相互联系的评价标准：１．聚类结果中，簇内越紧密膜间越分离越好；
先把各个分类对象单独视为一类，然后根据距离最小的原则，依次选出一对分类对象，并成新类。如果其中一个分类对象已归于一类，则把另一个也归人该类；如果一对分类对象正好属于已归的两类，则把这
样本归类。对于大数据来说，构建大数据样本的属性向量是一个非常耗时的过程，因此需要使用并行运算技术，提高运算效率。
浅谈聚类分析在大数据分析中的应用
范联伟
安徽四创电子股份有限公司安徽
合肥
２３００８８
【摘要】大数据指的是所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。传统的数据分析方法无法对大数据进行分析。本文针对大数据的特性，总结了聚类分析方法再大数据分析中的应用以及对分析结果的评测方法。
决定需要的聚类划。
（四）聚类结果评测
二、聚类分析方法
聚类分析是对于静态数据分析的一门技术，在许多领域受到广泛应用，包括机器学习、数据挖掘、模式识别、图像分析以及生物信息。聚
从数学的角度看，聚类分析是一个组合问题，将ｎ个对象划分为Ｉｎ
【关键词】大数据分析聚类分析方法中图分类号：ＴＰ１８１文献标识码：Ｂ文章编号：１００９ — ４０６７（２０１４）１７ — ６７ — ０１
大数据具有数据量庞大，分析效率低下，非结构化等特点，无法使
用传统的数据分析方法进行分析。本文针对大数据的特性，总结了聚类分析方法再大数据分析中的应用以及对分析结果的评测方法。为大数据
在着多种有意义的划分，强制地将数据按照单一的方法聚类，得不到有效的、明确清晰的、可诠释的结果，所以需要对研究对象的聚类进行划分，发现数据中包含的多个侧面，即属性的自然分组，针对这些不同侧面进行聚类，从而得到多种聚类方法，这种方法成为多维聚类。多维聚类方法针对数据的不同侧面，得到数据聚类的多种方法，最后让使用者
两类并为一类。每一次归并，都划去该对象所在的列与列序相同的行。经过ｍ一１次就可以把全部分类对象归为一类，这样就可以根据归并的先后顺序作聚类谱系图。
（二）最短距离聚类法
２．聚类结果与人ｌＴ的判断结果越吻合越好。根据第一方面，衍生出了目标函数的评价指标，比如各个样本到簇中心的平均距离，各簇中心的平均距离。根据第二方面，可以采用平均准确率作为主要的评价指标。对数据集合中任意两个样本（Ｘ，Ｙ），按照两者在聚类的结构和标准类别中可以构造四种关系：ａ是人工标注同类且聚类同簇的样本对，ｂ是人工标注不同类而聚类同簇的样本对，ｃ是人工标注同类而聚类不用簇的样本对，ｄ是人工标注不同类且聚类指标：积极准确率ＰＡ＝ｇ（ａ＋ｃ）
类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子
集，这样让在同一个子集中的成员对象都有相似的一些属性。（一）直接聚类法
个集合，这就会导致最终的可能结果多种多样。所以，对聚类分析的结
果进行评价是关键。对聚类效果进行评价的研究称为聚类有效陛分析。
分析的研究提供基本思路。
一
、
引言
当前，人类已经进入大数据时代，生产、生活、科研、服务等无不因大
数据而改变。大数据指的是所涉及的数据量规模巨大到无法通过人Ｔ，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。从数据中获取信息、知识、决策支持就是大数据分 ” 。由于大数据的数据量非常庞大，导致其分析效率十分低下，而大数据非结构化的特征又使得传统的分析方法不能直接使用，所以研究聚类分析在大数据分析中的应用十分必要。

e商务文档

浅谈聚类分析在大数据分析中的应用

相关文档推荐：