当前位置:
文档之家› 浅谈聚类分析在大数据分析中的应用
浅谈聚类分析在大数据分析中的应用
新类之间的距离 , 这样就得到一个新的 ( m—1 )阶的距离矩阵 ;再从新 的距离矩阵中选 出最小者 d i j , 把G i 和G j 归并成新类 ; 再计算各类与新
类 的距离 ,这样一直下去 ,直至各分类对象被归为一类为止。
三、使用聚类分析算法对大数据进行数据挖掘
由于大数据具有数据量庞大 ,分析效率低下 , 非结构化等特点 , 必 须对数据进行特殊的处理 。 ( 一 )构建样 本的属性向量 进行大数据的聚类分析 ,首先要从 非结构化 的数据 中通过特定算法 得到能够表示样本特征的属性 ,这些属性组成一个多维 向量 ,所有的样 本则组成一个多维空间。聚类的 目的就是对这个空间进行划分 , 从 而将
消极准确率 N A= d / ( b + d ) 平均准确率 A A = ( P A + N A ) / 2 P A保证 了同类的识别度 ,N A保证 的异类的区分度 , A A是两者的综
最短距离聚类法 , 是在原来 的m×m距离矩阵的非对角元素 中找出 , 把分类对象 G p 和G q 归并为一新类 G r , 然后按计算公式计算原来各类 与
进行聚类分 析,由于脏数据有着与正常数据截然不同的特征 , 很容易将 它们从空间中分离 出来聚成一类或多类。观察粗分类的结果 , 找到疑似 脏数据的聚类 ,并对聚类中的样本进行观察分析 ,确定其为脏数据后 , 将其排除 m样本。
( 三 )对 数 据 进 行 重 新 分 类 ,分 析 分 类 结 果 对剔除脏数据的样本进行重新分类,得到新的分类结果。 由于大数据 中所面对的复杂数据是多侧面的,多侧面数据本身就存
聚类分析 中,存在两种相互联 系的评价标准 : 1 . 聚类结果中 , 簇 内越紧密膜 间越分离越好 ;
先把各个 分类对象单独视为一类 , 然后根据距离最小的原则 ,依次 选 出一对分类对象 ,并成新类 。如果其中一个分类对象 已归于一类 ,则 把另一个也归人该类 ;如果一对分类对象 正好属于 已归的两类 , 则把这
样本归类。 对于大数据来说 ,构建大数据样本的属性 向量是一个非常耗时的过 程 ,因此需要使用并行运算技术 ,提高运算效率。
浅谈 聚类 分析在大 数据 分析 中的应 用
范联 伟
安 徽 四创 电子 股份 有 限公 司 安徽
合肥
2 3 0 0 8 8
【 摘 要 】大数据 指的是所涉及的数据量规模 巨大到无法通过人工 ,在合 理时间 内达到截取 、管理 、处理、并整理成 为人类所 能解读的信 息。传 统 的数据分析 方法无 法对 大数据进行分析 。本文针对 大数据 的特性 ,总结 了聚类分析方法再 大数据分析 中的应用以及对分析结果的评测方法。
决定需要 的聚类划 。
( 四 )聚 类 结果 评 测
二 、聚 类分 析 方 法
聚类分析是对 于静态数据分析的一 门技术 ,在许多领域受 到广泛应 用 ,包括机器学习 、 数据挖掘 、模式识别 、图像分析以及生物信息 。聚
从数学 的角度看,聚类分析是一个组合问题 ,将 n个对象划分为 I n
【 关 键 词 】 大数 据 分 析 聚类 分 析 方 法 中图分类号 :T P 1 8 1文献标识 码:B 文章编号:1 0 0 9 — 4 0 6 7 ( 2 0 1 4 ) 1 7 — 6 7 — 0 1
大数据具有数据量庞大 , 分 析效率低下 ,非结构化 等特点 ,无法使
用传统的数 据分析方法进行分析。本文针对大数据的特性 ,总结 了聚类 分析方法再 大数据分析 中的应用以及对分析结果的评测方法 。为大数据
在着多种有意义 的划分 ,强制地将数据按照单一 的方法聚类 , 得不到有 效 的、明确清晰 的、可诠释的结果 ,所以需要对研究对象的聚类进行划 分 ,发现数据中包含的多个侧 面 ,即属性的 自 然分组 ,针对 这些不 同侧 面进行聚类 , 从而得到多种聚类方法 ,这种方法成为多维聚类 。多维聚 类方法针对数据 的不 同侧面 , 得 到数据聚类的多种方法 ,最后让使用者
两类并为一类。每一次归并 ,都划去该对象所在 的列与列序相同的行 。 经过 m 一 1 次就可以把全部分类对象归为一类 , 这样就可以根据归并的先 后顺序作 聚类谱系图。
( 二 )最短 距 离聚 类 法
2 . 聚类结果与人l T 的判断结果越吻合越好 。 根据第一方 面,衍生 出了 目标 函数 的评价指标 ,比如各个样本到簇 中心的平均距离 , 各簇 中心的平均距离 。根据第二方面 ,可以采用平均 准确率作为主要的评价指标。 对数据集合 中任意两个样本 ( X , Y) , 按照两者在聚类 的结构和标准 类别 中可以构造 四种关 系:a 是人工标注同类且聚类同簇 的样本对 , b 是 人工标注不同类而聚类 同簇的样本对 , c 是人工标注同类而聚类不用簇 的 样本对 , d 是人工标注不同类且聚类指标 : 积极准确率 P A = g ( a + c )
类是 把相似 的对 象通过静态分 类的方法分成 不同的组别 或者 更多的子
集 ,这样让在 同一个子集 中的成员对象都有相似 的一些属性 。 ( 一 )直接 聚 类 法
个集合 ,这就会 导致最终的可能结果多种多样。所以,对聚类分析 的结
果进行评价是关键。对聚类效果进行评价 的研究称为聚类有效 陛分析。
分析的研究提供基本思路 。
一
、
引言
当前, 人类 已经进入大数据时代, 生产 、生活 、科研 、服务等无不因大
数据而改变。大数据指的是所涉及的数据量规模巨大到无法通过人T , 在合理时间内达到截取、管理、处理 、并整理成为人类所能解读的信息 。 从数据中获取信息 、知识 、决策支持就是大数据分 ” 。 由于大数据的数据量非常庞大 ,导致其分析效率十分低下 ,而大数 据非结构化的特征又使得传统的分析方法不能直接使用 , 所 以研究聚类 分析在大数据分析中的应用十分必要 。