当前位置:文档之家› 大数据聚类算法的研究现状与展望

大数据聚类算法的研究现状与展望


及 基 于 降维 的聚类 3种 。
现 状 。
传统聚类算法包含分 区聚类算法、分层聚类算法、基于 2.1 商业 应用
密度 的聚类算法、基于网格的聚类算法、基于模 型的聚类算
商业 智能f2】可 以说是大数 据聚类 应用的 “前 辈”,对企
法。其中,分区聚类算法根据点和点之间在单个分 区中的分 业 内部的大数据进行聚类分析,可以挖掘 出很 多隐藏的规律
并行聚类 是指将 数据进行 分块 ,然后分发给不 同的机 给出指导意见。
基金项目:福建省教育厅中青年教师教育科研项目资助;项目名称:基于Hado0p平台的大数据挖 掘算法优化研 究;项目编号:JA15657。 作者简介:李慧敏 (1985一 ),女,福建仙游人,讲 师, ̄-t--;研 究方向:网络与智能信息技术的教学。
过降维可 以消除无关信息和冗余信息,同时缩小样本空间, 2.2农 业应用
有 效 改善 高维 度 下 的复 杂 性 ,降低 失误 率 。
在农业领域,大数据聚类算法也应用广泛 ,因为农业数
1.2 多机 聚类
据具有没有先验知识的特点,通过有效聚类可以挖掘到 隐藏
多机聚类又分为并行聚类和基-T-Map Reduce的聚类。 其中的规律和知识 ,为 农民的种植、养殖等生产、销售环节
算法 (CURE)。其 中,CLARANS的优势在动态处 理上 ; 类实验 ,得到股票板块 分类 ,为投资者的投资决策提供 有益
BTRCH提高数据处理效率的方 式是充分利用其自身的数据 参考。
结构节省空间;CURE的特点是用一组分散的数据点来表示
在通信领域 ,王海 晶 将聚类结果结合运营商生命周期
量划分的不确定性 问题,但是速度较慢。
群 ,更准确地了解客户的使用行为,以此制定新的策略。
基于抽样 的聚类算法 先从 大数据 中抽 取一个样 本 ,对
在金融领域 ,大 数据聚类 的应用也在快速发展。在各大
样本进 行聚类 ,再 应用 到整个大 数据上 ,提高 了效率并节 商业银 行 中,利用大 数据 聚类的结果 ,针对 性地 制定个性
பைடு நூலகம்
省了空间。抽样聚类主 要有 以-F3种聚类算法 :基于随机 选 化产品来满足客户的个 性化金融需求 ,增加客户忠诚性 。海
择 的聚类 算法 (CLARANS)、利用层 次方 法 的平衡 迭代 沫等『3 根据盈利 能力指标、偿债能力指标 、资产管理质量指
规 约和聚类 (BTRCH)和 针对大 型数 据库 的高效 的聚类 标等15项财务指标对中国股票市场上所有上市公司进行了聚
目前大数据聚类算法 的应用才刚起步,我们需要探索更
法 和多 机聚 类 算法 【】】。
多、更高效的应用模式。商业、农业、移动网络、医疗、科学、
1.1单机 聚类算法
工程、法律、教育等特 定领域都能看到大数据聚类算法应用
单机聚类算法主要有传统聚类算法、基于抽样 的聚类 以 的影子。下面从几个关键领域 来分析大数据聚类算法的研究
— — 157 ——
第 18期 20l8年 9月
无 线 互 联 科 技 ·技 术 应 用
No.18 September,2018
徐勇[5 提 出了改进的谱 聚类算法 并应用到农业大数据平 也得 到快速发展。
台上 ,对黑龙江省的农垦系统各 个农场的农业机械装备水平 2013年 ,张焕君等[9 提 出了基于模糊聚类分析 的临床 路
聚类,这样能较好地表示不同类型的聚类 。
理论 ,分析得到 了不 同的用户群,然后分别从 用户个性化营
基于 降 维 的 聚类 算 法 是 在 聚 类 时 先 对 两 个 主 要 维 销策略方面 和用户挽留策 略方面提 出了相关 的对策建议,为
度—— 变量的数量和实 例的数 量 中的一个进 行预处理 ,通 黑龙江移动公司的发展提供决策参考。
当前,各个 领域 每时每刻都产生了大量的数据,我们 己 器 ,让它们并行运行聚类算法 ,以此提高速率 ,并且后续可
进入大数据时代 。谁能有效分析和利用这些海量数据 ,谁将 以很 方便 地 进 行扩 展 。
掌握创新和转型 的关键 。其中的一项关键技术 就是大数据
Map Reduce是一 种 将 任 务 分布 在 大 量 的服 务器 上 执 行
离距离聚类;分层聚类算法根据数据的层次进行划分;基于 和知识,这可能是企业创新和转型的关 键。目前已经广泛应
密度的聚类算法能发现不 同密度的区域;基于网格的聚类能 用于客户关系管理、异常消费行为检测、股票数 据分析等方
降低 算法复杂度 ;基于模 型 的聚类算法可 以较 好地避 免测 面。比如说通过聚类 从客户基本信息库中挖掘出不同的客户
数据进行聚类,将聚类结果结合黑龙江省垦区地理环境一同 径决策方法,栗伟等[】叫使用短文本白适应聚类算法解决 电子
分析,提 供解 决方案应对机 械装备水平差异大的问题 ;对全 病历 中医学名词的识别 问题 。Lenart等口 对患者 的血压、血
第 18期 2018年 9月
无 线 互 联 科 技
Wirele SS Internet TechnologY
No.18 September,2018
大 数据聚类算法的研究现状与展望
李于 慧怨 敏
(福建船政 交通职业学院 信息工程 系,福建 福州 350000)
摘 要:在大数据时代 ,如何 有效利用数据是 目前的研究重点 ,大数据聚类是其中的一个挑 战性研究课题 。文章对大数据聚 类算法进行了综述 。首先 ,介 绍大数据 聚类算法的分类及 比较 ;其次 ,归纳大数据 聚类算法在4个关键领域的研 究现状 ;最 后,总结了大数据 聚类算法面临的挑 战并对未来 的研 究方向进行了展望 。 关键词 :大数据 ;聚类算法;用户数据挖掘
的聚类 算法 ,在商业、农 业、移动 网络、医疗、科学 、教育等 的任务分解机制。目前已有大量研究将各种传统聚类算法改
应用领域都具有重要应用价值。
写成Ma口Reduce版本,并通过实验证明了可行性。
1 大数 据聚类算法介绍
2 各应用领 域研究现状
文中将 已有的大数据聚类算法划分成两种 :单机聚类算
相关主题