数据挖掘领域经典算法的研究
一
+占 : 0
S V M 算 法 在 进 行 分 类 是 需 要 两 个 阶段 : 第 一 个 阶 段 是 用标 签数 据训练 S V M分类器 , 找到分类数 据之间的超平面 , 学 习到权重 W和
偏置 b ; 第 二个 阶段 是预测 阶段 , 根据分 割线 函数计 算测试 数据 的 类别 。 崔建明[ 2 1 等人将 S V M算法应用于文本分类 。 于文勇D 提 出一种 结合特征场和模糊核聚类支持 向量机的图像分类辨识方 法。 2 . 2 K N N算法 K最 邻近分类算法是基于类 比学 习 , 即是如果一个数据点在特 征空 间中的 K个最 近邻或者最相 似的数据点 的大多数都属于某一 个类 比, 那 么这个数据点也应该会 属于这个类别 。K值得选择对 于 K N N分类算 法有很大的影响 , 如果 K值选择 的过 大 , 那么分类 的误 差就会越大 。 如果 K值选择 的过小 , 那么就会 出现过拟合现象。 刘应 东[ 4 1 提 出一种基于 k 一最近邻图的小样 本 K N N分类算法。 ’ 3聚类算法 聚类算法是一种无监督的机器学习过程。 聚类的过程 就是讲一 个数据对象分割成子集的过程 。每个子集都是一个簇 , 簇 内之 间的 数据点彼此相似 , 而 与其他簇 内的数据点则不相 同。聚类方法能够 应用到不同的领域 , 比如 图像模式识别 , We b搜索或者生物学中。 常 见的聚类算法有 K — m e a n s 算法和基于密度的 D B S C A N算法 。 3 . 1 K — me a n s 算法 K — me a n 算 法是一种典型 的基 于距 离的聚类 算法。K — me a n s 算 法采 用距 离作 为相似指标 , 通过找 到距 离相近的对象形成一个簇进 行聚类 。K可初始的聚类 中心点的选择对于聚类 的结果又很大 的影 响。因为 , K就是代表初始 的时候有几个簇 , 在每次 的迭代计算 中 , 都会根据其 和各个 簇中心点的距 离来 分配 到最近 的簇 。 K — m e a数据挖掘领域 经典算法 的研 究
程 璇 董 鲁 豫
( 山 东科技 大学 信息科学与工程学院, 山东 青 岛 2 6 6 5 9 0 )
摘 要: 大数据产业的兴起给数据挖掘 领域 带来 了新 的生机 。数据挖掘是从各行 各业产生的大量的信息 中挖掘 出对于人们有 用和有 价值 的知识 。数据挖掘是信 息时代 的产物, 数据挖掘是从很早就开始研 究 , 但是真正的将 数据挖掘应 用到 实践 中是从 最近 几年 开始兴起 。 本 文就数据挖掘领域 中经典 的算法, 按 照分类算法和聚类算法分别给 出了介绍。 关键词 : 数据挖掘 ; 分 类算 法; 聚类算法
1概 述 法简单 , 当样本类别之 间区别较大 的时候 , 分界线 比较明显 , 所 以比 数据挖掘是计算机科学领域 的热 门的学科 。互联网时代下 , 人 较适合处理大数据。但是 K — me a n s 算法有尤其局 限性 , 就是对于 K 们在 E t 常活动 中每时每刻都在产生数据 ,这 些数 据看是没有联系 , 值得选择 , 没 有一个很好选择办法 , 所 以需要 自己多做 实验看效果 实则是蕴含着大量的有价值 的知识 。然 而 , 人眼肯定是无法从这些 再 调 整 。 数据 中找 出规则 , 所 以数 据挖 掘通过科学计算就能够从 中找 出对人 3 . 2 D B S C A N算 法 们有益 的数据 。 韩家炜[ ’ 】 表示数据挖 掘是信息技术 自然进化 的结果 。 D B S C A N算 法是 一种基于密度 的聚类算 法 , 使用 了密度相连 的 数据挖掘领域有十大经典的算法 : K N N , K — m e a l l S ,朴素贝叶斯 , 思想 。 D B S C A N就是是要用 到密度 的思想在一个连通区域 内形成一 支持 向量机 S V M, 决策树 I D 3 , 决策 时 C 4 . 5 , 关联 规则 A p r i o r i 算法, 个簇 。冯少荣科辱D B S C A N算法应用 到了交通事故查询领域 。 最大期望 E M算法 , A d a B o o s t , 分类 与 回归 C A R T 。这 些算法是数据 4 结论 挖掘领域的学者研究最多的算法 , 并都 进行了改进 。我们将介绍常 本文概述 了数据挖掘领域 中常用 的分类算法 和聚类算法 , 对其 用的分类算法和聚类算法 。 中的原理以及应用领域做 了深入迁 出的介绍 。经过今年 的发展 , 数 2分类算法 据挖掘 已经融 合到 了多个学科 , 多个领域 , 但是 数据挖掘领域 中的 分类算法 主要是解决数据 分类 问题 ,包括 二分类和 多分类 问 些经典的算法仍然是初学者应该掌握 的基本知识 , 尤 其是 经典的 题 。分类算 法是 有监 督的机器学习算法 , 需要用大量的带标签数据 分类算法和聚类算法 。 训 练分类模 型 , 然后再对测试集进行预 测。分类算法需要先学习到 参考文献 先 验知识 , 然后才能够对测试集进行分类 。常用的分类算法有 S V M [ 1 ] J I A WE I H A N ( ]  ̄ ) . 数据挖掘概念 与技 术[ M ] . 北京 : 机械工业 出版社 , 和K N N算法 。 2 0 0 6 . 2 . 1 S V M算法 【 2 】 崔建明, 刘建明, 廖周 宇. 基于S V M算 法的文本 分类技术研 究[ J 】 . 计 S V M算法也 叫支持 向量机算法 , 在分类 问题和预测问题都有很 算机仿真, 2 0 1 3 , 3 0 ( 2 ) : 2 9 9 — 3 0 2 . 强 的优 势。 S V M用于分类问题就是在 可分 的数据点之 间形成最大超 [ 3 】 于文 勇, 康晓 东, 葛文 杰, 等. 基于模糊核聚类的 图像 S V M 分类辨 识 平 面能够最 大间隔地将不 同类别 的数据 隔离 。 S V M算法还引入了惩 [ J ] . 计 算机科 学, 2 0 1 5 , 4 2 ( 3 ) : 3 0 7 — 3 1 0 . 罚 系数 ,能够处理 噪声点 ,解 决了噪声点会引起分割线变动 问题 。 [ 4 1 Y 4 应 东, 牛 惠民. 基于k 一 最近邻 图的小样本 K N N分类算 法[ J 】 . 计算 S V M能够处理线性可分的分类 问题 , 同时也能够处理缵 陛不可分的 机 工 程 , 2 0 1 1 , 3 7 ( 9 ) : 1 9 8 — 2 0 0 . 分类 问题 。当 S V M处理线性不可分 的问题时 , 会通过选择核 函数将 【 5 】 冯 少荣, 肖文俊 . 基 于密度的 D B S C A N聚 类算法的研 究及 应用[ J ] . 低 维空间转换 到高维空 间 , 在高维 空间 中找到超平 面 , 从而将 数据 计算机 工程 与应 用, 2 0 0 7 , 4 3 ( 2 0 ) : 2 1 6 — 2 2 1 . 进行分类 。设训练数据 , 而 , , … , ∈R 分类超平面可 以表示为 :