当前位置：文档之家› 数据挖掘领域经典算法的研究

数据挖掘领域经典算法的研究

一
＋占：０
ＳＶＭ算法在进行分类是需要两个阶段：第一个阶段是用标签数据训练ＳＶＭ分类器，找到分类数据之间的超平面，学习到权重Ｗ和
偏置ｂ；第二个阶段是预测阶段，根据分割线函数计算测试数据的类别。崔建明［２１等人将ＳＶＭ算法应用于文本分类。于文勇Ｄ提出一种结合特征场和模糊核聚类支持向量机的图像分类辨识方法。２．２ＫＮＮ算法Ｋ最邻近分类算法是基于类比学习，即是如果一个数据点在特征空间中的Ｋ个最近邻或者最相似的数据点的大多数都属于某一个类比，那么这个数据点也应该会属于这个类别。Ｋ值得选择对于ＫＮＮ分类算法有很大的影响，如果Ｋ值选择的过大，那么分类的误差就会越大。如果Ｋ值选择的过小，那么就会出现过拟合现象。刘应东［４１提出一种基于ｋ一最近邻图的小样本ＫＮＮ分类算法。 ’ ３聚类算法聚类算法是一种无监督的机器学习过程。聚类的过程就是讲一个数据对象分割成子集的过程。每个子集都是一个簇，簇内之间的数据点彼此相似，而与其他簇内的数据点则不相同。聚类方法能够应用到不同的领域，比如图像模式识别，Ｗｅｂ搜索或者生物学中。常见的聚类算法有Ｋ — ｍｅａｎｓ算法和基于密度的ＤＢＳＣＡＮ算法。３．１Ｋ — ｍｅａｎｓ算法Ｋ — ｍｅａｎ算法是一种典型的基于距离的聚类算法。Ｋ — ｍｅａｎｓ算法采用距离作为相似指标，通过找到距离相近的对象形成一个簇进行聚类。Ｋ可初始的聚类中心点的选择对于聚类的结果又很大的影响。因为，Ｋ就是代表初始的时候有几个簇，在每次的迭代计算中，都会根据其和各个簇中心点的距离来分配到最近的簇。Ｋ — ｍｅａ数据挖掘领域经典算法的研究
程璇董鲁豫
（山东科技大学信息科学与工程学院，山东青岛２６６５９０）
摘要：大数据产业的兴起给数据挖掘领域带来了新的生机。数据挖掘是从各行各业产生的大量的信息中挖掘出对于人们有用和有价值的知识。数据挖掘是信息时代的产物，数据挖掘是从很早就开始研究，但是真正的将数据挖掘应用到实践中是从最近几年开始兴起。本文就数据挖掘领域中经典的算法，按照分类算法和聚类算法分别给出了介绍。关键词：数据挖掘；分类算法；聚类算法
１概述法简单，当样本类别之间区别较大的时候，分界线比较明显，所以比数据挖掘是计算机科学领域的热门的学科。互联网时代下，人较适合处理大数据。但是Ｋ — ｍｅａｎｓ算法有尤其局限性，就是对于Ｋ们在Ｅｔ常活动中每时每刻都在产生数据，这些数据看是没有联系，值得选择，没有一个很好选择办法，所以需要自己多做实验看效果实则是蕴含着大量的有价值的知识。然而，人眼肯定是无法从这些再调整。数据中找出规则，所以数据挖掘通过科学计算就能够从中找出对人３．２ＤＢＳＣＡＮ算法们有益的数据。韩家炜［ ’ 】表示数据挖掘是信息技术自然进化的结果。ＤＢＳＣＡＮ算法是一种基于密度的聚类算法，使用了密度相连的数据挖掘领域有十大经典的算法：ＫＮＮ，Ｋ — ｍｅａｌｌＳ，朴素贝叶斯，思想。ＤＢＳＣＡＮ就是是要用到密度的思想在一个连通区域内形成一支持向量机ＳＶＭ，决策树ＩＤ３，决策时Ｃ４．５，关联规则Ａｐｒｉｏｒｉ算法，个簇。冯少荣科辱ＤＢＳＣＡＮ算法应用到了交通事故查询领域。最大期望ＥＭ算法，ＡｄａＢｏｏｓｔ，分类与回归ＣＡＲＴ。这些算法是数据４结论挖掘领域的学者研究最多的算法，并都进行了改进。我们将介绍常本文概述了数据挖掘领域中常用的分类算法和聚类算法，对其用的分类算法和聚类算法。中的原理以及应用领域做了深入迁出的介绍。经过今年的发展，数２分类算法据挖掘已经融合到了多个学科，多个领域，但是数据挖掘领域中的分类算法主要是解决数据分类问题，包括二分类和多分类问些经典的算法仍然是初学者应该掌握的基本知识，尤其是经典的题。分类算法是有监督的机器学习算法，需要用大量的带标签数据分类算法和聚类算法。训练分类模型，然后再对测试集进行预测。分类算法需要先学习到参考文献先验知识，然后才能够对测试集进行分类。常用的分类算法有ＳＶＭ［１］ＪＩＡＷＥＩＨＡＮ（］￣）．数据挖掘概念与技术［Ｍ］．北京：机械工业出版社，和ＫＮＮ算法。２００６．２．１ＳＶＭ算法【２】崔建明，刘建明，廖周宇．基于ＳＶＭ算法的文本分类技术研究［Ｊ】．计ＳＶＭ算法也叫支持向量机算法，在分类问题和预测问题都有很算机仿真，２０１３，３０（２）：２９９ — ３０２．强的优势。ＳＶＭ用于分类问题就是在可分的数据点之间形成最大超［３】于文勇，康晓东，葛文杰，等．基于模糊核聚类的图像ＳＶＭ分类辨识平面能够最大间隔地将不同类别的数据隔离。ＳＶＭ算法还引入了惩［Ｊ］．计算机科学，２０１５，４２（３）：３０７ — ３１０．罚系数，能够处理噪声点，解决了噪声点会引起分割线变动问题。［４１Ｙ４应东，牛惠民．基于ｋ一最近邻图的小样本ＫＮＮ分类算法［Ｊ】．计算ＳＶＭ能够处理线性可分的分类问题，同时也能够处理缵陛不可分的机工程，２０１１，３７（９）：１９８ — ２００．分类问题。当ＳＶＭ处理线性不可分的问题时，会通过选择核函数将【５】冯少荣，肖文俊．基于密度的ＤＢＳＣＡＮ聚类算法的研究及应用［Ｊ］．低维空间转换到高维空间，在高维空间中找到超平面，从而将数据计算机工程与应用，２００７，４３（２０）：２１６ — ２２１．进行分类。设训练数据，而，， … ， ∈Ｒ分类超平面可以表示为：

e商务文档

数据挖掘领域经典算法的研究

相关文档推荐：