当前位置：文档之家› 一种分类方法的研究

一种分类方法的研究

%
介绍
现代计算和信息技术的发展，使得工程领域收集了大量的
类时才建立分类，因此会招致很高的计算开销，当有大量的训练资料时，严重影响它的可伸缩性。
资料。数据挖掘技术可以用来从大量的资料中发现模式和有用的信息。数据挖掘包括各种不同的技术用来对原始资料进行预处理以便抽取特征和移除噪声信息，然后找到有趣的模式、模型和其它有用的信息，进行新的资料的分类或者预测将来的事件等等。分类是资料挖掘中一种非常重要的领域。可以这样描（! %， …，，其中述分类：给定一个数据记录集合 !" ! !， ! &， ! #， $）（ …，称作预测变量，那么分类问题 ! !， #） $ 称作目标变量， % %’% ， # 使得分类的误差 ! 最小。目标就是要找到一个函数： &： ! !$ ，变量 $ 和决策变量 ! % 的值可以是离散的也可以是连续的。有很多技术可以用于数据挖掘中的分类问题，决策树神经网络 (#*，基于实例的分类 (#*等等。
（!""# ）文章编号 %""!=A&&%= %&="""E="!
!"#"$%&’ () $ *+$##,),&$-,(. /"-’(0
1, 23")".4 1,3 13 5’$.4 5’$(
（I9722: 2J B9232519; K L.3.465630 ， M61N134 O31@6/;10< 2J F6/23.?019; M61N134 %"""A&） .38 F;0/23.?019;，
从表 & ，可以得到最终的聚类为 ,& 、 ,# 、 ,’ 。给定一个没有类标号的测试资料，根据生成的聚类结构就可以预测它的目标（)$’ ，？），作如下计算：变量的值。比如给定资料 . *，（! ，（! ，（! ， / ,& ） 1%$+*! ， / ,# ） 1"$’)& ， / ,’ ） 1"$%%( ， ! 更加接近 ,’ ，因此 " 的值为 " 。上述的训练资料都是数值型的，实际上该算法也适合于符号资料的处理。但是在处理以前必须对符号数据进行数值化，也就是把一个离散的符号函数转化成数值函数，这种转化非常直观，也很简单，在文献 :+;中有详细的描述。
(%)&*
!$!
聚类分析
在 # 维空间上给定一个具有 ( 个资料记录的集合 ) ，把)
分成 * 个集合， …，那么 + （ …，就是一个聚类。 +%， +!， +’， !， ’） % %’%，主要的聚类方法有以下几类 (#*。、层次的方法（716/./9719.: 划分方法（-./010123134 560728 ）、基于密度的方法（863;10<=>.;68 560728 ）、基于网格的 560728 ）、基于模型的方法（5286:=>.;68 方法（4/18=>.;68 560728 ）。 560728 ）聚类分析传统地不被用来进行分类。因为聚类是无指导学，所以聚类不依赖预先定义的类和带习（?3;?-6/@1;68 :6./3134 ）类标号的训练资料。如果给每一个聚类分配一个类标号，即进，那么就可以用学习过的行有指导的学习（;?-6/@1;68 :6./3134 ）聚类结构对新的资料进行分类。这样就可以使得 + 最近邻分类法获得很好的伸缩性，因为不用计算每个训练资料之间的距离，而只要计算给定的资料与聚类中心之间的距离即可。
本线性可分性较差时，则非线性内核 RSB 的性能要优于线性内核 RSB。
表! 基于线性内核和径向基函数内核的 RSB 的签名鉴别结果
线性内核 RSB 错误拒绝率错误接受率径向基函数内核函数内核 RSB 错误拒绝率错误接受率
RSB 分类器的过程就是解一个如下形式二次规划问题： " # W/*X（!!$ Y % ! ! $ W %
、
! + 最近邻分类和聚类 !$% + 最近邻分类
’ 最近邻分类是一种非常直接的方法，它基于模拟学习。训练数据用 #,% 维属性描述。每个资料记录代表 #,% 维空间中的一个数据点，这样，所有的训练资料都存放在 #,% 维模式
"$")( "$%%# "$(!%
789 平方距离：
*
（! ， . -） 1%
& ) %
（! & (- & ）
% "
"$""& "$%’’
" "$%"%
-&
%&"
!
（& ）
’
"$%"%
其中， !& 和 -& 分别是在第 & 维 ! 的坐标和聚类 - 的中心坐标。下面给出算法说明，如图 % 所示。
!
! "% % %$’ %$’ !$()
! "! % %$’ %$’ !$()
! %% " " &$" &$"
! %! " " &$" &$"
! （#(% ）（）（） ! " #3% 4! " # ! （）； ! " # ) #
%$’* %$’* #$"’ #$"’
! ! （#(% ）（）（） ! & #3% 4! & # ）， …， …， !（ # 1! ， &， ’； & 1% ， !， * 。 %%"（#） & # ) #
当 #)% 时， $&& 1" ， $&" 1" ， $22 1" 。设目标变量 " 的取值范围为 " !5" ， …，定义每个目 %， +6，标类的平均向量：
’, ! ! !
"$"&* "$"&*
（# ） %!"
!
聚类 ,% 中心坐标（!$()，，分配类标号为 !，记作 ,% （!$()， !$()） !$()-!）聚类 ,! 中心坐标（&$"，，分配类标号为 !，记作 ,% （&$"， &$"） &$"-!）
基金项目：国家自然科学基金项目（编号：资助 SEAS"""E ）
& 有监督的聚类方法 &$% 算法描述
为了说明这种聚类方法，首先定义一些内容。设 !" （! %， ! !， ! &，…， ! ,， $ ）为定义在 ,-% 维空间中的向训练数据集的大小为 .，量，其中 ! % 为预测变量， $ 为目标变量，定义预测变量 ! % 与目标变量的 $ 之间的相关系数的平方 (A*：
作者简介：李雪峰，博士研究生，主要从事数据挖掘、决策支持系统方面的研究。刘鲁，博士生导师，研究方向为电子商务、供应链管理和信息系统。博士研究生，研究方向为电子商务、信息系统。 "! ，
计算机工程与应用
!""#$%&
E
（’ ） %&" 1 其中：
!
#"
（’ ） $&"
! !
!
（’ ） $&& "$22（’）
第二步，根据公式（& ）计算每个训练资料与两个初始聚类的距离，并且得到最终的聚类结构和数目，计算结果如表 & （! ）所示。
表&
! !% !! " % ! % ! " "
（. ，（. ， / ,%）/ ,!）
%! &，# ， …， …， ! ,& ) # ) % , 1" ， %， +； &)% ， !， * ’,
一种分类方法的研究
张 ! （北京航空航天大学经济管理学院，北京 %"""A&）
B=5.1:： ;?-6/C92-D;13.$925
摘要介绍了一种基于聚类的分类方法。传统的聚类是无监督学习，也就是说不需要先验知识。基于聚类的分类方法
李雪峰
刘
鲁
利用样本的类标号信息进行学习，形成非层次结构的聚类，每个聚类都有类标号，用来对新的数据进行分类。对于大量的学习样本，具有很好的伸缩性。关键词数据挖掘分类聚类文献标识码 F 中图分类号 GH&%%
标变量只取 " ， % 两个值。训练资料集如表 % 所示。经过第一步计算得到的结果如表 ! 所示。
（下转 *( 页）
%"
!""#$%&
计算机工程与应用
%$$$!V， RSB 的主要目标就是通过一个内核函数把训练样本映
射到高维空间，使得两类样本线性可分，然后在该空间里寻找最优分类超平面。不同的内核函数就对应不同的 RSB。训练
空间中。给定一个未知样本，找 ’ 最近邻分类法搜索模式空间，这 ’ 个资料记录是未知样出最接近未知样本的 ’ 个资料记录。本的 ’ 个 “近邻” 。 ’ 最近邻分类法在实践中取得了很大的成功，但是它的分类性能容易受噪声资料和异常值的影响。不象决策树这样的学习方法， ’ 最近邻分类法直到新的样本需要分

e商务文档

一种分类方法的研究

相关文档推荐：