当前位置:文档之家› 决策树与神经网络的分类比较

决策树与神经网络的分类比较

2010年第7期 福建电脑 53 

决策树与神经网络的分类比较 

吴春琼 

(福州英华职业学院福建福州350018) 

【摘要】:决策树与神经网络是数据挖掘中两种重要的算法。本文比较了决策树与神经网络在分类上的异同点。 

【关键词】:数据挖掘分类决策树神经网络 

0.引言 

数据库蕴藏大量信息,可以用来作为决策的依据。分类是~ 

种重要的数据分析形式.用于提取描述重要数据类。通过分类有 

助于我们更好更全面地理解数据 

一、数据分类 

举例而言.超市的进货人员要了解近期顾客的购买趋向,新 

产品是否有销售市场 网络管理员要分析网络流量的异常情况. 

判别是正常的用户行为或是恶意的病毒术马的作用 高考专业 

设置要留意的是考生报考专业的倾向 这些对数据的分析都集 

中在数据的”分类(cIassitication)”上.都需要构建一个模型或分 

类器来预测类属标号。在上面的i个实例中,新产品应对”有销 

售潜力”和”无销售潜力”:网络流量应对”正常”和”异常”:考生倾 

向的专业应对”专业1”、”专业2”……”专业n” 这些类属可以用 

离散值表示 

二、决策树与神经网络概述 

1、决策树方法 

决策树是一种常 【}I的数据挖掘算法.它是从机器学习领域 

中逐渐发展起来的一种分类函数逼近方法 『41决策树是一种树 

形结构.是一种有向无环树 决策树的本质是分类函数逼近算 

法。决策树的结构类似于流程图.有方向性,并且它的每一个叶 

节点与子结点以外的内部节点都可以代表一条属性上的规则 

在现实生活中.每个决策或事件的发生都有可能引起不同 

的事态发展.这种决策如果用有向的图形来表示,就是决策树 

决策树的归纳、生成过程一般包括两步.第一步产生一棵决策 

树。第二步是修剪决策树,排除冗余的枝叶以生成简练的树。决 

策树构造的时候不需要很多专业知识或设置参数.生成速度既 

快、准确性又高。 

决策树算法时常被应用在各个领域的分类工作中.商业应 

用中就经常使用决策树来对顾客或商品进行分类来生成消费规 

则。 

最初学者们利用专业领域的知识来提高决策树算法效率. 

现在学者们更多地利用模糊数学或粗糙集理论等.来对决策树 

算法进行提高与完善 

2、神经网络方法 

神经网络的说法来源于生物学上的神经网络 它模拟了生 

物的神经系统.将输入与输出的节点比喻为生物的神经系统中 

的神经元.是模拟生物的神经系统的结构和信息传递执行的方 

式来进行计算的一种算法。每个神经元都拥有感知(输入)和响 

应(输出)的行为 

神经网络神经网络的基本处理单元被称为神经元.大量的 

神经元互相连接形成网络.成为模拟生物的神经系统的模型。一 

个神经网络能进行适应性计算并有一定的学习能力.是一个大 

规模非线性自适应系统 

与其他数据挖掘方法不同.将神经网络技术用于数据挖掘. 

要解决好两个关键问题.一是降低训练时问。二是挖掘结果的可 理解性。[11 所有神经网络的工作过程主要分为两个阶段,一是学习阶 

段:二是工作阶段 I】1 

神经网络用于数据挖掘的困难之一是.对经过训练的神经 

网络的输出结果很难给出直观的规则.许多学者试图将专家系 

统和神经网络相结合.设计出兼有专家系统和神经网络优点的 

混合系统 Il1 

三、决策树与神经网络的分类比较 

1、决策树的分类过程 

与神经网络相比.决策树的优点在于可以处理非数值型的 

敏据 

决策树归纳从类标记的训练元祖学习决策树。决策树由决 

策节点、分枝和叶子所组成。在根节点和各个内部节点上选择最 

适合的属性捕述,并且根据该属性的不同取值.继续向下生成新 

的分支。这样树节点或叶节点分别对应着某一个类或划分。使用 

决策树算法对数据进行分类.可以很直观地显示出分类的规则。 

大部分决策树会产生二叉树结构.不过有些决策树算法产 

生的决策树就是多叉的树 CART算法得到的决策树每个节点 

有两个分枝.是一个二又树。 

决策树是一个由上自下生成的过程 每个内部节点都各自 

拥有对应这一条分枝解答方案.这个解答方案中包括了该节点 

的属性和判断规则。最后每个叶节点都会对应一个分类。一条由 

根节点到叶节点的路径可以解释出某一个分类的形成规则.所 

以使用决策树可以很容易地生成规则.规则很容易解读。 

大多数决策树的生成是沿用自顶向下递归的方法来构造 

的。首先训练数据集.使用合适的映射函数来表示模型。在模型 

产生的过程中,要求输入节点N,以训练数据集D。D=fd】,de,d,, 

……,d l。模型的预期输出将是一个决策树,它是基于数据集D 

产生的.以节点N作为根: 点 其中每个叶节点都被标记为一 

个C,。 

11创建~个根节点N 

21在数据集D中计算每个C;,计算节点N的解决方案。根据 

解决方案的不同,将形成若干个分枝。 

3)当节点N满足分枝条件的时候.选择最优化的分类方案. 

把数据集D划分为子数据集D.和D1,并创建N的子节点N。和 

N’。 4)继续对子节点N 和N1上的数据集D 与D1进行计算、分 

类、再次分枝 

在数据集D划分的时候.决策树算法选择最优的策略来进 

行划分.从而判断节点N上应当生成分枝 

沿着树中由根节点到每个树叶节点的路径.决策树可以转 

化为IF—THEN形式的分类规则 所提取的每个规则是从决策树 

中直接提取的,所以他们是互斥和穷举的。互斥指的是不可能存 

在规则与规则问的互相冲突.因为每个树叶有一个规则.而且任 

意元组都只能映射到一个树叶上.因此没有两条规则是由同一 54 福建 电脑 2010年第7期 

个元组触发的。穷举指的是对于每种属性一值的组合存在一个规 

则,使该规则集不需要默认规则。因此规则是无序的。 

表1所示的超市顾客信息表记录了顾客对某新产品的购买 

情况。其中持有会员卡、信用、收入、年龄字段等表示的是描述属 

性,购买新产品型号字段则是类别属性。 

持有会员卡 信用 收入 年龄 购买新产品型号 否 良 >5000 30岁以下 A1 否 优 >5000 30岁以下 A J 否 良 >5000 30 ̄50岁 A2 否 良 2oo0~500O 50岁以上 A2 是 良 <2000 50岁以一E A2 是 优 <2000 50岁以上 A1 是 优 <2000 30~50岁 A2 否 良 2000 ̄5000 30岁以下 Al 是 良 <2000 30岁以下 A2 是 良 2000 ̄5000 50岁以上 A2 是 优 2000 ̄5000 3O岁以F A2 否 优 2000 ̄5000 30 ̄50岁 A2 是 良 >5000 30^ ̄50岁 A2 否 优 2000 ̄5000 50岁以上 Al 

表1超市顾客信息表 

由表1转换的决策树分类如图1所示.沿着树中由根节点 

到每个树叶节点的路径划分出5条规则(路径)。 

图1由表1转换的决策树分类 

2、神经网络的分类过程 

神经网络是”向后传播分类法” 一个神经网络中的神经元 

分为输入和输出两种功能,其中每个连接都与一个杈重相关联。 

输入的数据首先由只接收输入数据的神经元接收 展示出来, 

之后数据再由每一个神经元传递给下一个层次里的每一个神经 

元 这些输出的数据有可能对系统形成影响.在学习阶段,通过 

调整这些权重,能够预测输入元组的正确类标号。由于单元之问 

的连接.神经网络学习又称为连接者学习(connectionist learn— 

ing)。 在神经网络工作的学习阶段.各个神经元的状态没有变化. 

但是各连接上的权重在学习的过程中不断改变着 已经输出的 

结果会重新导入神经网络中.把所得的结果和已知道的结果相 

对照.对照的结果重新发回神经网络中.依此来改变各连接上的 

权重。每次重新计算时.神经网络都比较上次的结果,因此会多 

耗费一些时间.但是这个学习的过程有助于神经网络更加精确。 

当学习的过程结束后.该网络对未知结果的数据集也能很好地 

进行计算 

神经网络是以分类树的形式创建层次聚类。有别于决策树, 

神经网络的聚类方法将每个数据簇描述为一个样本。样本充当 

了簇的”原型”.这里不一定是对应一个特定的数据实例或者对 象。根据某种距离度量的测算.新的对象可以分布到其标本最相 

似的簇。分配给簇的对象属性可以根据该簇的标本属性来预测 

神经网络的分类树不同于决策树 它的每个节点应对一个 

概念,包含了该概念的概率描述.汇总分类在该节点下的对象。 

概率描述包括概念的概率和形成如P(A J )的条件概率,其 

中A 是一个属性一值匹配,比如第i个属性取它的第 个可能 

值。G是概念类。分类时,计数累积和存储在每个节点中,用于概 

率计算。而决策树标记的是分支而不是节点.而且决策树采用的 

是逻辑描述符而不是概率描述符 神经网络的分类树在给定的 

层次上的兄弟节点上形成一个划分.为了用分类树对一个对象 

集进行分类.使用一个部分匹配的函数沿着最佳匹配节点的路 

径在分类树中向下移动 

同样以表1所示的超市顾客信息表记录了顾客对某新产品 

的购买情况.由神经网络的分类树进行分类.其结果如图2所示 

图2由表1转换的神经网络分类 

四、结论 

与神经网络相比.决策树可以很好地处理非数值型的数据. 

但是决策树对连续的数据(比如连续的数值型数据)不太擅长。 

假如一个属性有很多的属性值.在决策树中它就很有可能被选 

为根节点的属性.这样的决策树很容易形成深度为一.但是分枝 

很多的决策树形态。如果样本集是未知的.这样的决策树分类就 

1譬谊被解读为有意义的规则 神经网络的每个节点应对一个概 

念,而决策树标记的是分支而不是节点.而且决策树采用的是逻 

辑搞述符而不是概率描述符 神经网络既是高度非线性动力学 

系统.又是自适应组织系统.有很强的学习反馈能力。神经网络 

处理数值向量.并且要求对象模式只能用定量的特征来表示,许 

多聚类任务就只处理数值数据.或者必要时可以把它们的数据 

转换成定量的特征 神经网络的分类方法与实际的大脑处理有 

很强的理论联系 由于较长的处理时问和数据的复杂性。需要进 

一步的研究使神经网络更有效.并能够适用于大型数据库。 

参考文献: 

[1】刘同明,等,编著.数据挖掘技术及其应用[M].北京:国防大学出版社, 

2001.9. [2】元昌安,主编,邓松,李文敬,刘海涛,等,编著.数据挖掘原理与SPSS Clementine应用宝典『M1.电子工业出版社。2009.8. 【3】( ̄)Jiavcei Han,Michehne Kamber,著,范明,孟小峰,译.数据挖掘概 

念与技术[M】.机械工业出版社。2007.3. [41 ̄a.数据挖掘算法与应用[MI.北京:北京大学出版社,2006.4.

相关主题