当前位置：文档之家› 决策树分类算法的分析和比较

决策树分类算法的分析和比较

分割样本集，只能处理具有离散型属性和属性值齐全的样本，生成形如多叉树的决策树。后来出现的Ｃ４．５算法经过改进，能够直接处理连续型属性，也能够处理属性值空缺的训练样本。针对ＩＤ３系列算法和Ｃ４．５系列算法生成决策树分枝较多、规模较大的问题，又出现了根据ＧＩＮＩ系数来选择测试属性的决策树算法，使得生成的决策树可以是结构简单、易于理解的二叉树。大多数决策树算法都采用后剪枝策略，但它策略明显存在将已经生成的分枝再剪去的重复劳动，降低了决策树的生成效率，因此出现了以ＰＵＢＬＩＣ算法为代表的预剪枝决策树算法。随后，为了增
２决策树分类算法比较
２．１ＣＬＳ学习算法ＣＬＳ主要思想是从一个空决策树出发，通过添加新的判定结点来改
善原来的决策树，直到该决策树能够正确地将训练实例分类为止。它对决策树的构造过程也就是假设特化的过程，所以ＣＬＳ可以看作是只带一个操作符的学习算法，此操作符可以表示为：通过添加一个新的判定条件（新的判定结点），特化当前假设。ＣＬＳ算法递归调用这个操作符，作用在每个叶结点来构造决策树。２．２ＩＤ３算法（ＩｔｅｒａｔｉｖｅＤｉｃｈｏｔｏｍｉｚｅｒ３）
ＨＡＯＹｕ－ｂｉｎ，ＪＩＮＰｅｎｇ－ｃｈｅｎｇ
ＡＢＳＴＲＡＣＴ：Ｔｈｉｓｐａｐｅｒｅｘｐｏｕｎｄｓｔｈｅｉｍｐｏｒｔａｎｔｆｕｎｃｔｉｏｎｓｏｆｔｈｅａｇｒｉｃｕｌｔｕｒａｌｉｎｆｏｒｍａｔｉｚａｔｉｏｎｉｎｔｈｅｎｅｗｐｅｒｉｏｄ，ｐｒｏｂｅｓｉｎｔｏｔｈｅｐｒｏｂｌｅｍｏｆｈｏｗｔｏｐｒｏｍｏｔｅｔｈｅｇｒｅａｔ－ｌｅａｐ－ｆｏｒｗａｒｄｄｅｖｅｌｏｐｍｅｎｔｏｆｔｈｅｒｕｒａｌｉｎｆｏｒｍａｔｉｚａｔｉｏｎｗｉｔｈｔｈｅｃｏｍｐｒｅｈｅｎｓｉｖｅｓｅｒｖｉｃｅｏｆｍｏｄｅｒｎａｇｒｉｃｕｌｔｕｒａｌｉｎｆｏｒｍａｔｉｚａｔｉｏｎ，ａｎｄｐｏｉｎｔｓｏｕｔｔｈａｔｏｕｒｃｏｕｎｔｒｙｓｈｏｕｌｄｐｒｏｖｉｄｅｔｈｅｔａｌｅｎｔｓｓｕｐｐｏｒｔｆｏｒｔｈｅｍｏｄｅｒｎａｇｒｉｃｕｌｔｕｒｅｂｙｕｓｉｎｇｔｈｅｍｏｄｅｒｎｉｎｆｏｒｍａｔｉｏｎｔｅｃｈｎｏｌｏｇｙ．ＫＥＹＷＯＲＤＳ：ａｇｒｉｃｕｌｔｕｒａｌｉｎｆｏｒｍａｔｉｚａｔｉｏｎ；ｃｈａｒａｃｔｅｒｉｓｔｉｃｍｏｄｅｒｎａｇｒｉｃｕｌｔｕｒｅ───────────── 第一作者简介：郝玉宾，女，１９７５年１１月生，１９９９年毕业于山西大
学，讲师，山西省委党校，山西省太原市学府街９６号，０３０００６．
ＳｐｅｅｄｉｎｇｕｐｔｈｅＣｏｎｓｔｒｕｃｔｉｏｎｏｆＡｇｒｉｃｕｌｔｕｒａｌＩｎｆｏｒｍａｔｉｚａｔｉｏｎｆｏｒＰｒｏｍｏｔｉｎｇｔｈｅＤｅｖｅｌｏｐｍｅｎｔｏｆｔｈｅＣｈａｒａｃｔｅｒｉｓｔｉｃＭｏｄｅｒｎＡｇｒｉｃｕｌｔｕｒｅ
参考文献［１］樊合文．以多方合作和资源整合推进发展［Ｎ］．经济日报，２００７－０６－０７（１３）．［２］张玉番．加快农业信息化建设，助推现代农业发展［Ｎ］．农民日报，２００７－１０－２５（６）．［３］中国社会科学院课题组．推进国民经济信息化的公共政策研究［Ｊ］．经济研究参考，２００７（１４）：２．［４］姚裕群．人力资源开发与管理［Ｍ］．北京：中国人民大学出版社，２００７．
大力开展远程教育，提高农民接受文化、科技、信息的能力。远程教育和培训的优势就在于不受时空限制，通过远程教育平台，可推动农业科技成果的转化吸收，培训出有文化、懂技术、会经营的新型农民。进而大大减轻了农民进城学习的负担，同时又推动城市教育资源向农村流
源、避免重复、协调发展、实施共享为立足点和出发点，充分发挥农口部门信息资源优势，农业部门与各级政府合作，组织实施全省农业数字信息资源共享工程，建立全省新农村信息资源中心，从而实现“数字化农业科技文献资源 ”“ 专题数据库资源 ”“ 多媒体软件资源 ”等信息资源在全省各乡镇、行政村和２０００多个新农村试点村共享。
Ｑｕｉｎｌａｎ提出的ＩＤ３算法是最早有影响的决策树算法，它是基于信息熵的决策树算法，它根据属性集的取值分类。２．２．１ＩＤ３算法原理
设Ｅ＝｛Ｖ１，Ｖ２， …，Ｖｍ｝是ｍ维有穷向量空间，其中Ｖｉ是有穷离散符号集，Ｅ中的元素ｅ＝（Ｅ１，Ｅ２， …，Ｅｎ）称为实例。其中Ｅｉ∈Ｆｉ，ｉ＝１，２， …，ｎ。设Ｐｅ和Ｎｅ是Ｅ的２个实例集，分别叫正例集和反例集。
信息资源是整个农村信息服务体系的基础及核心，为了进一步提高
科技文化素质、思想心理素质、组织协调素质、市场竞争素质等多个层
农村信息资源的实用性，省农业部门应牵头各涉农单位配合以整合资
面，因此，现代农民的培养是现代农业发展不可或缺的人力资本支撑。潜在人力资源向现实人力资源的转化，一般是一定的主体对其资源性质进行认识和作出使用的决策，这就是人力资源的发掘过程。３．３通过教育提高人的“能力”
所谓“能力”，是指人们顺利实现某种活动的心理条件。研究人力资源，根本目的是为了运用“人”的这种能力。从现实应用的形态看，能力要素包括体力、智力、知识、技能４部分。体力、智力、知识、技能四者的不同组合，形成人力资源多样化的丰富内容。人力资源拥有的体力、智力、知识和技能，使其具有推动物质资源的各种具体能力。作为政府，对农民采取“授人以鱼，不如授人以渔”，教其学会１～２门实用技术和技能，不断提高其综合素质，提升就业技能增强其在就业能力和在市场中的竞争能力，唯有培养农民创造性的适应能力，才能够在这千变万化的市场部分中维持自己，立于不败之地。
６５
刘莺迎决策树分类算法的分析和比较
本刊Ｅ－ｍａｉｌ：ｂｊｂ＠ｍａｉｌ．ｓｘｉｎｆｏ．ｎｅｔ信息工作探讨
加决策树算法的可扩展性和并行性，ＳＬＩＱ和ＳＰＲＩＮＴ等并行决策树算法被提出。最后，基于人机交互的决策树算法的提出打破了由计算机完全控制决策树生成的局面，将人工智能和人为干预加进了决策树的生成过程中。
摘要：在数据挖掘中存在多种算法，决策树分类算法是应用比较多的一种。基于决策
树分类算法的研究现状，对各种决策树分类算法的基本思想进行了阐述，并对不同的
算法进行了分析和比较。
关键词：决策树分类算法；ＩＤ３；后剪枝；ＧＩＮＩ系数
中图分类号：ＴＰ２７４；ＴＰ３１
文献标识码：Ａ
１决策树分类算法的发展
基于决策树的分类算法自提出至今，种类不下几十种。各种算法在执行速度、可扩展性、输出结果的可理解性，分类预测的准确性等方面各有千秋。
决策树分类算法的发展分如下几个阶段：首先，１９６６由Ｈｕｎｔ．Ｅ．Ｂ等人提出了ＣＬＳ（ＣｏｎｃｅｐｔＬｅａｒｎｉｎｇＳｙｓｔｅｍ）学习算法。这是第一次提出用决策树进行概念学习，随后出现的ＩＤ３算法采用信息熵原理选择测试属性
假设向量空间Ｅ中的正例集Ｐｅ和反例集Ｎｅ的大小分别为ｐ，ｎ，ＩＤ３基于如下两种假设：
在向量空间Ｅ上的一棵正确决策树对任意实例的分类概率同正反实例的概率。
一棵决策树对一实例做出正确判断所需的信息量为：Ｉ（ｐ，ｎ）＝－［ｐ（／ｐ＋ｎ）］ｌｇ［ｐ（／ｐ＋ｎ）］ ×ｌｇ［ｐ（／ｐ＋ｎ）］－［ｎ（／ｐ＋ｎ）］ ×ｌｇ［ｐ（／ｐ＋ｎ）］ ×ｌｇ［ｐ（／ｐ＋ｎ）］如果以某属性Ａ作为决策树的根，则Ａ具有ｍ个值｛Ｖ１，Ｖ２， … ，Ｖｍ｝，它将Ｅ分成ｍ个子集｛Ｅ１，Ｅ２， …，Ｅｍ｝，假设Ｅｔ中含有Ｐｔ个正例和Ｎｔ个反例，那么子集Ｅｔ所需的期望信息是Ｈ（Ｐｔ，Ｎｔ），以属性Ａ为根所需的期望熵是：Ｅ（Ａ）＝∑［（Ｐｔ＋Ｎｔ）（／Ｐ＋Ｎ）］Ｉ（Ｐｔ，Ｎｔ）以Ａ为根的信息熵增益是：Ｇａｉｎ（Ａ）＝Ｉ（Ｐ，Ｎ）－Ｅ（Ａ）ＩＤ３选择使Ｇａｉｎ（Ａ）具有最大的属性Ａ＊作为根节点，对Ａ＊的不同取值对应的Ｅ的Ｖ个子集Ｅｔ递归调用上述生成过程生成子节点。２．２．２ＩＤ３的优缺点（１）信息增益的计算依赖于特征数目较多的特征，而属性取值最多的属性并不一定最优。（２）ＩＤ３是非递增算法。（３）ＩＤ３是单变量决策树（在分枝节点只考虑单个属性），许多复杂概念的表达困难，属性相互关系强调不够，容易导致决策树中子树的重复或属性在决策树的某路径被检验多次。（４）抗噪性差，训练例子中正例和反例的比例较难控制。２．３Ｃ４．５算法Ｃ４．５算法采用了一种归纳学习的机制，它继承了ＩＤ３算法的优点，并在以下几方面对ＩＤ３算法进行了改进：（１）用信息增益率来选择属性，克服了用信息增益来选择属性时偏向选择值多的属性的不足。（２）可以处理连续数值型属性。（３）为了避免树的高度无节制地增长，避免过度拟合数据，采用了一种后剪枝方法，该方法是从一种称为“规则后修剪”（ｒｕｌｅｐｏｓｔ－ｐｒｕｎｉｎｇ）的方法演变而来。（４）对于缺失值的处理。在某些情况下，可供使用的数据可能缺少某些属性的值。然而Ｃ４．５算法在处理连续型测试属性中线性搜索阈值付出了很大代价。在２００２年，ＳａｌｖａｔｏｒｅＲｕｇｇｉｅｒｉ提出了Ｃ４．５的改进算法ＥＣ４．５算法，与Ｃ４．５相比ＥＣ４．５可将效率提高５倍，但是它的缺点是占用内存比

e商务文档

决策树分类算法的分析和比较

相关文档推荐：