当前位置:文档之家› 决策树分类算法的分析和比较

决策树分类算法的分析和比较


分割样本集, 只能处理具有离散型属性和属性值齐全的样本, 生成形如 多叉树的决策树。后来出现的 C4.5 算法经过改进, 能够直接处理连续型 属性, 也能够处理属性值空缺的训练样本。针对 ID3 系列算法和 C4.5 系 列算法生成决策树分枝较多、规模较大的问题, 又出现了根据 GINI 系数 来选择测试属性的决策树算法, 使得生成的决策树可以是结构简单、易 于理解的二叉树。大多数决策树算法都采用后剪枝策略, 但它策略明显 存在将已经生成的分枝再剪去的重复劳动, 降低了决策树的生成效率, 因此出现了以 PUBLIC 算法为代表的预剪 枝 决 策 树 算 法 。 随 后 , 为 了 增
2 决策树分类算法比较
2.1 CLS 学习算法 CLS 主要思想是从一个空决策树出发, 通过添加新的判定结点来 改
善原来的决策树, 直到该决策树能够正确地将训练实例分类为止。它对 决策树的构造过程也就是假设特化的过程, 所以 CLS 可以看作是只带一 个操作符的学习算法, 此操作符可以表示为: 通过添加一个新的判定条 件( 新的判定结点) , 特化当前假设。CLS 算法递归调用这个操作符, 作用 在每个叶结点来构造决策树。 2.2 ID3 算法( Iterative Dicho to mizer3)
HAO Yu-bin, J IN Peng-cheng
ABSTRACT: This paper expounds the important functions of the agricultural informatization in the new period, probes into the problem of how to promote the great - leap - forward development of the rural informatization with the comprehensive service of modern agricultural informatization, and points out that our country should provide the talents support for the modern agriculture by using the modern information technology. KEY WORDS: agricultural informatization; characteristic modern agriculture───────────── 第 一 作 者 简 介 : 郝 玉 宾 , 女 , 1975 年 11 月 生 , 1999 年 毕 业 于 山 西 大
学, 讲师, 山西省委党校, 山西省太原市学府街 96 号, 030006.
Speeding up the Constr uction of Agr icultur al Infor matization for Pr omoting the Development of the Char acter istic Moder n Agr icultur e
参考文献 [ 1] 樊合 文.以 多 方 合 作 和 资 源 整 合 推 进 发 展[ N] .经 济 日 报 , 2007- 06- 07( 13) . [ 2] 张 玉 番.加 快 农 业 信 息 化 建 设 , 助 推 现 代 农 业 发 展[ N] .农 民 日 报 , 2007- 10- 25( 6) . [ 3] 中国社会科学院课题组.推进国民经 济 信 息 化 的 公 共 政 策 研 究[ J] . 经济研究参考, 2007( 14) :2. [ 4] 姚裕群.人力资源开发与管理[ M] .北京: 中国人民大学出版社, 2007.
大力开展远程教育, 提高农民接受文化、科技、信息的能力。远程教 育和培训的优势就在于不受时空限制, 通过远程教育平台, 可推动农业 科技成果的转化吸收, 培训出有文化、懂技术、会经营的新型农民。进而 大大减轻了农民进城学习的负担, 同时又推动城市教育资源向农村流
源 、避 免 重 复 、协 调 发 展 、实 施 共 享 为 立 足 点 和 出 发 点 , 充 分 发 挥 农 口 部 门信息资源优势, 农业部门与各级政府合作, 组织实施全省农业数字信 息资源共享工程, 建立全省新农村信息资源中心, 从而实现“数字化农业 科 技 文 献 资 源 ”“ 专 题 数 据 库 资 源 ”“ 多 媒 体 软 件 资 源 ”等 信 息 资 源 在 全 省 各乡镇、行政村和 2 000 多个新农村试点村共享。
Quinlan 提出的 ID3 算法是最早有影响的决策树算 法 , 它 是 基 于 信 息熵的决策树算法, 它根据属性集的取值分类。 2.2.1 ID3 算法原理
设 E={ V1, V2, …, Vm} 是 m 维有穷向量空间, 其中 Vi 是有穷离散符号 集, E 中的元素 e=( E1, E2, …, En) 称为实例。其中 Ei∈Fi, i=1, 2, …, n。设 Pe 和 Ne 是 E 的 2 个实例集, 分别叫正例集和反例集。
信息资源是整个农村信息服务体系的基础及核心, 为了进一步提高
科 技 文 化 素 质 、思 想 心 理 素 质 、组 织 协 调 素 质 、市 场 竞 争 素 质 等 多 个 层
农村信息资源的实用性, 省农业部门应牵头各涉农单位配合以整合资
面, 因此, 现代农民的培养是现代农业发展不可或缺的人力资本支撑。潜 在人力资源向现实人力资源的转化, 一般是一定的主体对其资源性质进 行认识和作出使用的决策, 这就是人力资源的发掘过程。 3.3 通过教育提高人的“能力”
所谓“能力”, 是指人们顺利实现某种活动的心理条件。研究人力 资 源, 根本目的是为了运用“人”的这种能力。从现实应用的形态看, 能力要 素包括体力、智力、知识、技能 4 部分。体力、智力、知识、技能四者的不同 组合, 形成人力资源多样化的丰富内容。人力资源拥有的体力、智力、知 识和技能, 使其具有推动物质资源的各种具体能力。作为政府, 对农民采 取“授人以鱼, 不如授人以渔”, 教其学会 1~2 门实用技术和技能, 不断提 高其综合素质, 提升就业技能增强其在就业能力和在市场中的竞争能 力, 唯有培养农民创造性的适应能力, 才能够在这千变万化的市场部分 中维持自己, 立于不败之地。
65
刘莺迎 决策树分类算法的分析和比较
本刊 E- mail:bjb@mail.sxinfo.net 信息工作探讨
加决策树算法的可扩展性和并行性, SLIQ 和 SPRINT 等并行决策树算法 被提出。最后, 基于人机交互的决策树算法的提出打破了由计算机完全 控制决策树生成的局面, 将人工智能和人为干预加进了决策树的生成过 程中。
摘 要: 在数据挖掘中存在多种算法, 决策树分类算法是应用比较多的一种。基于决策
树分类算法的研究现状, 对各种决策树分类算法的基本思想进行了阐述, 并对不同的
算法进行了分析和比较。
关键词: 决策树分类算法; ID3; 后剪枝; GINI 系数
中图分类号: TP274; TP31
文献标识码: A
1 决策树分类算法的发展
基于决策树的分类算法自提出至今, 种类不下几十种。各种算法在 执行速度、可扩展性、输出结果的可理解性, 分类预测的准确性等方面各 有千秋。
决策树分类算法的发展分如下几个阶段: 首 先 , 1966 由 Hunt.E.B 等 人提出了 CLS( Concept Learning System) 学习算法。这是第一次提出用决 策树进行概念学习, 随后出现的 ID3 算法采用信息熵原理选择测试属性
假 设 向 量 空 间 E 中 的 正 例 集 Pe 和 反 例 集 Ne 的 大 小 分 别 为 p, n, ID3 基于如下两种假设:
在向量空间 E 上的一棵正确决策树对任意实例的分类概率同正反 实例的概率。
一棵决策树对一实例做出正确判断所需的信息量为: I( p, n) =-[ p(/ p+n) ] lg[ p(/ p+n) ] ×lg[ p(/ p+n) ] -[ n(/ p+n) ] ×lg[ p(/ p+ n) ] ×lg[ p(/ p+n) ] 如果以某属性 A 作为 决 策 树 的 根 , 则 A 具 有 m 个 值 { V1, V2, … , Vm} , 它将 E 分成 m 个子集{ E1, E2, …, Em} , 假设 Et 中含有 Pt 个正 例 和 Nt 个反例, 那么子集 Et 所需的期望信息是 H( Pt, Nt) , 以 属 性 A 为 根 所 需 的 期望熵是: E( A) =∑[ ( Pt+Nt) (/ P+N) ] I( Pt, Nt) 以 A 为根的信息熵增益是: Gain( A) =I( P, N) - E( A) ID3 选择使 Gain( A) 具有最大的属性 A* 作 为 根 节 点 , 对 A* 的 不 同 取值对应的 E 的 V 个子集 Et 递归调用上述生成过程生成子节点。 2.2.2 ID3 的优缺点 ( 1) 信 息 增 益 的 计 算 依 赖 于 特 征 数 目 较 多 的 特 征 , 而 属 性 取 值 最 多 的属性并不一定最优。 ( 2) ID3 是非递增算法。 ( 3) ID3 是单变量决策树( 在分枝节点只考虑单个属性) , 许多复杂概 念的表达困难, 属性相互关系强调不够, 容易导致决策树中子树的重复 或属性在决策树的某路径被检验多次。 ( 4) 抗噪性差, 训练例子中正例和反例的比例较难控制。 2.3 C4.5 算法 C4.5 算法采用了一种归纳学习的机制, 它继承了 ID3 算法的优点, 并在以下几方面对 ID3 算法进行了改进: ( 1) 用 信 息 增 益 率 来 选 择 属 性 , 克 服 了 用 信 息 增 益 来 选 择 属 性 时 偏 向选择值多的属性的不足。 ( 2) 可以处理连续数值型属性。 ( 3) 为了避免树的高度无节制地增长, 避免过度拟合数据, 采用了一 种后剪枝方法, 该方法是从一种称为“规则后修剪”( rule post- pruning) 的 方法演变而来。 ( 4) 对于缺失值的处理。在某些情况下, 可供使用的数据可能缺少某 些属性的值。 然而 C4.5 算法在处理连续型测试属性中线性搜索 阈 值 付 出 了 很 大 代价。在 2002 年, Salvatore Ruggieri 提出了 C4.5 的改进算法 EC4.5 算法, 与 C4.5 相 比 EC4.5 可 将 效 率 提 高 5 倍 , 但 是 它 的 缺 点 是 占 用 内 存 比
相关主题