南京师范大学硕士学位论文基于决策树的分类方法研究姓名:戴南申请学位级别:硕士专业:计算数学(计算机应用方向)指导教师:朱玉龙2003.5.1摘要厂{数掘挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取具有潜在应用价值的知识或模式。
模式按其作用可分为两类:描述型模式和预测型模式。
分类模式是一种重要的预测型模式。
挖掘分娄模式的方法有多种,如决策树方法、贝叶斯网络、遗传算法、基于关联的分类方法、羊H糙集和k一最临近方、/法等等。
,/驴I本文研究如何用决策树方法进行分类模式挖掘。
文中详细阐述了几种极具代表性的决策树算法:包括使用信息熵原理分割样本集的ID3算法;可以处理连续属性和属性值空缺样本的C4.5算法;依据GINI系数寻找最佳分割并生成二叉决策树的CART算法;将树剪枝融入到建树过程中的PUBLIC算法:在决策树生成过程中加入人工智能和人为干预的基于人机交互的决策树生成方法;以及突破主存容量限制,具有良好的伸缩性和并行性的SI,lQ和SPRINT算法。
对这些算法的特点作了详细的分析和比较,指出了它们各自的优势和不足。
文中对分布式环境下的决策树分类方法进行了描述,提出了分布式ID3算法。
该算法在传统的ID3算法的基础上引进了新的数掘结构:属性按类别分稚表,使得算法具有可伸缩性和并行性。
最后着重介绍了作者独立完成的一个决策树分类器。
它使用的核心算法为可伸缩的ID3算法,分类器使用MicrosoftVisualc++6.0开发。
实验结果表明作者开发的分类器可以有效地生成决策树,建树时间随样本集个数呈线性增长,具有可伸缩性。
,,荡囊关键字:数据挖掘1分类规则,决策树,分布式数据挖掘AbstractDatamining,referredtoasknowledgediscoveryindatabases,istheextractionofpaRemsrepresentingvaluableknowledgeimplicitlystoredinlargedatabasesordatawarehouses.ClassificationisaformofdataanalysisthatCallbeusedtoextractmodelsdescribingimportantdataclasses.Therearemanytechniquesfordataclassificationsuchasdecisiontreeinduction,BayesianclassificationandBayesianbeliefnetworks,association·basedclassification,geneticalgorithms,roughsets,andk—nearestneiighborclassifiers.Thispaperintroducesthedecisiontreemethodforclassification.Firstly'somebasicalgorithmsforinducingdecisiontreearediscussed,includingID3,whichusesinformationgaintoselectasplittingattributewhenpartitioningatrainingset;C4.5,whichCandealwithnumericattributes;CART,whichBsesG]NIruleinattributeselectionandinducesabinarytree;PUBLIC,whichputstreepruninginthetreebuildingphase;Interactivemethod,whichputsArtificialIntelligenceandhuman·computerinteractionintotheprocedureofdecisiontreeinduction;aswellasSLIQandSPRINTwhicharescalableandcanbeeasilyparallelized.Advantagesanddisadvantagesofthesealgorithmsarealsopresented.MethodsforinducingdecisiontreeindistributeddatabasesystemaredescribedandadistributedalgorithmbasedonID3isproposed.UsinganewdatastructurecalledattributesdistributionlistthisalgorithmCanbescalableandparallelized.Adecisiontreeclassifierusingascalable1D3algorithmisdevelopedbyMicrosoRVisualC++6.0.Someactualtrainingsethasbeenputtotesttheclassifierandtheexperimentshowsthattheclassifiercansuccessfullybuilddecisiontreesandhasgoodscalability.Keywords:datamining,classificationrules,decisiontree,distributeddecisionlI南京师范大学2003年硕士研究生毕业论文声明本人郑重声明:1、坚持以“求实、创新”的科学精神从事研究工作。
2、本论文是我个人在导师指导下进行的研究工作和取得的研究成果.3、本论文中除引文外,所有实验、数据和有关材料均是真实的.4、本论文中除引文和致谢的内容外,不包含其他人或其它机构已经发表或撰写过的研究成果.5、其他同志对本研究所做的贡献均已在论文中作了声明并表示了谢意.作者签名:煎堑日期:鲨2:生:12第一章绪论1.1课题的来源、研究背景及意义本课题来源于江苏省教育厅自然科学基金项目。
(项目号为2001SXXTSJBl2)。
随着数据库技术的不断发展及数据库管理系统的推广应用,存储在数据库中的数据量急剧增大,大量数据背后必定蕴藏着许多信息,如何从数据库中抽取出有用信息逐渐成为商业界普遍关心的问题。
数据挖掘的概念为解决这一问题而提出并在近年来引起学术界的广泛关注,成为学术研究的热点。
数据挖掘,又称数据库中的知识发现,是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的知识或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。
数据挖掘的任务是从大量的数据中发现模式或知识。
模式按其作用可分为两类:一类称为描述型模式,它是对数据中存在的规律作出描述。
如泛化模式、聚类模式、关联模式及时间序列模式。
另一类是预测型模式,它依据从已有数据获得的知识对未知数据的某些性质进行预测。
包括分类模式和回归模式。
其中,分类模式是一种重要的预测型模式。
挖掘分类模式在实际生活中有着重要的实用价值。
例如,某信用卡公司的数据库中保存着所有持卡人的记录,公司根据信誉程度,已将持卡人记录分成三类:良好、一般、较差,并且已将这三种类别标记赋给了数据库中的各个记录。
挖掘分类模式就是分析该数据库的记录数据,提取出客户属性和客户所属类别的关系,形成分类规则。
如通过分类挖掘产生了这样三条规则:规则1:“年收入在5万元以上,年龄在40~50岁之间的客户信誉良好”,规则2:“年龄在30---40岁之间,年收入在3~5万元的客户信誉一般”,规则3:“年龄在30岁以下,年收入不足3万元的客户信誉较差”。
根据分类规则l,公司可以对年龄在40~50岁之间,年收入在5万元以上的新客户作出信誉良好的预测,从而接受他们的申请服务请求。
公司也可以根据分类规则3拒绝对信誉预测值较差的新客户提供服务。
由此可见,对信用卡公司的数据库进行分类规则挖掘,提取出有用的分类规则,可以使公司有选择地提供服务,提高了公司的运营效率。
抽象地说,挖掘分类模式的步骤如下:首先,要对待挖数据库进行预处理:包括整理数据库中的记录,去除~些不全的汜录和无关的属性,主要是确定一个类别属性并确保每一个记录的类别属性都已给出。
然后,从待挖数据集中抽取出一定数量的配录形成训练样本集。
对训练样本集运用~种或多种分类挖掘方法进行挖掘,最终输出某种形式的分类模式。
分类模式的形式有决策树,数学公式,分类规则等。
用于挖掘分类模式的方法有很多,如决策树方法,贝叶斯网络,遗传算法,基于关联的分类方法,粗糙集,k.最临近方法,等等。
其中决策树方法以其易被人理解、需要信息煎少、效率及准确率较高等优点占据着重要地位。
决策树方法自产生至今,先后涌现出多种算法,包括ID3,C4.5,CART,SLIQ,SPRINT,PUBLIC,基于人机交互的方法等。
他们的共同特点是对训练样本集进行挖掘后都会生成一棵形如二叉树或多叉树的决策树。
树的叶子节点代表某一类别,非叶节点,包括根节点及内节点代表某个一般属性(非类别屈性)的一个测试,测试的一个结果形成非叶节点的一个分枝。
从根节点到叶子节点的一条路径形成一条分类规则。
一棵决策树能够很方便的转化为若干条分类规则。
人们可以依据分类规则直观地对未知类别的样本进行预测。
综上所述,分类模式挖掘技术作为数据挖掘的重要分支将对电信、银行、保险、零售、医疗等诸多行业提供决策支持,对未来商业和人们的生活也将产生深远的影响。
挖掘分类模式的算法有很多,其中,决策树算法因其卓越的优点在分类挖掘算法中占有重要地位。
本文作者选择分类挖掘方法作为研究课题,并着重研究了基于决策树的分类挖掘方法。
2南京师范大学2003年硕士研究生毕业论文:jil=十决策树的分类方}去研究1.2论文的内容安排论文首先在第一章介绍了研究课题的来源、背景和意义。
接着在第二章介绍了决策树分类方法的主要概念,对几种具有代表性的决策树算法进行了较详细地阐述,并对各种算法的性能作了分析比较,指出了它们的优缺点。
在第三章,作者对分布式环境下的分类规则挖掘进行了探讨,介绍了主要概念和研究现状,提出了一种在主从分布式环境下的决策树分类算法:分稚式ID3算法,并对其性能作了分析。
作者依据ID3算法的基本原理,结合SLIQ、SPRINT算法的可伸缩特性,提出了一种可伸缩的ID3算法,以此算法为核心,作者独立开发了一个决策树分类器。
在论文的第四章给出了对这个分类器的功能介绍和性能分析。
在论文最后,作者对全文进行了总结并指出了进一步研究的方向。