当前位置:文档之家› 数据挖掘分类算法的研究与应用

数据挖掘分类算法的研究与应用

首都师范大学硕士学位论文数据挖掘分类算法的研究与应用姓名:刘振岩申请学位级别:硕士专业:计算机应用技术指导教师:王万森2003.4.1首都师范入学硕.卜学位论Z数据挖掘分类算法的研究与应用摘要,f随着数据库技术的成熟应用和Internet的迅速发展,人类积累的数据量正在以指数速度增长。

科于这些数据,人{}j已经不满足于传统的查询、统计分析手段,而需要发现更深层次的规律,对决策或科研工作提供更有效的决策支持。

正是为了满足这种要求,从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于大型数据库的数据挖掘(DataMining)技术得到了长足的发展。

所谓数据挖掘(DataMining,DM),也可以称为数据库中的知识发现(KnowledgeDiscoverDat曲鹅e,KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的数据r},,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。

因此,数据挖掘是数据库研究中的一个很有应用价值的新领域,它又是一门广义的交叉学科,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

分类在数据挖掘中是一项非常重要的任务,目前在商业上应用最多。

分类的目的是学会一个分类函数或分类模型,该模型能把数据库中的数据项映射到给定类别中的某一个。

{乍多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提}H。

本论文主要侧重数据挖掘中分类算法的研究,并将分类算法划分为急切分类和懒散分类,全部研究内容基本围绕着这种划分方法展开。

.1本文的主要研究内容:,l,讨论了数掂挖掘中分类的基本技术,包括数据分类的过程,分类数据所需的数据预处理技术,以及分类方法的比较和评估标准;比较了几种典型的分类算法,包括决策树、k.最近邻分类、神经网络算法:接着,引出本文的研究重点,即将分类算法划分为急切分类和懒散分类,并基于这种划分展歼对数据挖掘分类算法的研究。

2.结合对决簸树方法的研究,重点研究并实现了一个“懒散的基于模型的分类”思想的“懒散的决策树算法”。

在决策树方法的研究中,阐述了决策树的基本概念以及决策树的优缺点,决策树方法的应用状况,分析了决策树算法的迸一步的研究重点。

伪了更好地满足网络环境下的应用需求,结合传统的决策树方法,基于Ⅶ懒散的基于模型的分类”的思想,实现了一个网络环境下基于B/S模式的“懒散的决策树算法”。

实践表明:在WEB应fH程序叶i采用此算法取得了很好的效果。

、≯3.选取神经H络分类算法作为急切分类算法的代表进行深入的研究。

在神经网络中,重点分析研究了感知器基本模型,包括感知器基本模型的构造及其学习算法,模型的几何意义及其局限性。

并针对该模型只有在线性可分的情况一F彳‘能用感知器的学习算法进行分类的这一固有局限性,研究并推广了感知器模型。

茸都帅范人学帧l。

学位论Z数据挖掘分类算往的研究与应用4.重点研究了一类感知器推广模型——代数超曲面神经网络模型。

f在这一部分,酋先介绍了代数超曲面神经网络模型的构造及其几何意义>然后,洋细阐述了代数超曲面神经网络学习算法的具体实现,以及此算法的实验结果和创新之处;最后提出了进一步的研究目标。

代数超曲面神经网络模型在解决非线性问题上有很大的潜力,尤其对高维非线性数据分类有独特优势。

本研究的创新之处是算法的自适应升次计算,研究表明:采用自适应建模方式后,大大提高了建模成功率。

但是,对高维数据的分类,存在内存受限的问题,还需要进一步的深入研究。

~)r关键词:数据挖掘:分类v急切分类:懒散分类:决策树;感知器:代数超曲面神经网络rlI堕型!!!!!篓查堂堡!:兰竖堡:::墼塑丝堡坌茎竺鲨塑型塑兰宣旦ABSTRACTWiththeapplicationofDatabaseandthedevelopmentofInteract,accumulateddataareexponentialincreasing.Forthesedatapeoplearenotsatisfiedwiththetraditionalmethodsofqueriesandstatistics,butwanttofinddeeperregulationstoprovideeffectivedecisiontoscienceandresearchworks.Sodataminingtechnologythatapplymachinelearningtolargedatabasetoacquireusefulinformationfromalotofdataisdeveloped.Datamining(DM)Orknowledgediscoverdatabase(KDD)istodiscoverllsefillinformationandpotentialknowledgefromplentifulanduncompletedandnoiseandfuzzyandrandomdatawhicharchidedandnotknownbypeople.Thesediseoveredknowledgemi曲tbeUSedtomanageinforillationandoptimizequeriesandmakedecisionandcO眦rolprocedureandmaintaindatabaseandSOon.SodataminingiSaveryvaluednewareaofdatabaseresearcharea.anditisacrossedsubjectthatadoptstheoryandtechnologyofdatabaseandartificialintelligentandmachinelearningandstatisticsandSOon.ClassificationiSavcryimportanttaskindataminingandextensivelyappliedtocommerceatpresentThedestinationofclassificationiStolearnaclassificationfunctionorclassificationmodelthatcanmapadataitemtoapreassignedclass.Theresearcherofmachinelearningandexpertsystemandneuralbiologyprovidesalotofclassificationmethods.ThisPaDcrdoessomeresearchWOrksaboutclassificationalgorithmindatamining.ClassificationalgorithmisdividedtoeagerandlazyandIotalresearchWOrkSarebasedonthisdivide.ThemainWOrkofthethesis1.Thebasetechnologiesofclassificationindataminingareintroduced.Thesetechnologiesincludetheprocedureofclassificationandthepreprocessingofclassjficationdataandcomparedandevaluatedcriterionofclassificationmethods.Severaloftypicalclassificationalgorithmsarecomparedwhicharedecision-treeandk—nearestneighborandneuralnetworkalgorithm.ThentheemphasisofthepaperiSinducedthatdividetheclassificationtoeagerandlazyandtheresearchofclassificationalgorithmindatamiIlingisbasedonthisdivide.2.Alazydecision.treealgorithmthatcomesfromtheideaoflazyclassificationbasedonmodeliSresearchedonthebaseoftheresearchofthetraditionaldecision.tree.Illtraditionaldecision—tree.theconeeprtsandadvantagesanddisadvantagesofdecision—treearepresented,andtheapplicationandresearchsituationofdecision.treeareanalyzed.ApplingtoWebcfnvironmentawebapplicationusedlazydecision—treealgorithmthatcomesfromtheideaoflazyIll苎型堑垫叁堂塑!兰些丝兰墼塑堡堡坌鲞蔓i塑墅竺!!壁旦basedonmodelclassificatonisdeveloped.AndthepracticalrunshowsthismethodacquiredbeRergrade.3.Neuralnetworkisdeeplyresearchedasrepresentationofeagerclassification.anditsPeNeptronisselected.Atfirstthecreationoftypicalperceptronmodellearnalgorithmareintroduced.TheIlonthebaseoftheprincipalandgeometricalpresentationoftypicalperceptionmodel,thelimitationsoftypicalperceptronmodelarestudiedThislimitationiSthatpereeDtronlcamalgorithmcanbeUSedonlywhendataarelinearseparability.Toresolyethisproblem,expandedperceptronmodelsareresearch.4AlgebrahypersurfaceneutralnetworkisakindofexpandedperceDtronmodel.ThismodeliSanemphasisofthisPap既Atfirsttheereationoftllismodelanditsgeometricalpresentationareintroduced.Thenit’Slearningalgorithmisaccomplishedandtest’Sresultsandinnovationofprogramarepresented.Atlastthefurtheraimsareprovidebaseontest’sconclusion.Thismodelispotentialtoresolvenonlinearseparabilityproblems;especiallyitadaptstoclassif-yhigh.dimmensiondata.Adaptiveraisedegreecomputermethodistheinnovationofresearch,RescarchesshowthatSuccessrateofcreatingmodelraiseafterusingtheadaptiremcthod.Butitexiststhelimitationofmemoryforhi曲一dimcnsiondata.Soadeeplyresearchwillbecontinued.Keywords:DataMining:Classification;EagerClassification;LazyClassification;DecisionTree;PerceptmmAlgebraHyperSurfaceNeutralNetwork菏都师范大学硕}。

相关主题