当前位置:文档之家› 毕业设计论文--数据挖掘技术

毕业设计论文--数据挖掘技术

目录摘要 (iii)Abstract (iv)第一章绪论 (1)1.1 数据挖掘技术 (1)1.1.1 数据挖掘技术的应用背景 (1)1.1.2数据挖掘的定义及系统结构 (2)1.1.3 数据挖掘的方法 (4)1.1.4 数据挖掘系统的发展 (5)1.1.5 数据挖掘的应用与面临的挑战 (6)1.2 决策树分类算法及其研究现状 (8)1.3数据挖掘分类算法的研究意义 (10)1.4本文的主要内容 (11)第二章决策树分类算法相关知识 (12)2.1决策树方法介绍 (12)2.1.1决策树的结构 (12)2.1.2决策树的基本原理 (13)2.1.3决策树的剪枝 (15)2.1.4决策树的特性 (16)2.1.5决策树的适用问题 (18)2.2 ID3分类算法基本原理 (18)2.3其它常见决策树算法 (20)2.4决策树算法总结比较 (24)2.5实现平台简介 (25)2.6本章小结 (29)第三章 ID3算法的具体分析 (30)3.1 ID3算法分析 (30)3.1.1 ID3算法流程 (30)3.1.2 ID3算法评价 (33)3.2决策树模型的建立 (34)3.2.1 决策树的生成 (34)3.2.2 分类规则的提取 (377)3.2.3模型准确性评估 (388)3.3 本章小结 (39)第四章实验结果分析 (40)4.1 实验结果分析 (40)4.1.1生成的决策树 (40)4.1.2 分类规则的提取 (40)4.2 本章小结 (41)第五章总结与展望 (42)参考文献 (44)致谢 (45)附录 (46)摘要:信息高速发展的今天,面对海量数据的出现,如何有效利用海量的原始数据分析现状和预测未来,已经成为人类面临的一大挑战。

由此,数据挖掘技术应运而生并得到迅猛发展。

数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。

本文主要介绍如何利用决策树方法对数据进行分类挖掘。

文中详细的阐述了决策树的基本知识和相关算法,并对几种典型的决策树算法进行了分析比较,如:核心经典算法——ID3算法;能够处理不完整的数据、对连续属性的数据离散化处理以及克服了ID3算法偏向于选择取值较多的属性作为测试属性的缺点的C4.5算法;利用GINI系数判别数据集中的分裂属性并形成二叉树的CART算法;使数据的分类不受机器主存的限制,有着良好的伸缩和并行性的SLIQ和SPRNIT 算法。

ID3算法是最核心的技术,所以本文主要对它进行了研究和设计实现。

第四章在JAVA编译器上实现ID3算法,并对结果进行分析,决策树生成,分类规则的提取,以便于以后直接使用这一规则进行数据分析。

在论文的最后一章介绍了目前数据挖掘技术的研究前景。

关键词:数据挖掘;决策树;ID3算法;信息增益;熵值Abstract: Today, the massage is passed very quickly. How to investigate current status and forecast the future with good use of tremendous original Data has been becoming the big challenge to human beings when facing the emergence of mass Data in information era. Consequently, Data mining technology emerge and boom quickly.Data mining, is the product of the evolution of information technology, which is a complex process excacting the implicated and valuable pattens, knowledge and rules from a large scale of dataset.This paper mainly introduces the decision tree algorithm for classification. Firstly, the basic knowledge about decision tree and some representative algorithms for inducing decision tree are discussed, including ID3,which is classical;C4.5,which can deal with continuous attributes and some empty attribute ,at the same time, it can overcome the ID3’weakness which is apt to select some attribute with more value; CART, which uses GINI coefficient about attribute selection and induces a binary tree; SLIQ and SPRINT, which are scalable and can be easily parallelized, moreover they don’t have any limitation of main memory. Because ID3 algorithms which is classical, so in the paper I main introduce it.The firth chapter,ID3 algorithm is developed on the java platform by java,and carries on the analysis to the result, the decision tree production, the classified rule extraction, it will be advantageous for us to use this rule to carry on the data analysis directly in the future. I introduce data mining technology research prospect in the paper last chapter.Key words: Data mining; Decision tree; ID3 algorithm ;Information gain; Entropy value第一章绪论1.1 数据挖掘技术1.1.1 数据挖掘技术的应用背景最近几十年以来,随着互联网的发展和企业信息化程度的日益提高,科研政府部门普遍使用电子事物处理技术,商品条形码被广泛使用,以及电子商务和科学数据库的急剧增长为我们带来了海量的数据。

激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。

而目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识的手段,从而导致了“数据爆炸但知识贫乏”的现象。

大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。

人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”这就引发了一门新兴的自动信息提取技术:数据中的知识发现,简称KDD[1] (Knowledge Discovery in Data Base)。

其内容主要涉及人工智能领域中的机器学习,模式识别、统计学、智能数据库、知识获取、专家系统、数据库可视化、数据库领域的数据仓库联机分析处理(OLAP),多维数据库等方面。

KDD 已经是解决目前信息系统中普遍面临的“数据爆炸”而“信息缺乏”状况的最有效的手段之一,并且它的研究领域具有较大的研究意义和较多的研究方向一度成为数据库研究界最热的研究方向,拥有人数众多的研究群体,受到学术界和企业界的极大关注。

多学科的相互交融和相互促进,使得这一学科得以蓬勃发展,而且已初具规模。

并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论,甚至到了脍炙人口的程度。

数据挖掘是目前研究的热点,它可以说是数据库研究中的一个非常有应用价值的新领域,它融合了数据库、人工智能、机器学习、数理统计学、模糊数学等多个领域的理论和技术。

数据挖掘 DM[2] (Data Mining)是 KDD 的一个最关键步骤,因此实际应用中把 DM 和 KDD 不作区分。

数据挖掘是目前研究的热点,它可以说是数据库研究中的一个非常有应用价值的新领域,它融合了数据库、人工智能、机器学习、数理统计学、模糊数学等多个领域的理论和技术。

从数据分析的观点来看,数据挖掘分为两类:描述性数据挖掘和预测性数据挖掘。

描述性数据挖掘以概要方式描述数据,提供数据所具有的一般性质;预测性数据挖掘分析数据,建立一个或一组模型,产生关于数据的预测。

包括分类和回归。

分类可用于提取描述重要数据的模型或预测未来的数据趋势。

1995 年,在美国计算机年会(ACM)上,提出了数据挖掘的概念。

即通过从数据库中抽取隐含的,未知的,具有潜在使用价值信息的过程。

数据挖掘应用的普遍性及带来的巨大的经济和社会效益,吸引了许多专家和研究机构从事该领域的研究,许多公司推出了自己的数据库挖掘系统。

从1989 年举行的第十一届国际联合人工智能学术会议上 KDD被提出,到现在不过十多年的时间,但在 Gartner Group 的一次高级技术调查中将数据挖掘和人工智能列为“未来 5 年内将对工业产生深远影响的五大关键技术”之首,并且还将数据挖掘列为未来五年内十大新兴技术投资焦点的第二位。

根据最近 Gartner 的 HPC 研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。

”1.1.2数据挖掘的定义及系统结构数据挖掘也称为数据库中的知识发现KDD(Knowledge Discovery in Data Base)。

相关主题