当前位置:文档之家› 数据挖掘文献综述

数据挖掘文献综述

湘潭大学本科生专业文献综述题目: 数据挖掘文献综述姓名: 林勇学院: 信心工程学院学院专业: 自动化班级: 一班学号: 2010550113指导教师: 张莹0前言随着计算机技术的迅猛发展,人类正在步入信息社会。

面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。

数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。

1什么是数据挖掘数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。

在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。

在深层次上,则从数据库中发现前所未有的、隐含的知识。

OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。

OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。

数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。

而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。

1.1 数据挖掘的任务数据挖掘的两个高层目标是预测和描述。

前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。

根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类:(1)特征规则。

从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取关于该疾病的特征规则。

(2)区分规则。

发现或提取要学习的数据(目标数据)的某些特征或属性,使之与对比数据能够区分开来。

例如,通过对某种疾病与其它疾病的症状的比较,可以提取出该疾病相对于其它疾病的区分规则,利用这些规则就可以区分出这种疾病。

(3)分类。

分类是用一个函数把各个数据项映射到某个预定义的类,或者说是开采出关于该类数据的描述或模型。

数据分类方法有决策树分类方法、统计方法、神经网络方法、粗集方法等。

例如,利用当前病历数据可以建立各种疾病的分类规则,对于新来的病人,根据其症状及分类规则就可以知道此人所患病的种类。

关于分类问题已经存在大量的研究。

此外,还有基于模式的关联性、聚类、变化和偏差分析等。

1.2 数据挖掘的特点数据挖掘技术具有以下特点:(1)处理的数据规模十分庞大,达到GB、TB数量级,甚至更大。

(2)查询一般是决策制定者(用户)提出的即时随机查询,往往不能形成精确的查询要求,需要靠系统本身寻找其可能感兴趣的东西。

(3)在一些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。

(4)数据挖掘中,规则的发现基于统计规律。

因此,所发现的规则不必适用于所有数据,而是当达到某一临界值时,即认为有效。

因此,利用数据挖掘技术可能会发现大量的规则。

(5)数据挖掘所发现的规则是动态的,它只反映了当前状态的数据库具有的规则,随着不断地向数据库中加入新数据,需要随时对其进行更新。

2 数据挖掘的过程2.1 确定业务对象确定业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。

挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

2.2 数据准备(1)数据的选择。

搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

(2)数据的预处理。

研究数据的质量,为进一步的分析作准备,并确定将要进行的挖掘操作的类型。

(3)数据的转换。

将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

2.3 数据挖掘对所得到的经过转换的数据进行挖掘,除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。

2.4 结果分析解释并评估结果,其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。

2.5 知识的同化将分析所得到的知识集成到业务信息系统的组织结构中去。

总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果。

3国内的发展现状及应用与国外相比,国内对DMKD的研究稍晚,1993年国家自然科学基金首次开始支持对该领域的研究项目。

近年来发展迅速,进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、“九五”计划等。

所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。

国内从事数据挖掘研究的机构主要在大学,也有部分在研究所或公司。

这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。

其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

"1尽管目前数据挖掘的论文统计数相当可观,但我国的数据挖掘应用尚处于尝试性的萌芽阶段,企业大规模地运用数据挖掘技术尚不普遍,个别企业或部门仅零星地运用数据挖掘技术,没有形成整体力量。

国内企业实现数据挖掘的困难在于缺少数据积累、难于构建业务模型、各类人员之间的沟通存在障碍、缺少有经验的实施者、初期资金投入较大。

目前在国内数据挖掘也是广泛应用在商业范围,对非盈利机构的信息研究不多。

4 数据挖掘的前景近几年对于数据挖掘的研究发展很快,预计在未来若干年,研究还会形成更大的高潮,研究的总体发展方向可能会集中到以下几个方面:(1)专业开发语言出现。

研究专门用于知识发现的数据挖掘语言,并使其走向形式化和标准化。

(2)寻求数据挖掘过程中更优秀的可视化方法。

实现在知识发现的过程中进行人机交互,图文数并茂,便于知识发现的过程能够很容易的被用户理解。

(3)研究基于网络环境下的数据挖掘技术(Web Mining)。

特别是在因特网上建立DMKD服务器,并且与数据库服务器配合,实现网络(远程)数据挖掘。

(4)加强对各种非结构化数据的开采(Data Mining for Audio & Video),如对图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采,这些数据类型或者比较复杂,或者是结构比较独特。

为了处理这些复杂的数据,就需要一些新的和更好的分析和建模方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。

(5)挖掘软件的适用性更加灵活。

如果一次挖掘不能实现相应的目标,可以进行交互式、动态性、分层挖掘等,即交互挖掘技术的发展。

(6)出现功能较强大的专用数据挖掘软件。

就目前来看,将来的几个热点发展方向包括网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘等,这些领域具有独特的数据性质,需要由独特的专用软件来支持。

5 结论数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。

6参考文献[1] 郑新奇.数据挖掘软件现状特点与发展趋势http://WWW..en 2005,6,13.[2] 田艳.数据挖掘技术的应用及发展[J].统计与信息论坛,2004,(7):18—21.[3] 朱世武.数据挖掘运用的理论与技术[J].统计研究,2003.8:45—51.[4] 黄解军.数据挖掘技术的应用研究[J].计算机工程与应用,2003,(2):45—48.[5]朱晓华.浅析数据挖掘技术在图书馆自动化中的应用[J].图书馆学研究,2002.(5):41—45.[6]边肇祺,张学工,等.模式识别.北京:清华大学出版社,1999.[7]王珊,等.数据仓库技术与联机分析处理.北京:科学出版社,1998.[8]Chen M S,Han J W,Yu P S.Data Mining:An Overview from Database Perspective.IEEE Transactions on Knowledge and Data Engineering,1996,8(6):866—883.[9]Piatetsky-Shapiro G,Fayyad U,Smith P.From Data Mining to Knowledge Discovery:An Overview.In:Fayyad U M,Piatetsky—Shapiro G,Smyth P,Uthurusamy R,eds.Advances in Knowledge Discovery and Data Mining,.&kAI /MIT Press,1996,1—35.[10]沈清,汤霖.模式识别导论.长沙:国防科技大学出版社,1993.[11]阎平凡,黄端旭.人工神经网络一模型,分析与应用.合肥:安徽教育出版社,1993.[12]Siberschatz A,Stonebraker M,Ullman j D.Database Systems:Achievements and Opportunities into the 21st Century.SIGMOD Record,1990,19(4):6—22.。

相关主题