当前位置:文档之家› 总结报告-数据挖掘技术论文开题报告 精品

总结报告-数据挖掘技术论文开题报告 精品

数据挖掘技术论文开题报告
毕业都是需要进行论文的写作,数据挖掘技术论文的开题报告怎么写?下面是数据挖
掘技术论文开题报告,欢迎阅读!
数据挖掘技术综述
数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所
构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。

数据
挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,
数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何
进行数据挖掘,主要应用领域以及国内外现状分析。

一. 研究背景及意义
近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息
技术生产和搜集数据的能力大幅度提高。

千万个数据库被用于商业管理、政府办公、
科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。

这一趋势将
持续发展下去。

大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信
息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信
息形式不一致,难以统一处理。

面对这种状况,一个新的挑战被提出来:如何才能不
被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现
了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。

数据挖掘就是为迎合这种要求而产生并迅速发展起来的。

数据挖掘研究的目的主要是
发现知识、使数据可视化、纠正数据。

二. 概述
1,数据挖掘
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

这些
数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,
图像数据,甚至是分布在网络上的异构型数据。

发现知识的方法可以是数学的,也可
以是非数学的,可以是演绎的,也可以是归纳的。

发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行
数据自身的维护。

数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领
域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人
工智能、数理统计、可视化、并行计算等技术。

2,数据挖掘技术
数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可
以理解并对其有价值的新颖方式来总结数据。

它利用各种分析方法和分析工具在大规
模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策
和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,
反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏
离常规的异常现象。

所有这些知识都可以在不同的概念层次上被发现,随着概念树的
提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并
行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能
数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。

数据挖掘的目
标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类。

3.1 关联分析(Association Analysis)
关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列
模式。

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类
输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即
将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不
同簇中的对象差别很大。

聚类增强了人们对客观现实的认识,是概念描述和偏差分析
的先决条件。

聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为
数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重
要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今
可以迅速直接由数据本身得出结论。

3.4 概念描述
对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。

概念描
述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。

概念描述分为特征
性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。

生成一个类的特征性只涉及该类对象中所有对象的共性。

生成区别性描述的方法
很多,如决策树方法、遗传算法等。

3.5 偏差检测
数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。

偏差包括很
多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的
偏差、量值随时间的变化等。

偏差检测的基本方法是寻找观测结果与参照值之间有意
义的差别。

这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消
费习惯。

三.目前的研究现状及存在的主要问题
自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。

迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的
专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注
重多种发现策略和技术的集成,以及多种学科之间的相互渗透。

其他内容的专题会议也
把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。

1993年国家自然科学基金首次支持我们对该领域的研究项目。

目前,国内的许多科研单位和高等院校竞相开展
知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。

其中,北京系统工程
研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数
据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院
数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、
四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web
数据挖掘。

四. 研究内容
1,数据挖掘的过程
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可
实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:
图1,数据掘的一般过程
2.1 神经网络
神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。

它主要有
三种神经网络模型:前馈式网络、反馈式网络、自组织网络。


2.2决策树
决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。

它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属
性值判断从该结点向下的分支,在决策树的叶结点得到结论。

相关主题