当前位置:文档之家› 数据挖掘研究现状综述

数据挖掘研究现状综述

数据挖掘引言数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。

所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。

从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。

如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。

与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。

从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。

被发现的知识可以用来进行信息管理、查询优化、决策支持等。

而数据挖掘是对这一过程的一个综合性应用。

目录引言 (1)第一章绪论 (3)1.1 数据挖掘技术的任务 (3)1.2 数据挖掘技术的研究现状及发展方向 (3)第二章数据挖掘理论与相关技术 (5)2.1数据挖掘的基本流程 (5)2.2.1 关联规则挖掘 (6)2.2.2 .Apriori算法:使用候选项集找频繁项集 (7)2.2.3 .FP-树频集算法 (7)2.2.4.基于划分的算法 (7)2.3 聚类分析 (7)2.3.1 聚类算法的任务 (7)2.3.3 COBWEB算法 (9)2.3.4模糊聚类算法 (9)2.3.5 聚类分析的应用 (10)第三章数据分析 (11)第四章结论与心得 (14)4.1 结果分析 (14)4.2 问题分析 (14)4.2.1数据挖掘面临的问题 (14)4.2.2 实验心得及实验过程中遇到的问题分析 (14)参考文献 (14)第一章绪论1.1 数据挖掘技术的任务数据挖掘技术并不是仅仅面向特定数据库的简单检索查询,而是对大量的数据从宏观、微观的角度进行统计、分析、综合和推理,进而来指导现实生活中实际问题的解决,有时还要根据已有的数据展开推理预测。

数据挖掘的主要任务是分类、聚类、关联、序列等。

分类就是在数据中找出一个类别的概念描述,这个概念代表了这类数据的基本信息,即该类概念的内涵描述,然后根据这种描述建立模型。

常用的分类构造方法主要有统计方法、机器学习方法、神经网络方法等。

其中统计方法包括贝叶斯法和非参数法,机器学习方法包括决策树法和规则归纳法,神经网络法主要是以BP算法为主。

聚类就是把具有相似性的数据归纳成若干类别,同一类别的数据相似,不同类别的数据相异,聚类分析可以在分类的基础上进一步建立宏观的概念,进而发现数据的分布模式。

当两个或者两个以上变量的取值直接存在某种规律性时,我们就可以称之为关联。

序列和关联类似,只是把关联中一起发生的项目间关系扩展成一段时间的项目集间的关系,因此,序列常常被看作由时间变量连起来的关联。

序列的主要作用是分析长时间的相关记录,进而发现经常发生的模式。

1.2 数据挖掘技术的研究现状及发展方向近年来,随着计算机科学领域的快速发展,数据挖掘技术作为一种新兴的学科,其研究热度正在逐渐升温,研究的水平也在逐步提高,同时由于国家政府的政策支持与资金支持,越来越多的数据专业研究者被吸引加入其中。

在数据挖掘技术未来的研究过程中,其主要方向应包括以下几点:(1)参照于SQL 语言的标准化的研究成果,对数据挖掘技术进行形式化的描述,即发现数据语言。

(2)为实现关于数据额挖掘技术人机交互工作的顺利开展,应满足用户对知识发现过程的可视化进程。

(3)研究在计算机领域的数据挖掘技术的发展,可以通过数据挖掘服务器的有效配合的方式实现。

数据挖掘技术是面向应用的。

数据挖掘的研究有利地促进了数据挖掘技术应用的发展与推广。

在当今,数据的信息量是非常的庞大的,因为我们所获得的大量的实验数据的观测如果仅仅是去依靠一些比较传统的分析数据的工具,是非常的不靠谱的。

所以,对一些具有强大功能且具有自动化的工具的需要就越来越迫切了,这很显然的推动了数据挖掘技术的发展,并还在一定的程度之上取得了重要的成果。

随着研究的深入,数据挖掘技术的应用越来越广泛。

主要集中在以下几方面:(1)医学领域,随着医院信息系统和健康网站的发展,医疗活动、医学研究和健康信息行为中的数据被存储下来,形成了海量的健康医疗大数据。

这类数据的数据量大,存储形式多样,难以用传统数据处理方法进行处理数据挖掘由于能够分析海量异构数据,越来越多地被应用于健康医疗领域。

针对相关的生物医学与DNA的数据所分析的数据进行挖掘。

数据挖掘技术在基因工程中的染色体、基因序列的识别分析、基因表达路径分析、基因表达相似性分析、以及制药、生物信息和科学研究等方面都有广泛应用。

(2)金融领域,针对其金融的分析因为一些金融的投资一般都存在着很大的风险,所以我们在进行投资和决策的时候,就需要去对各种各样的投资方向相关的数据进行分析,我们现在不但可以对所获取的一些信息进行加工和处理,还可以对市场进行预测。

此外,数据挖掘技术广泛应用于银行的存款贷款趋势预测,优化存款贷款策略和投资组合。

(3)零售业,在零售业当中,运用数据挖掘技术不但可以在一定的程度之上了解相关消费者的消费倾向,从而迎合消费者的口味,制定出更加接地气的市场政策,以提高销售额。

当然,还可以适当的预测行业状况。

例如,数据挖掘技术被用来进行分析购物篮来协助货架设置,安排促销商品组合和促销时间商业活动。

(4)保险业,当中数据挖掘的应用我们知道,保险业是一种风险性十分巨大的业务。

相关的研究表明,数据挖掘技术的运用不但可以预测相关风险性,还可以在一定的程度之上为保险业务工作者提供正确的方向。

很明显,这是非常的有利于保险业的持续性发展的。

(5)商务管理,数据挖掘技术被用于分析客户的行为,分类客户,以此进一步针对客户流失、客户利润、客户响应等方面进行分析,最终改善客户关系管理。

第二章数据挖掘理论与相关技术2.1数据挖掘的基本流程在数据挖掘领域中使用率较高的是跨行业标准数据挖掘流程CRISP-DM(Cross-Industry Standard Process for Data Mining),它是欧盟机构于1999 年联合起草的。

CRISP-DM 流程可以简单分为如图2-2 所示的围绕被挖掘数据展开的六个步骤:1.商业理解理解数据来源业务的目标,也就是说通过数据想要挖掘到什么信息,想要达到或者实现什么样的结果。

这一步骤是通过CRISP-DM 基本流程进行数据知识获取的“目标和方向”。

2.数据理解了解可以进行数据挖掘的数据概况,包括数据源、数据内容、数据类型、数据完整性等等。

这一步骤与上一步骤是一个迭代关系,在进行数据理解的时候要结合商业理解来判断和检查数据,筛选出与商业理解有关联的可用数据,剔除掉无关和无用的数据。

同时在进行数据理解的时候也是对商业理解的融会贯通和横纵扩展,能进一步明确和丰富挖掘目标。

3.数据准备这一步骤是将通过第一二步骤初步确定出的源数据进行萃取(Extract)—转制(Transform)—加载(Load)后的提炼过程,简称ETL过程。

当数据源的数据数量越庞大、数据的转换规则越复杂时,ETL的过程就越困难。

但这一过程完成的好坏也直接决定进行分析的数据质量,从而影响分析和挖掘结果的准确性和可靠性。

4.建立模型当数据准备完成后,当然就是根据数据情况和业务目标特征,选择合适的算法模型,对数据进行建模。

运行合适的模型能够有效的达到挖掘目标,提炼出有意义的知识模式。

5.评估模型挖掘出什么样的结果才是真正有趣的知识模式?对模型进行评估就是通过检测结果的可信度、精确度等,从而判定结果是否达到了挖掘目标。

如果评估后发现建模结果并不理想,那就需要再返回第三步或第四步,认真检查数据是否符合需求,以及模型是否需要进行修正或变更等。

6.发布模型当确认分析和挖掘结果达到要求了,需要将结果进行发布。

,通过简洁的文字描述,或者转化为多维表格、时间序列折线图、散列图、饼状图等这些直观、形象的可视化图表,展示最终结果。

2.2关联规则挖掘主要算法2.2.1 关联规则挖掘从数据库中发现关联规则近几年研究最多。

目前,已经从单一概念层次关联规则的发现发展到多个概念层次的关联规则的发现。

关联分析包括数据属性间关联关系的分析和数据属性间关联规则的发现两部分。

关联关系主要有简单关系、时序关系、因果关系等多种类型,关联分析的目的在于发现数据之间是否存在相互关联相互影响的情况,从而组建数据属性之间的关系网。

关联关系的确定和强弱可以通过协方差来衡量,协方差在数学统计和概率学中是标识两个随机变量相互关系的一种统计测度。

关联规则数据挖掘中最经典的案例就是沃尔玛的啤酒和尿布的故事。

在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。

一个意外的发现是:“跟尿布一起购买最多的商品竟是啤酒!”2.2.2 .Apriori算法:使用候选项集找频繁项集该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。

然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。

然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。

一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。

使用了递推的方法, 生成所有频繁项目集。

2.2.3 .FP-树频集算法FP-树频集算法针对Apriori算法的固有缺陷。

采用分而治之的策略,不产生候选挖掘频繁项集,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。

当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。

实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。

2.2.4.基于划分的算法算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。

这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。

而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。

该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。

产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。

通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。

相关主题