当前位置:文档之家› 浅谈数据挖掘技术及其应用

浅谈数据挖掘技术及其应用

1数据挖掘的起源2数据挖掘的定义3数据挖掘的过程3.1目标定义阶段3.2数据准备阶段3.3数据挖掘阶段3.4结果解释和评估阶段面对信息社会中数据和数据库的爆炸式增长,人们分析数据和从中提取有用信息的能力,远远不能满足实际需要。

但目前所能做到的只是对数据库中已有的数据进行存储、查询、统计等功能,但它却无法发现这些数据中存在的关系和规则,更不能根据现有的数据预测未来的发展趋势。

这种现象产生的主要原因就是缺乏挖掘数据背后隐藏的知识的有力手段,从而导致“数据爆炸但知识贫乏”的现象。

数据挖掘就是为迎合这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。

数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,简称KDD),比较公认的定义是由U.M.Fayyad等人提出的:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据集中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。

数据挖掘是一种决策支持过程,分析各组织原有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管理人员决策提供支持。

KDD的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖掘所进行的预处理和结果表达等一系列的步骤,是一个需要经过反复的多次处理的过程。

整个知识发现过程是由若干挖掘步骤组成的,而数据挖掘仅是其中的一个主要步骤。

整个知识发现的主要步骤有以下几点。

要求定义出明确的数据挖掘目标。

目标定义是否适度将影响到数据挖掘的成败,因此往往需要具有数据挖掘经验的技术人员和具有应用领域知识的专家以及最终用户紧密协作,一方面明确实际工作中对数据挖掘的要求,另一方面通过对各种学习算法的对比进而确定可用的算法。

数据准备在整个数据挖掘过程中占的比例最大,通常达到60%左右。

这个阶段又可以进一步划分成三个子步骤:数据选择(DataSelection),数据预处理(DataProcessing)和数据变换(DataTransformation)。

数据选择主要指从已存在的数据库或数据仓库中提取相关数据,形成目标数据(TargetData)。

数据预处理对提取的数据进行处理,使之符合数据挖掘的要求。

数据变换的主要目的是精减数据维数,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。

这一阶段进行实际的挖掘工作。

首先是算法规划,即决定采用何种类型的数据挖掘方法。

然后,针对该挖掘方法选择一种算法。

完成了上述的准备工作后,就可以运行数据挖掘算法模块了。

这个阶段是数据挖掘分析者和相关领域专家最关心的阶段,也可以称之为真正意义上的数据挖掘。

浅谈数据挖掘技术及其应用舒正渝1、2(1.西北师范大学数信学院计算机系,甘肃兰州730070;2.兰州理工中等专业学校,甘肃兰州730050)摘要:科技的进步,特别是信息产业的发展,把我们带入了一个崭新的信息时代。

数据库管理系统的应用领域涉及到了各行各业,但目前所能做到的只是对数据库中已有的数据进行存储、查询、统计等功能,通过这些数据获得的信息量仅占整个数据库信息量的一小部分,如何才能从中提取有价值的知识,进一步提高信息量利用率,因此需要新的技术来自动、智能和快速地分析海量的原始数据,以使数据得以充分利用,由此引发了一个新的研究方向:数据挖掘与知识发现的理论与技术研究。

数据挖掘技术在分析大量数据中具有明显优势,基于数据挖掘的分析技术在金融、保险、电信等有大量数据的行业已有着广泛的应用。

关键词:数据挖掘;知识发现Abstract:Key words:The progress of science and technology,especially the development of the information industry,brings us into a brand-new information age.The application of the data base management system has involved all trades and professions,but only the store,inquire and statistic function can be applied,account a little part of the whole database.How to improve the utilization ratio of the information has initiated a new research direction,the data mining and knowledge found theory and technique.The data mining has the advantage in analyzing a large number of data.The data mining analytical technology has been largely used finance,insurance,telecommunication industry,etc..Data mining;Knowledge discovery收稿日期:2010-01-15修回日期:2010-02-11作者简介:舒正渝(1974-),女,重庆籍,硕士研究生,研究方向为数据库、多媒体。

中国西部科技2010年02月(中旬)第09卷第05期第202期总38根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息提取出来。

对于数据挖掘阶段发现的模式还要经过用户或机器的评估,对于存在冗余或无关的模式要将其删除;对于不能满足用户要求的模式,则需要退回到上一阶段。

另外,数据挖掘面对的最终用户是人,因此要对发现的模式进行可视化,或者把结果转换为用户易懂的其他方式。

目前研究主要从以下几个方面开展:(1)针对不同的数据挖掘任务开发专用的数据挖掘系统。

一个功能很强的数据挖掘系统要能够处理各种类型的数据是不现实的,应当根据特定类型数据的挖掘任务构造专用的数据挖掘系统,如关系数据库挖掘,空间数据库挖掘等。

(2)高效率的挖掘算法。

数据挖掘算法必须是高效的,即算法的运行时间必须是可预测的和可接受的,带有指数甚至是中阶多项式的算法,没有实际使用价值。

(3)提高数据挖掘结果的有效性、确定性和可表达性。

对已发现的知识应能准确地描述数据库中的内容,并能用于实际领域。

对有缺陷的数据应当根据不确定性度量,以近似规律或定量规则形式表示出来。

还应能很好地处理和抑制噪声数据和不希望的数据。

(4)数据挖掘结果的可视化。

数据挖掘任务由非领域专家指定,所以希望最后发现的知识用用户理解的方式表达出来。

(5)多抽象层上的交互式数据挖掘。

交互式数据挖掘允许用户交互地精炼数据挖掘需求,动态改变数据焦点,逐步深化数据挖掘过程,从不同角度不同抽象层次上灵活地观察数据和挖掘结果。

(6)多源数据挖掘。

计算机网络把许多数据源联接在一起,形成巨大的分布式异构数据库。

不同来源数据的格式和语义不统一,数据挖掘系统应当能够帮助用户揭示异构数据库的高级数据规律。

今后特别重视把数据挖掘技术与Internet技术及Web技术紧密结合起来,开发出基于Internet和Web的数据挖掘软件工具。

(7)数据挖掘的安全性和保密性。

加强数据的安全性和保密性,防止侵犯别人隐私和泄漏敏感信息。

(8)实现与现有数据库系统或数据仓库的无缝集成,进一步扩大数据挖掘工具的应用范围和提高现有数据的利用率。

随着数据挖掘研究的不断深入,数据挖掘技术已逐渐成熟,它的应用也越来越广泛。

从政府管理决策、商业经营、科学研究、司法、交通、传媒等各个领域,数据挖掘技术都有用武之地。

在科学研究中,需要分析各种大量的实验或观测数据,传统的数据分析工具难以应付,因此对功能强大的智能化自动分析工具要求迫切,这种需求推动了数据挖掘技术在科学研究领域的应用发展。

例如,加州理工学院喷气推进实验室开发的SKICAT帮助天文学家发现了16个新的类星体。

生物医学领域,科学家利用数据挖掘中的序列模式分析和相似检索技术分析DNA数据,完成异构、分布式基因数据库的语义集成和DNA序列间相似检索和比较,利用关联分析识别同时出现的基因序列,利用路径分析发现疾病不同阶段的致病基因。

市场营销是数据挖掘技术应用最早也是最重要的领域。

在该行业的应用可分为两类:数据库市场营销和货篮分析。

前者可以通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客以便向他们推销商品;后者可通过分析市场销售数据,以识别顾客的购买行为模式。

目前,在零售业、信用卡业、电信业、保险业中得到了很好的应用,提高了商家对客户的了解程度,发现那些优秀的顾客特征,预测有价值的顾客。

数据挖掘还可以协助进行风险评估、财务计划及资产评价、资源计划和竞争策略选择等。

分析银行或保险客户的要求和信誉,识别欺诈行为,如恶性透支等。

这方面应用非常成功的系统有:FALCON系统和FATS系统。

FALCON是HNC公司开发的信用卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易。

FATS是一个用于识别与洗钱有关的金融交易的系统,它使用的是一般的政府数据表单。

主要用于零部件的故障诊断、资源优化和生产过程分析等制造过程,发现影响生产率的因素,通过发现出某些不正常的数据分布,暴露制造和装配操作过程中变化情况和各种因素,从而协助质量工程师很快地注意到问题发生范围和采取改正措施。

目前这方面的研究主要有两个方面:研制新的更好的索引系统、利用已有索引系统或搜索引擎开发高层次的搜索或发现系统。

相比之下,后者的研究更为活跃。

学校教育管理中也存在大量的可挖掘数据信息,如相关专业课开设的先后关系、教学效果评价等方面,都可以应用到数据挖掘技术,但目前在国内这一应用领域仍以理论研究为主。

总之,数据挖掘可广泛应用于科学研究、商业、银行、金融、制造业、互联网络、教育等各领域,为我们的生活带来了越来越多的改变。

4数据挖掘的研究方向5数据挖掘的应用领域5.1科学研究5.2市场营销5.3风险分析和欺诈甄别5.4制造业5.5Internet的应用5.6学校教育参考文献:[1]JiaweiHan.DataMining:ConceptsandTechniques[M].机械工业出版社,2004.[2]刘同明等.数据挖掘技术及其应用[J].北京:国防工业出版社,2001,(9).[3]康晓东.基于数据仓库的数据挖掘技术[J].北京:机械工业出版社,2004,(1):131~175.[4]李雄飞,李军.数据挖掘与知识发现[M].北京:高等教育出版社,2003,(11).[5]陈安.数据挖掘技术及应用[M].北京:科学出版社,2006.[6]Pang-NingTanMichaelSteinbachVipinKumar.IntroductiontoDataMining[M].北京:人民邮电出版社,2006,5.39开发应用。

相关主题