当前位置:文档之家› 数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势_郑继刚

数据挖掘研究的现状与发展趋势郑继刚,王边疆(保山学院数学系,云南保山678000)影响其空间分布的因素之间的关系;预测型的模型用来根据给定的一些属性预测某些属性,如分类模型和回归模型等.目前,主要在空间数据挖掘的体系结构和挖掘过程做了大量研究,包括面向对象的空间数据库的数据挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类挖掘、挖掘空间数据的偏离和演变规则、基于多专题地图的挖掘、交叉概化、基于时空数据的概化、并行数据挖掘、统计分析与数据挖掘的协同和遥感影像的挖掘等,主要采用了基于统计学和概率论、集合论、机器学习、仿生物学、地球信息学的研究方法.4.2多媒体数据挖掘多媒体数据,包括图形、图像、文本、文档、超文本、声音、视频和音频数据等,数据类型复杂.随着信息技术的进步,人们所接触的数据形式越来越丰富,多媒体数据的大量涌现,形成了很多海量的多媒体数据库[8].这些数据大多是非结构化数据、异构数据,特征向量通常是数十维甚至数百维,转化为结构数据和降维成了多媒体数据挖掘的关键技术.有研究者提出了多媒体数据挖掘的系统原型MDMP,将多媒体数据的建模表示、存储和检索等多媒体数据库技术与数据挖掘技术有机地结合在一起,采用多媒体图像数据的相似性搜索、多维分析、关联规则挖掘、分类与聚类分析等挖掘方法,广泛地应用于医学影像诊断分析、卫星图片分析、地下矿藏预测等各种领域.4.3时序数据挖掘时序数据挖掘通过研究信息的时间特性,深入洞悉事物进化的机制,揭示其内在规律(如波动的周期、振幅、趋势的种类等),成为获得知识的有效途径.关键问题是要是寻找一种合适的序列表示方式,基于点距离和关键点是常用的算法,但都不能完整表示出序列的动态属性.时序数据挖掘的主要技术有趋势分析和相似搜索,在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格波动等众多领域得到了应用.国内对于时序数据的研究比较少,使用的方法和技术主要有人工神经网络技术,利用它预测和处理混沌观测时间序列能达到较高的精度[9].此外还有通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间,将时序数据映射为多维空间的点,在此基础上,有学者提出一种新的基于距离的离群数据挖掘算法[10].4.4Web数据挖掘随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以在网络上获得,但是它是巨大的、分布广泛的、全球性多样的和动态变化的.面对如此大量的Web数据,如何在这个全球最大的数据集合中发现有用信息成为Web数据挖掘研究的热点.当前,Web数据挖掘可分为四类,即Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘.4.5不确定数据挖掘传统的数据挖掘技术处理位置已经被精确给定的对象,然而在实际应用领域,由于测量仪器的局限性会造成测量值的不准确,数据的不确定性是不可避免的.数据的不确定性主要可以分为存在的不确定性和值的不确定性两大类,存在的不确定性指的是不确定对象或元组的存在与否,如关系数据库的某个元组和一个概率相关联表示这个元组存在的可信度,值的不确定指的是一个元组的存在是确定的,但它的值是不确定的.现在对不确定数据挖掘的研究已成为热点,在聚类分析、关联规则、空间挖掘等方面都有突破,经典的K-means算法扩展到了UK-means算法,Apriori算法扩展到了UApriori算法等.5数据挖掘面临的问题数据挖掘任务、数据挖掘方法、用户交互、性能和各种数据类型的多样性,给数据挖掘提出了许多挑战性的课题.数据挖掘语言的设计,高效而有用的数据挖掘方法和系统的开发,交互和集成的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘、系统、研究人员和应用开发人员所面临的主要问题[11].5.1挖掘方法和用户交互问题这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、知识的使用、特定的挖掘和知识可视化.如,数据库中挖掘不同类型的知识;多个抽象层的交互知识挖掘;结合背景知识;数据挖掘查询语言和特定的数据挖掘;数据挖掘结果的表示和可视化;处理噪声和不完全数据;模式评估即兴趣度问题.5.2性能问题主要包括数据挖掘算法的有效性、可伸缩性和并行处理等性能问题.如,数据挖掘算法的有效性和可伸缩性;并行、分布式和增量挖掘算法.5.3关于数据库类型的多样性问题如,关系的和复杂的数据类型的处理;由异种数47红河学院学报2009.2/数学表1数据挖掘研究的进化历程进化阶段支持技术产品厂家产品特点数据搜集(20世纪60年代)计算机、磁带和磁盘IBM、CDC提供历史性的、静态的数据信息数据访问(20年代80世纪)关系数据库、结构化查询语言、ODBCOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态的数据信息数据仓库、决策支持(20世纪90年代)联机分析处理、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其它初创公司提供预测性的信息3数据挖掘研究的现状与成果在国外,数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析;利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或保险公司经常发生的诈骗行为进行预测;IBM公司开发的AS(AdvancedScout)系统针对NBA的比赛数据,帮助教练优化战术组合等[5].在学术研究上,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了数据挖掘专题或专刊,如IEEE的KnowledgeandDataEngi-neering会刊领先在1993年出版了数据挖掘技术专刊,在Internet上还有不少数据挖掘电子出版物,其中以半月刊KnowledgeDiscoveryNuggets最为权威.另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版,可向dstrial@tgc.com提出免费订阅申请.与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量.1993年国家自然科学基金首次支持数据挖掘领域的研究项目,目前,国内的许多科研单位和高等院校竞相开展数据挖掘和知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等.例如,复旦大学施伯乐教授领导开发了数据挖掘工具集AMINER;北京大学智能科学系的唐世渭和杨冬青教授领导开发了基于空间数据挖掘的客户分析系统模型CASDM.此外,清华大学周立柱教授领导的数据挖掘研究小组,四川大学唐常杰教授领导的针对时间序列方面的数据挖掘研究小组,中国科技大学蔡庆生教授领导的针对关联规则的研究小组,复旦大学朱扬勇教授领导的数据挖掘工作组,云南大学王丽珍教授带领的针对不确定数据挖掘的研究小组等,都取得了许多重要的研究成果.在数据挖掘算法研究方面,中科院计算所史忠值研究员、清华大学石纯一、陆玉昌教授、武汉大学李德仁院士、北京科技大学杨炳儒教授、复旦大学周傲英教授等都取得了许多重要的研究成果.国内比较重要的会议有全国数据库学术会议(NationalDataBaseAcademicConference,简称ND-BC),权威的杂志有《计算机学报》、《软件学报》和《计算机研究与发展》等[6].4数据挖掘研究方向数据挖掘涉及的学科领域和方法很多,有不同的分类分支.根据挖掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等;根据挖掘对象可以分为:关系型数据库挖掘、面向对象数据库挖掘、空间数据库挖掘、时态数据库挖掘、文本数据源挖掘、多媒体数据库挖掘、异质数据挖掘、遗产数据挖掘、Web数据挖掘等;根据挖掘方法可以分为:机器学习方法、统计方法、聚类分析方法、神经网络方法、遗传算法方法、数据库方法、近似推理和不确定性推理方法、基于证据理论和元模式的方法、现代数学分析方法、粗糙集方法和集成方法等;根据数据挖掘所发现的知识可以分为:挖掘广义型知识、挖掘差异型知识、挖掘关联型知识、挖掘预测型知识、挖掘异常型知识、挖掘不确定性知识等[7].4.1空间数据挖掘空间数据是从遥感、地理信息系统(GIS)、多媒体系统、医学和卫星图像等多种应用中收集而来,收集到的数据远远超过了人脑的分析能力.空间数据挖掘技术按功能划分可分为三类:描述、解释、预测.描述性的模型将空间现象的分布特征化,如空间聚类;解释性的模型用于处理空间关系,如处理一个空间对46郑继刚王边疆:数据挖掘研究的现状与发展趋势摘要:数据挖掘作为提取知识的过程,概述了数据挖掘研究的过去和现状,着重分析了目前数据挖掘的分支方向、面临的问题,并对数据挖掘技术的发展趋势作了展望.关键词:数据挖掘;分支;研究;现状;趋势中图分类号:TP311文献标识码:A文章编号:1008-9128(2010)02-0045-04进入信息时代,保存在计算机中的文件和数据库中的数据量正在以指数速度增长,同时人们期望从数据中获得更有用的信息.实际上,这些数据中只有一小部分有用,但人们却渴求获得知识,正面临“数据丰富而知识贫乏”的问题,所以迫切需要一种新的技术从海量数据中自动、高效地提取所需的有用知识,这时,数据挖掘技术由此而生.数据挖掘(DataMining,简称DM)所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,其主要的贡献在于从数据库中获取有意义的信息以及对数据归纳出有用的结构,作为企业进行决策的依据.此外,数据挖掘的也是发现数据库拥有者先前关心却未曾知悉的有价值信息.事实上,数据挖掘并不只是一种技术或是一套软件,而是一种结合数种专业技术的应用[1].1数据挖掘的定义数据挖掘又叫做数据库中发现知识(KnowledgeDiscoveryinDatabase,简称KDD),是20世纪90年代以来发展起来的数据库系统和数据库应用领域一个欣欣向荣的前沿学科,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的但又是潜在有用的信息和知识的过程[2].它涉及到对数据库中的大量数据进行抽取、转换、分析以及模型化处理,从中提取辅助决策的关键性数据.数据挖掘可以帮助决策者寻找规律,发现被忽略的要素,预测趋势,进行决策,也是对数据内在和本质的高度抽象与概括,是对数据从理性认识到感性认识的升华.数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持.是建立在数据库、人工智能、机器学习、神经网络、统计学、模式识别、高性能计算等技术基础上的一门新兴技术.因此,在这种需求牵引下,汇聚了不同领域的研究者,吸引了数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员投身到数据挖掘这一新兴的研究领域,形成新的技术热点.2数据挖掘研究的过去数据库中发现知识一词首次出现于1989年在美国底特律召开的第十一届国际联合人工智能学术会议上,到1995年在加拿大蒙特利尔召开的首届KDD&DataMining国际学术会议,再到以后每年都要召开一次的KDD&DataMining国际学术会议,经过十多年的努力,数据挖掘技术的研究已经取得了丰硕的成果,不少软件公司已研制出数据挖掘软件产品,并在北美、欧洲等国家得到应用[3].数据挖掘可以认为是数据库技术和信息技术自然演变的结果.在数据库业界,数据挖掘的进化经历了四个阶段:数据搜集、数据访问、数据仓库和决策支持(见表1)[4].收稿日期:2010-02-26作者简介:郑继刚(1983-),男,云南保山人,讲师,云南大学在读硕士.研究方向:数据挖掘. 据库和全球信息系统挖掘信息.6数据挖掘的发展趋势数据挖掘任务和数据挖掘方法的多样性对数据挖掘提出了许多挑战性的研究问题,在将来会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络与分布式环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据;探索可伸缩的和可交互的数据挖掘方法,全面提高挖掘过程的总体效率,尤其是超大规模数据集中数据挖掘的效率;扩大数据挖掘应用范围,如金融分析、生物医药研制、犯罪侦查等;开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖掘等.结语在这个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进数据挖掘技术的发展,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入.虽然对数据挖掘的研究取得了一定的成果,但是数据挖掘研究仍然面临着许多问题和挑战,还存在许多问题等待我们去探索和研究.参考文献:[1]谢邦昌,李扬.数据挖掘与商业智能的现况及未来发展[J].统计与信息论坛,2008(5):94-96.[2]JiaweiHan,MichelineKamber.数据挖掘概念与技术[M].北京:机械工业出版社,2007:25-26.[3]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006(2):46-49.[4]陆建江,张亚非,宋自林.模糊关联规则的研究与应用[M].北京:科学出版社,2008.[5]李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发展研究[J].管理工程学报,2004(3):10-15.[6]徐雪琪.基于统计视角的数据挖掘研究[D].杭州:浙江工商大学,2007.[7]毛国君,段立娟,王实等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.[8]郑继刚,谢芳.多媒体图像挖掘的关联规则挖掘[J].红河学院学报,2009(5):44-47.[9]臧洌.人工神经网络在混沌观测时序数据处理中的应用[J].数据采集与处理,2001(4):486-489.[10]郑斌祥,杜秀华,席裕庚.一种时序数据的离群数据挖掘新算法[J].控制与决策,2002(3):324-327.[11]林建勤.数据挖掘主要问题的对策研究[J].贵阳学院学报,2007(2):1-4.[责任编辑宋焕斌]CurrentSituationandDevelopmentTrendofDataMiningZHENGJi-Gang,WANGBian-Jiang(BaoshanCollege,Baoshan678000,China)Abstract:Thispaperoutlinesthepastandpresentsituationofdataminingasaprocessofknowledgeextraction.ItfocusesonanalyzingthebranchofdataminingandProblemoffacing,givinganoutlookonthedevelopmenttrendofdataminingtechnology.Keywords:datamining;branch;research;currentsituation;trendClassNo:TP311DocumentMark:A48郑继刚王边疆:数据挖掘研究的现状与发展趋势。

相关主题