当前位置:文档之家› 数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究

数据挖掘在中国的现状和发展研究导读:本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础,对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。

本文分析了数据挖掘在我国的发展,并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。

关键字:数据挖掘0 引言近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。

中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。

本文通过对中国有关数据挖掘研究文章数量的统计,对数据挖掘在中国发展的现状及发展趋势进行分析和研究,通过分析有关论文的发表,对数据挖掘在中国的理论研究和实际应用提出建议。

1 数据挖掘的应用与研究发展数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程。

数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。

数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。

2001年,Gartner Group的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关健技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。

美国麻省理工学院在2001年1月份的《科技评论》(Technology Review)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。

数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或商业上经常发生的诈骗行为进行预测IBM公司开发的AS(Advanced Scout)系统针对NBA的数据,帮助教练优化战术组合等。

数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学以及管理信息系统等学科的成果。

多学科的相互交融和相互促进,使得数据挖掘这一新学科得以蓬勃发展。

2 数据挖掘在中国的研究趋势分析1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议,由于数据库中的数据被形象地比喻为矿床,数据挖掘一词很快流传开来。

1995年以来,国外在数据挖掘和知识发现方面形成了热门研究方向,其中发表论文比较集中的期刊如:(Data Mining and Knowledge Discovery)(数据挖掘和知识发现),(Artificial Intelligence Review)(人工智能评论)等。

国内学者也对数据挖掘的理论和应用进行了许多研究。

本文通过对发表论文的研究成果进行统计研究,以分析数据挖掘的在中国的研究与应用,这实质上也是一种数据挖掘思想的体现,这个过程就类似于数据挖掘过程。

为了比较全面地反映中国在数据挖掘方面的研究成果及现状,笔者分别对科学引文数据库(SCI)、工程索引数据库(El)以及清华全文期刊数据库(CNKI)进行了检索,检索内容为在中国期刊发表的相关文章以及被SCI和El检索的中国有关数据挖掘方面的研究文章。

这些检索的统计结果是本文研究分析的基础。

通过检索并对各年所发表的有关数据挖掘的文章进行分类归总,可以得到表1的结果。

表1 有关“数据挖掘”的论文发表统计通过对检索结果的分析,可以得到以下4点结论:1)国内期刊正式发表有关数据挖掘的文章是在1997年,共发表了3篇文章,同年SCI共检索了2篇中国的数据挖掘的研究文章,在SCI数据库能够检索到的国际上发表最早的有关数据挖掘的文章是在1993年,这表明中国关于数据挖掘方面的研究在时间上与国际上差距并不大。

2)国内发表的有关数据挖掘论文的数目近年来逐年快速上升,SCI和El所检索的文章数目也在逐年快速增加,这说明中国数据挖掘的研究近几年来迅速加强。

3)对数据挖掘的研究可以大致分为两方面:理论研究和应用研究。

理论研究正在逐步深人并与解决实际问题相结合。

4)数据挖掘是一门应用性很强的学科,数据挖掘应用的领域非常广阔,几乎涉及到各个行业,包括天文学、生物学、经济管理、金融、保险、电力、石油化工、地理地质等领域。

这些应用的需求就更进一步地推动了理论研究的发展。

3 数据挖掘技术的研究对数据挖掘的理论研究主要在以下六个方面:OLAP技术、面向属性的归纳法、关联规则、分类和预测、聚类和与数据仓库的集成技术。

有关研究成果见表2。

表2 有关数据挖掘技术统计表3.1 OLAP技术联机分析处理(On-Line Analytical Processing,OLAP)是关系数据库之父E.F.Codd博士在1993年提出的。

OLAP可以在使用多维数据模型的数据仓库或数据集市上进行,使用数据立方体结构,OLAP 操作可以有效地实现。

OLAP技术主要是应用隐含在数据里的领域背景知识对数据进行操作,为用户在不同的抽象层上提供数据。

OLAP 技术一般都是集成在数据仓库中实现的。

国内关于OLAP技术的综述性文章较多,缺少较深入的理论研究。

其中一个主要原因是由于受到国内数据仓库技术的发展限制,缺少具体的实现环境。

国内的研究内容主要集中在对技术和概念的介绍以及简单系统的构造应用等方面,如对OLAP、数据立方体等基本概念的介绍;对SQL server 2000中提供的OLAP的查询组件的使用等。

3.2 面向属性的归纳方法1991年,Jiawei Han等提出了面向属性的归纳方法(Attribute-Oriented,A O),这是一种有效的、完整的知识发现算法,算法的一个关键就是攀升属性所对应的概念层次树,把原始数据集的数据泛化到用户感兴趣的概念层上,减少数据集的大小,从而降低知识发现过程的计算复杂度。

国内对面向属性的归纳方法的研究比较少,研究内容主要集中在以下三方面:1)对面向属性的归纳方法进行改进。

通过引入记录阈值的概念,利用属性闹值和记录阑值同时进行控制,从而产生更好的效果。

2)减少扫描次数以提高算法效率。

目前有基于规则的面向属性知识发现的无回溯算法,把背景知识理解为特殊的逻辑程序,并把它的子句展开为完全归结子句,再按用户要求,定义并确定各属性的恰当层次,各属性的多个值归纳为恰当层次中的值,只需一遍扫描,无需回溯。

3)对概念层次进行研究,提出了概念层次的自动生成方法。

3.3 关联规则关联规则的挖掘最早是由R.A grawal等人于1993年提出。

在关联规则算法的研究中,生成所有的频繁项目集是核心问题。

表2中有关关联规则的文章数量较多,技术相对比较成熟,是数据挖掘领域的重点研究方向之一。

根据分析,目前国内对关联规则的研究主要集中在以下3方面:1)提高原有算法的效率在解决最大频繁项目集的生成问题上,为了提高对空间和时间的利用效率,对数据库的扫描次数进行了缩减,由最初的两次扫描减少为一次就可以生成最大频繁集,提高了算法的效率。

2)结合其它理论对关联规则进行研究引入粗糙集概念,使关联规则发现的模式具有较高的解释能力和精确度。

为了解决数量关联规则提取过程中的连续属性离散化问题采用了聚类方法,通过引入神经网络的概念,提出用相互激活与竞争网络来进行数据库中的关联规则的发现等。

可以看出通过引入其他领域的先进理论,丰富了关联规则研究的内容,提高了算法的有效性。

3)不同形式关联规则的研究关联规则最早是由购物篮分析开始的,但是随着研究的扩展和深入,关联规则的应用范围不断扩大,因此出现了多种形式关联规则的研究。

由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。

在基本关联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法,由单层的关联规则扩展为多层次关联规则的研究,提出了基于多维标度关联规则算法,其他类型的关联规则如借助正态模糊数模型,软化数量属性的划分边界,生成语言值关联规则,引入正态云模型来替代对属性论域的划分,提出了挖掘正态云关联规则的方法,基于关联规则的不足,还提出了转移规则及其算法。

另外对于关联规则挖掘指导思想也出现了变化,提出了概念指导的关联规则的挖掘算法和基于概念格的关联规则的提取算法。

3.4 分类和预测分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。

主要的分类方法有:决策树归纳分类法、贝叶斯分类法、后向传播分类法等。

国内对于分类和预测方法的分析和研究近几年逐渐增多,并逐渐深入。

国内的分类方法研究主要集中在以下内容:1)研究贝叶斯网络在分类方法中的应用利用贝叶斯网络可以找出数据之间潜在的关系,并且可以将简单贝叶斯方法应用于增量分类中,这样可以增量地修正分类器参数和增t地分类测试样本。

2)结合其他理论进行算法研究通过遗传算法,对单个分类器进行优化并对多个分类器进行组合优化。

通过不同的相似性度量方法,复用完全相似或者条件相似的历史序列,提出一种多策略的基于CBR的趋势预测方法。

分类及预测中,神经网络技术的优点是其对噪声数据具有较高的承受能力,对未经训练的数据具有分类识别的能力。

但是它的主要缺点是可解释性差,这影响了神经网络技术的使用。

相对于神经网络技术,决策树技术的优点比较易于理解和解释,而它受到的典型批评是由于递归划分方式导致数据子集变小,失去了进一步划分的意义。

贝叶斯分类方法从理论上讲具有最小的出错率,还可以用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。

其缺点主要来自于贝叶斯分类的假定,当假定成立时,与其它分类算法相比是最精确的,然而,在实践中,假定不一定总是成立。

从以上分析可以看出,不同的数据挖掘技术各有其优缺点,在实际的应用中,需要根据具体的条件选择合适的算法。

3.5 聚类聚类是一个活跃的研究领域,聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象则差别较大,聚类算法具体可以分为:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法等。

聚类分析可以用作独立的数据挖掘工具,来获得对数据分布的了解,也可以作为其它数据挖掘算法的预处理步骤。

国内对于聚类的研究与和分类预测的研究情况类似,开展比较晚,研究主要方向包括:1)对已经提出来的聚类算法进行分析和完善在原有的DBSCAN算法的基础上,以核心对象邻域中所有对象的代表对象为种子对象来扩展类,提出了FDBSCAN算法,该算法能够有效地对大规模数据库进行聚类,速度上数倍于DBSCAN,对原DBSCAN 算法进行改进,提出了基于数据分区的DBSCAN算法,提高了聚类速度,改善了聚类质量。

相关主题