第19卷第4期2004年7月统计与信息论坛 Vol.19No.4July,2004
收稿日期:2004-05-08作者简介:田 艳(1962-),女,四川省安岳人。副教授,西安统计研究院主任。研究方向为数据库、统计信息处理及信息技术管理系统。先后主持或主要参与国家及省部级科研项目10余项,其中一项获国家统计科研优秀成果二等奖,四项获国家统计科研优秀成果三等奖。撰写相关论文及课题报告数十篇。=编委之窗>
数据挖掘技术的应用及发展
田 艳
(西安财经学院西安统计研究院,陕西西安710061)
摘 要:数据挖掘是从大量的数据中发现其潜在规律的技术,是当前计算机科学及统计科学研究的热点之一。文章介绍了数据挖掘的概念、功能、数据挖掘过程、常用方法等;探讨了数据挖掘领域面临的问题;论述了数据挖掘与统计分析的关系,并对国内外研究现状及发展情况做了介绍。关键词:数据挖掘;知识发现;数据库;统计分析中图分类号:F224.1 文献标识码:A 文章编号:1007-3116(2004)04-0018-04
一、引 言
近年来,随着科学技术的飞速发展,经济和社会
都取得了极大的进步,与此同时,在各个领域产生了
大量的数据,激增的数据背后隐藏着许多重要的信息。人们不再满足于数据库的查询功能,希望能够
对其进行更高层次的分析,以便能从数据中提取信
息或者知识为决策服务。目前的数据库系统可以高
效地实现数据的录入、查询、统计等功能,但无法发
现数据中存在的关系和规则,无法根据现有的数据
预测未来的发展趋势。缺乏挖掘数据背后隐藏的知
识的手段,导致/数据爆炸但知识贫乏0的现象。同
样,传统的统计技术也面临着极大的挑战。这就急
需有新的方法来处理这些海量数据。数据挖掘就是
为顺应这种需要应运而生发展起来的数据处理技术。
二、数据挖掘的概念
数据挖掘(DataMining)是从大量的、不完全
的、有噪声的、模糊的、随机的数据中提取隐含在其
中的、人们事先不知道的、但又是潜在有用的信息和
知识的过程。因为与数据库密切相关,又称为数据库知识发现(KnowledgeDiscoveryinDatabases,
KDD)。数据挖掘不但能够学习已有的知识,而且
能够发现未知的知识;得到的知识是/显式0的,既能
为人所理解,又便于存储和应用,因此它一出现就得
到各个领域的重视[1]。
人们把原始数据看作是形成知识的源泉,就像
从矿石中采矿一样。原始数据可以是结构化的,如
关系型数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型
数据。发现知识的方法可以是数学的,也可以是非
数学的;可以是演绎的,也可以是归纳的。发现了的
知识可以被用于信息管理、查询优化、决策支持、过
程控制等,还可以用于数据自身的维护。因此,数据
挖掘是一门广义的交叉学科,它包含了数据库、人工
智能、统计学、可视化、并行计算等不同领域。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确
假设的前提下去挖掘信息、发现知识。数据挖掘所
得到的信息应具有先前未知、有效和可实用三个
特征。
先前未知的信息是指该信息是预先未曾预料到
的,既数据挖掘是要发现那些不能靠直觉发现的信18息或知识,甚至是违背直觉的信息或知识,挖掘出的
信息越是出乎意料,就可能越有价值。在商业应用
中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。
三、数据挖掘的主要功能
数据挖掘综合了各个学科技术,有很多的功能,当前的主要功能如下。
(一)分类(classification)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种
描述来构造模型,一般用规则或决策树模式表示。
分类是利用训练数据集通过一定的算法而求得分类
规则。分类可被用于规则描述和预测。例如:银行部门根据以前的数据将客户分成了不同的类别,现
在就可以根据这些来区分新申请贷款的客户,以采
取相应的贷款方案。
(二)估计与预测(EstimationandPrediction)估计(estimation)根据既有连续性数值之相关
属性资料,以获得某一属性未知之值。例如按照信
用申请者之教育程度、行为和性别来推估其信用卡消费量。使用的技巧包括统计方法上之相关分析、
回归分析及人工神经网络方法。预测(prediction)是
利用历史数据找出变化规律,建立模型,并由此模型
对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,例如由顾客过去刷卡消费量预测
其未来刷卡消费量;根据以往的统计数据对未来经
济发展做出判断。预测通常使用包括回归分析、时间数列分析及
人工神经网络方法。
(三)关联分析(associationanalysis)
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种
规律性,就称为关联。关联可分为简单关联、时序关
联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。从而为某些决策提供必要支持。例
如,从一家超市的数据仓库中,可以发现的一条典型
关联规则可能是/买面包和黄油的顾客十有八九也
买牛奶0,也可能是/买食品的顾客几乎都用信用卡0,这种规则对于商家开发和实施客户化的销售计
划和策略是非常有用的。
(四)聚类分析(clustering)数据库中的记录可被化分为一系列有意义的子
集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包
括传统的模式识别方法和数学分类学。例如:将申请人分为高度风险申请者,中度风险申请者,低度风
险申请者。(五)时序模式(time-seriespattern)时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数
据预测未来的值,但这些数据的区别是变量所处时间的不同。例如,今天银行调整利率,明天股市的变化。又如粮食涨价,不久副食品涨价。(六)偏差分析(deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异
常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。例如,在银行的100万笔交易中有200例的欺诈行为,银行为了经
营安全,就要发现这200例的内在因素,减小以后经营的风险。
需要注意的是,数据挖掘的各项功能不是独立存在的,而是在互相联系中发挥作用。
四、数据挖掘的实施过程
数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。(一)问题提出
在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标
有明确的定义。(二)数据准备数据准备工作包括数据的选择(选择相关和合
适的数据)、探索(了解数据分布情况和异常数据等)、修正(包括缺失数据的插值等)和变换(离散值
数据与连续值数据的相互转换,数据的分组分类,数据项的计算组合等)。(三)建立模型
选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数,生成模型。
(四)评价和解释对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合
对结果进行解释[2~3]。
五、数据挖掘的方法
数据挖掘常用的技术有神经网络、遗传算法、决19田 艳:数据挖掘技术的应用及发展策树、关联规则等。
(一)神经网络方法
模拟人的神经元功能,经过输入层、隐藏层、输出层等,对数据进行调整、计算,最后得到结果,用于
分类和回归。神经网络由于本身良好的自组织自适
应性、并行处理、分布存储和高度容错等特性非常适
合解决数据挖掘的问题。(二)遗传算法
遗传算法是一种基于生物自然选择与遗传机理
的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性
质使得它在数据挖掘中被加以应用。
(三)决策树方法
决策树是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价值的潜
在的信息。它的主要优点是描述简单,分类速度快,
特别适合大规模的数据处理。常用的算法有
CART、CHAID、ID3、C4.5、C5.0等。其中最有影响和最早的决策树方法是由Quinlan提出的著名的基
于信息的ID3算法。
(四)关联规则挖掘算法关联规则是描述数据之间存在关系的规则,形
式为/A1CA2C,AnyB1CB2C,Bn0。一般分为
两个步骤:1.求出大数据项集。2.用大数据项集产
生关联规则。(五)统计分析方法
传统的统计方法有:1.抽样技术。面对大量的
数据,对所有数据进行分析是不可能也没有必要的,要在理论指导下进行合理的抽样;2.多元统计分析。
如因子分析、聚类分析等;3.统计预测方法。如回归
分析、时间序列分析等。
(六)粗集方法粗集理论是一种研究不精确、不确定知识的数
学工具。粗集方法有几个优点:不需要给出额外信
息;简化输入信息的表达空间;算法简单,易于操作。粗集处理的对象是类似二维关系表的信息表。目前
成熟的关系数据库管理系统和新发展起来的数据仓
库管理系统,为粗集的数据挖掘奠定了坚实的基础。
但粗集的数学基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因
此连续属性的离散化是制约粗集理论实用化的
难点。(七)覆盖正例排斥反例方法
它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子,到
反例集合中逐个比较。与字段取值构成的选择子相
容则舍去,相反则保留。按此思想循环所有正例种子,将得到正例的规则(选择子的合取式)。
六、数据挖掘与统计分析
数据挖掘不是为了替代传统的统计分析技术。相反,它是统计分析方法学的延伸和扩展。大多数
的统计分析技术都基于完善的数学理论和高超的技
巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们
有可能利用计算机强大的计算能力只通过相对简单
和固定的方法完成同样的功能。
一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据
和计算能力下,他们几乎不用人的关照自动就能完
成许多有价值的功能。
数据挖掘就是利用了统计和人工智能技术的应用程序,它把这些高深复杂的技术封装起来,使人们
不用自己掌握这些技术也能完成同样的功能,并且
更专注于自己所要解决的问题。
七、数据挖掘的应用
目前企业界把DataMining应用在许多领域。
例如,行销、财务、银行、制造厂、通讯等。有一个应用在行销领域的例子:经由记录客户的消费记录与
采购路线,超级市场可以设计出更吸引顾客购买的
环境。根据数据挖掘出特别的信息来,因此现在超级市场的厨房用品,是按照女性的视线高度来摆放。
根据研究指出,美国妇女的视线高度是150公分左
右,男性是163公分左右,而最舒适的视线角度是视
线高度以下15度左右,所以最好的货品陈列位置是在130~135公分之间。在商业上,有非常多的特征
很难去理解,但如对这些信息加以了解,必能增加企
业竞争能力。在国民经济及社会统计库中分析各行业的经济
发展的统计数据,挖掘出其重要的、内在关联关系,
例如第一产业的经济发展与电力、石油等能源的关
系;固定资产投资与社会需求的关系等,可以为政府宏观调控决策提供重要的、科学的依据。
尽管数据挖掘有如此多的优点,但数据挖掘也
面临着许多的问题,这也为数据挖掘未来的发展提供了更大的空间。主要问题有下列几种。
1.数据挖掘的基本问题就在于数据的数量和维20统计与信息论坛