数据挖掘技术的研究现状及发展方向 陈娜1.2 (1. 北京交通大学计算机学院,北京100044;2.石家庄铁路运输学校,河北石家庄050021) 第 !" 电脑与信息技术卷 ( ! )可视化技术 [ " ] 通过直观的图形方式将 信息数据、关联关系以及发展趋势呈现给决策者, 使用最多的方法是直方图、数据立方体、散点图。 其中数据立方体可以通过 #$%& 操作将更多用户 关心的信息反映给用户。 ( ’ )遗传算法 [ ( ] 是一种模拟生物进化过程 的算法,最早由 )*++,-. 于 /0 世纪 (0 年代提出。 它是基于群体的、具有随机和定向搜索特征的迭 代过程,包括 ! 种典型的算子:遗传、交叉、变异和 自然选择。遗传算法作用于一个由问题的多个潜 在解(个体)组成的群体上,并且群体中的每个个 体都由一个编码表示,同时个体均需依据问题的 目标函数而被赋予一个适应值。另外,为了应用遗 传算法,还需要把数据挖掘任务表达为一种搜索 的问题,以便发挥遗传算法的优势搜索能力。同时 可以用遗传算法中的交叉、变异完成数据挖掘中 用于异常数据的处理。 ( ")统计学方法 [ 1 ] 在数据库字段项之间存 在着两种关系:函数关系(能用函数公式表示的确 定性关系)和相关关系(不能用函数公式表示,但 仍是相关确定关系)。对它们的分析采用如下方 法:回归分析、相关分析、主成分分析。主要用于数 据挖据的聚类方法中。 ( ()模糊集(23445 678)方法利用模糊集理 论对实际问题进行模糊评判、模糊决策、模糊模式 识别和模糊聚类分析。模糊性是客观存在的。系统 的复杂性越高,精确化能力就越低,即模糊性就越 强,这是 9,.7: 总结出的互克性原理。 / 数据挖掘的算法 ( ;)关联规则中的算法 %<=>*=>算法是一种最具有影响力的挖掘布 尔关联规则频繁项集的算法,该算法是一种称为 主层搜索的迭代方法,它分为两个步骤: ,?通过多趟扫描数据库求解出频繁 ;@项集的 集合 $ ; ; A?不断的寻找到 /@项集 $ / „ -@项集 $ - ,最后 利用频繁项集生成规则。 随后的许多算法都沿用 %<=>*=>中“频繁项集 的子集必为频繁项集”的思想,在频繁项集 $ B@; 上 进行 C*>- 运算构成潜在 B 项集 D B 。由于数据库和 D B 的规模较大,需要相当大的计算量才能生成频 繁项集。 一旦由数据库 E 中的事物找出频繁项集,由 它们产生强关联规则是直截了当的(强关联规则 满足最小支持度和最小置信度)。对于置信度,可 以用下式,其中条件概率用项集支持度计数表示。 F*-G>.7-F7 ( %HIJ ) H& ( %KJ ) H 63<<*=8LF*3-(8%!J) 63<<*=8LF*3-(8%) 其中, 63<<*=8LF*3-(8%!J)是包含项集 %!J 的事务数, 63<<*=8LF*3-8 ( % )是包含项集 % 的事务 数,关联规则可以表示如下: ·对于每个频繁项集 +,产生 + 的所有非空子 集。 ·对于 + 的每个非空子集 6,如果 63<<*=8LF*3-8 ( %!J ) 63<<*=8LF*3-(8%) "M>-LF*-G,则输出“6HI(+@ 6)”,其中 M>-LF*-G 是最小置信度阈值。 由于规则由频繁项集产生,每个规则都自动 满足最小支持度。频繁项集连同它们的支持度预 先存放在列表中,使得他们可以快速地被访问。 ( /)分类规则中的算法 决策树是一种常用于分类、预测模型的算法, 它通过将大量数据有目的的分类,从而找到一些 有价值的、潜在的信息。它的主要优点是描述简 单,分类速度快,特别适合大规模的数据处理。最 有影响和最早的决策树方法是由 N3>-+,- 提出的 著名的基于信息熵的 OEP 算法。它的主要问题是: OEP 是非递增学习算法;OEP 决策树是单变量决策 树,复杂概念的表达困难;同性间的相互关系强调 不够;抗噪性差。针对上述问题,出现了许多较好 的改进算法,如 QF:+>MM7= 和 2>6:7= 设计了 OE! 递增式学习算法;钟鸣,陈文伟等提出了 OJ$R 算 法等。图 / 是顾客是否购买计算机的判定树。 沿着由根节点到树叶节点的路径,图 / 的判 定树可以转化为 O2LS)RT 分类规则。其规则如 图 / 概念 A356LF*M<387= 的判定树 D=7.>8L=,8>-U? T*V76 RWF7++7-82,>+ Q83.7-8 T*V76 T*V76 %U7 XHP0I!0 P;???!0 V76 · "# ·! 期 ( !"" : !#$%&’()’ "*+,$-’./ *# "01020+’ ),可自 动或方便的进行模式提取。这些模式是指从大型 数据库或数据仓库中提取人们感兴趣的知识,当 然这些知识是隐含的、事先未知的、潜在有用的信 息,提取的知识一般可表示为概念、规则、规律、模 式等形式。数据挖掘是一个多学科领域,从多个学 科汲取营养,涉及到数据库技术、人工智能、机器 学习、神经网络、模式识别、归纳推理、统计学、数 据库、数据可视化、信息检索、高性能计算等多个 领域。从 3454 年 5 月在美国底特律召开的第 33 届国际人工智能会议上首先出现 !"" 这个术语, 到 3446 年在加拿大蒙特利尔召开的首届 !"" 7 "010 8*#*#) 国际学术会议,再到以后每年都要召 开一次的 !"" 7 "010 8*#*#) 国际学术会议,经 过十多年的努力,数据挖掘技术的研究已经取得 了丰硕的成果,不少软件公司已研制出数据挖掘 软件产品,并在北美、欧洲等国家得到应用。例 如, 9:8 公司 ;).0%0&等人最早取得了关联规则 挖掘有关的两项专利 [ 3 ] 。将数据挖掘技术中的关 联规则应用在实际工程中,获得了很好的效果。同 时互联网挖掘技术也应用在网络搜索和电子商务 中,并显现出卓越的效果。在我国,数据挖掘技术 的研究也引起了学术界的高度重视,已成为信息 科学界的热点课题。数据挖掘研究具有广泛的应 用前景,因为数据挖掘产生的知识可以用于决策 支持、信息管理、科学研究等许多领域。 3 数据挖掘的分类 数据挖掘技术的分类标准有根据发现知识 的种类分类、根据挖掘的数据库种类分类、根据 采用的技术分类等几种分类方法 [ <] 。 根据发现知识的种类分类: ·根据数据挖掘的功能可分为特征规则挖 掘、区分规则挖掘、关联规则挖掘、分类聚类挖掘、 孤立点分析、趋势分析、演变分析、偏差分析、模式 分析、类似性分析等。 ·按照所挖掘的知识的粒度或抽象层进行区 分,包括概化知识、原始知识或多层知识的数据挖 掘。 根据挖掘的数据库分类: ·按数据库类型可分为关系型、事务型、面向 对象型、对象关系型、主动型、异构型。 ·根据所处理的数据的特殊类型可分为时间 型、空间型、文本型、多媒体、数据库和遗留系统 等。 根据数据挖掘采用的技术分类主要有如下几 种: ( 3 )决策树方法 [ <=> ] 用树形结构表示决策集 合,利用信息论中的互信息(信息增益)寻找数据 库中具有最大信息量的字段建立决策树的一个结 点,再根据字段的不同取值建立树的分支;在每个 分支子集中重复建立树的下层结点和分支,即可 建立决策树。国际上最有影响和最早的决策树算 法是 ?@*@&0# 研制的 9">方法,数据库越大它的 效果越好。此后又发展了各种决策树方法,如 9"> 的改进算法 ABC6 和 A6,这两种算法从数据丢失 和数据连续性等方面对 9">算法进行了改进。 ( <)人工神经网络方法 [ B] 它从结构上模仿 生物神经网络,是一种通过训练来学习的非线性 预测模型,可以完成分类、聚类、特征挖掘等多种 数据挖掘任务。这种方法是以 8D 模型和 E’ 22 学习规则为基础,用神经网络连接的权值表示知 识,其学习方法表现在神经网络的权值修改上。神 经网络方法主要应用于数据挖据的聚类技术中。 ( >)粗集(F$@)G H’1)方法 [ 6] 在数据库中, 将行元素看成对象,列元素看成属性(分为条件属 性和决策属性),等价关系 F 定义为不同对象在 某个(或几个)属性上取值相同,这些满足等价关 系的对象组成的集合称为该等价关系 F 的等价 类。条件属性上的等价类 I 与决策属性上的等价 类 J 之间有>种情况:下近似,J 包含 I;上近似, J 和 I 的交非空;无关,J 和 I 的交为空。对下近 似建立确定性规则,对上近似建立不确定性规则 (含可信度),对无关情况不存在规则。 图 3 典型的数据挖掘系统结构 知