当前位置：文档之家› 数据挖掘技术的研究现状及发展方向_陈娜

数据挖掘技术的研究现状及发展方向_陈娜

数据挖掘技术的研究现状及发展方向陈娜1.2 （1. 北京交通大学计算机学院，北京100044；2.石家庄铁路运输学校，河北石家庄050021）第 !" 电脑与信息技术卷（ ! ）可视化技术［ " ］通过直观的图形方式将信息数据、关联关系以及发展趋势呈现给决策者，使用最多的方法是直方图、数据立方体、散点图。其中数据立方体可以通过 #$%& 操作将更多用户关心的信息反映给用户。（ ’ ）遗传算法［ ( ］是一种模拟生物进化过程的算法，最早由 )*++,-. 于 /0 世纪 (0 年代提出。它是基于群体的、具有随机和定向搜索特征的迭代过程，包括 ! 种典型的算子：遗传、交叉、变异和自然选择。遗传算法作用于一个由问题的多个潜在解（个体）组成的群体上，并且群体中的每个个体都由一个编码表示，同时个体均需依据问题的目标函数而被赋予一个适应值。另外，为了应用遗传算法，还需要把数据挖掘任务表达为一种搜索的问题，以便发挥遗传算法的优势搜索能力。同时可以用遗传算法中的交叉、变异完成数据挖掘中用于异常数据的处理。（ "）统计学方法［ 1 ］在数据库字段项之间存在着两种关系：函数关系（能用函数公式表示的确定性关系）和相关关系（不能用函数公式表示，但仍是相关确定关系）。对它们的分析采用如下方法：回归分析、相关分析、主成分分析。主要用于数据挖据的聚类方法中。（ (）模糊集（23445 678）方法利用模糊集理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊性是客观存在的。系统的复杂性越高，精确化能力就越低，即模糊性就越强，这是 9,.7: 总结出的互克性原理。 / 数据挖掘的算法（ ;）关联规则中的算法 %<=>*=>算法是一种最具有影响力的挖掘布尔关联规则频繁项集的算法，该算法是一种称为主层搜索的迭代方法，它分为两个步骤： ,?通过多趟扫描数据库求解出频繁 ;@项集的集合 $ ; ； A?不断的寻找到 /@项集 $ / „ -@项集 $ - ，最后利用频繁项集生成规则。随后的许多算法都沿用 %<=>*=>中“频繁项集的子集必为频繁项集”的思想，在频繁项集 $ B@; 上进行 C*>- 运算构成潜在 B 项集 D B 。由于数据库和 D B 的规模较大，需要相当大的计算量才能生成频繁项集。一旦由数据库 E 中的事物找出频繁项集，由它们产生强关联规则是直截了当的（强关联规则满足最小支持度和最小置信度）。对于置信度，可以用下式，其中条件概率用项集支持度计数表示。 F*-G>.7-F7 （ %HIJ ） H& （ %KJ ） H 63<<*=8LF*3-（8%!J） 63<<*=8LF*3-（8%）其中， 63<<*=8LF*3-（8%!J）是包含项集 %!J 的事务数， 63<<*=8LF*3-8 （ % ）是包含项集 % 的事务数，关联规则可以表示如下： ·对于每个频繁项集 +，产生 + 的所有非空子集。 ·对于 + 的每个非空子集 6，如果 63<<*=8LF*3-8 （ %!J ） 63<<*=8LF*3-（8%） "M>-LF*-G，则输出“6HI（+@ 6）”，其中 M>-LF*-G 是最小置信度阈值。由于规则由频繁项集产生，每个规则都自动满足最小支持度。频繁项集连同它们的支持度预先存放在列表中，使得他们可以快速地被访问。（ /）分类规则中的算法决策树是一种常用于分类、预测模型的算法，它通过将大量数据有目的的分类，从而找到一些有价值的、潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。最有影响和最早的决策树方法是由 N3>-+,- 提出的著名的基于信息熵的 OEP 算法。它的主要问题是： OEP 是非递增学习算法；OEP 决策树是单变量决策树，复杂概念的表达困难；同性间的相互关系强调不够；抗噪性差。针对上述问题，出现了许多较好的改进算法，如 QF:+>MM7= 和 2>6:7= 设计了 OE! 递增式学习算法；钟鸣，陈文伟等提出了 OJ$R 算法等。图 / 是顾客是否购买计算机的判定树。沿着由根节点到树叶节点的路径，图 / 的判定树可以转化为 O2LS)RT 分类规则。其规则如图 / 概念 A356LF*M<387= 的判定树 D=7.>8L=,8>-U？ T*V76 RWF7++7-82,>+ Q83.7-8 T*V76 T*V76 %U7 XHP0I!0 P;???!0 V76 · "# ·! 期（ !"" ： !#$%&’()’ "*+,$-’./ *# "01020+’ ），可自动或方便的进行模式提取。这些模式是指从大型数据库或数据仓库中提取人们感兴趣的知识，当然这些知识是隐含的、事先未知的、潜在有用的信息，提取的知识一般可表示为概念、规则、规律、模式等形式。数据挖掘是一个多学科领域，从多个学科汲取营养，涉及到数据库技术、人工智能、机器学习、神经网络、模式识别、归纳推理、统计学、数据库、数据可视化、信息检索、高性能计算等多个领域。从 3454 年 5 月在美国底特律召开的第 33 届国际人工智能会议上首先出现 !"" 这个术语，到 3446 年在加拿大蒙特利尔召开的首届 !"" 7 "010 8*#*#) 国际学术会议，再到以后每年都要召开一次的 !"" 7 "010 8*#*#) 国际学术会议，经过十多年的努力，数据挖掘技术的研究已经取得了丰硕的成果，不少软件公司已研制出数据挖掘软件产品，并在北美、欧洲等国家得到应用。例如， 9:8 公司 ;).0%0&等人最早取得了关联规则挖掘有关的两项专利［ 3 ］。将数据挖掘技术中的关联规则应用在实际工程中，获得了很好的效果。同时互联网挖掘技术也应用在网络搜索和电子商务中，并显现出卓越的效果。在我国，数据挖掘技术的研究也引起了学术界的高度重视，已成为信息科学界的热点课题。数据挖掘研究具有广泛的应用前景，因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域。 3 数据挖掘的分类数据挖掘技术的分类标准有根据发现知识的种类分类、根据挖掘的数据库种类分类、根据采用的技术分类等几种分类方法［ <］。根据发现知识的种类分类： ·根据数据挖掘的功能可分为特征规则挖掘、区分规则挖掘、关联规则挖掘、分类聚类挖掘、孤立点分析、趋势分析、演变分析、偏差分析、模式分析、类似性分析等。 ·按照所挖掘的知识的粒度或抽象层进行区分，包括概化知识、原始知识或多层知识的数据挖掘。根据挖掘的数据库分类： ·按数据库类型可分为关系型、事务型、面向对象型、对象关系型、主动型、异构型。 ·根据所处理的数据的特殊类型可分为时间型、空间型、文本型、多媒体、数据库和遗留系统等。根据数据挖掘采用的技术分类主要有如下几种：（ 3 ）决策树方法［ <=> ］用树形结构表示决策集合，利用信息论中的互信息（信息增益）寻找数据库中具有最大信息量的字段建立决策树的一个结点，再根据字段的不同取值建立树的分支；在每个分支子集中重复建立树的下层结点和分支，即可建立决策树。国际上最有影响和最早的决策树算法是 ?@*@&0# 研制的 9">方法，数据库越大它的效果越好。此后又发展了各种决策树方法，如 9"> 的改进算法 ABC6 和 A6，这两种算法从数据丢失和数据连续性等方面对 9">算法进行了改进。（ <）人工神经网络方法［ B］它从结构上模仿生物神经网络，是一种通过训练来学习的非线性预测模型，可以完成分类、聚类、特征挖掘等多种数据挖掘任务。这种方法是以 8D 模型和 E’ 22 学习规则为基础，用神经网络连接的权值表示知识，其学习方法表现在神经网络的权值修改上。神经网络方法主要应用于数据挖据的聚类技术中。（ >）粗集（F$@)G H’1）方法［ 6］在数据库中，将行元素看成对象，列元素看成属性（分为条件属性和决策属性），等价关系 F 定义为不同对象在某个（或几个）属性上取值相同，这些满足等价关系的对象组成的集合称为该等价关系 F 的等价类。条件属性上的等价类 I 与决策属性上的等价类 J 之间有>种情况：下近似，J 包含 I；上近似， J 和 I 的交非空；无关，J 和 I 的交为空。对下近似建立确定性规则，对上近似建立不确定性规则（含可信度），对无关情况不存在规则。图 3 典型的数据挖掘系统结构知

e商务文档

数据挖掘技术的研究现状及发展方向_陈娜

相关文档推荐：