当前位置：文档之家› 基于分布式数据挖掘方法的研究与应用

基于分布式数据挖掘方法的研究与应用

项集的集合。仿真实验结果表明，随着节点数目的增多，改进算法比原算法执行时间要短，并且这种优势随着
节点数目的增加而扩大，说明在异构集群环境下，ＭａｐＲｅｄｕｃｅ模型的Ａｐｉｆｏｉ算法能够提高关联规则挖掘的执ｆ
行效率。将改进的分布式关联规则算法在分布式教育决策支持系统中应用，通过对实际数据的挖掘，证明了
Ｖ０１．３５Ｎｏ．１Ｆｅｂ．２０１３
文章编号：２０９５—３８５２（２０１３）０１ — ００４０一ｏ４
文献标志码：Ａ
基于分布式数据挖掘方法的研究与应用
汪丽，张露
（１．武汉理工大学统战部，湖北武汉４３００７０；２．武汉理工大学计算机科学与技术学院，湖北武汉４３００７０）
联规则挖掘算法，但Ａｐｒｉｏｒｉ算法仍是许多新算法
收稿１５ｔ期：２０１２— ０９—１０．
作者简介：汪
丽（１９７７一），女，湖北武汉人，武汉理工大学统战部助理研究员
基金项目：湖北省教育厅教学研究基金资助项目（２００９２４０）．
将运行于大规模集群上复杂的并行计算过程高度地抽象成两个函数：Ｍａｐ和ＲｅｄｕｃｅＪ。在实现上将并行化、容错、数据分布和负载均衡等细节隐藏起来，然后把整个分布式过程看作由Ｍａｐ／Ｒｅｄｕｃｅ来表达的一个类函数过程。Ｍａｐ阶段，Ｍａｐ／Ｒｅ．
１关联规则挖掘算法及其分布式改进
１．１关联规则挖掘算法
从广义上讲，数据挖掘的本质即关联分析。
数据挖掘的目的是挖掘出潜藏在大量数据背后的有用知识，这种知识所反映的必然是不同对象不同属性之间的关联。
掘也不再适用Ｊ。针对Ａｐｒｉｏｒｉ算法进行改进，提
出了一种分布式的关联数据挖掘算法，利用Ｍａ．
没有复杂的推导。但同时该算法也存在两个主要缺点： ① 多次重复扫描数据库和产生大量候选频繁项集。在实际应用中，多次重复扫描数据库在需要挖掘很长的模式时将带来巨大开销； ②在迭代过程中要在内存中产生、处理和保存候选频繁
该方法对教育决策的有效性。
关键词：分布式数据挖掘；ＭａｐＲｅｄｕｃｅ模型；关联规则；分布式教育决策支持系统
中图分类号：ＴＰ３１１．１３ＤＯＩ：１０．３９６３／ｊ．ｉｓｓｎ．２０９５— ３８５２．２０１３．０１．０１１
摘Hale Waihona Puke 要：针对关联规则Ａｐｒｉｏｒｉ算法多次重复扫描数据库和产生大量候选频繁项集的缺点，对其进行改
进，并在ＭａｐＲｅｄｕｃｅ模型上得以实现。改进的Ａｐｒｉｏｒｉ算法只需要对整个数据库扫描一次，即可得到所有频繁
ＭａｐＲｅｄｕｃｅ模型是Ｇｏｏｇｌｅ开发的一个针对大规模群组海量数据处理的分布式编程模型，它
在众多的关联规则算法中，最著名的是１９９３年ＡＧＲＡＷＡＬ等提出的Ａｐｒｉｏｒｉ算法及其改进算法。ｊ。尽管后来又有科研工作者提出了许多关
项集，这个数量有时候是非常大的，会导致算法在
广度和深度上的适应性很差。１．２分布式Ａｐｒｉｏｒｉ算法设计
ｐＲｅｄｕｃｅ模型对算法进行实现，并将改进的关联
规则算法应用于分布式教育决策支持系统中。
步骤为： ① 根据原事务集产生频繁１项集Ｌ； ②根据频繁ｋ项集产生第ｋ＋１层候选集； ③
扫描事务集，找出第ｋ＋ｌ层频繁集； ④循环步骤
②和步骤③ ，直到第ｋ＋１层频繁集为空。
Ａｐｒｉｏｒｉ算法的优点是结构简单，易于理解，
随着网络和计算机技术的快速发展，信息也
在爆炸式地增长并呈现出海量、多样、异构、动态
的原型，很多算法都是基于Ａｐｒｉｏｒｉ算法的改进。可将Ａｐｉｆｏｒｉ算法描述如下：输人为事务数据库Ｄ；最小支持度阈值Ｊｓ输出为Ｄ中的频繁项集Ｌ。
第３５卷第１期
２０１３年２月
武汉理工大学学报（信息与管理工程版）
ＪＯＵＲＮＡＬＯＦＷＵＴ（ＩＮＦＯＲＭＡＴＩＯＮ＆ＭＡＮＡＧＥＭＥＮＴＥＮＧＩＮＥＥＲＩＮＧ）
变化等特性Ｊ。分布式计算平台的出现解决了
海量数据的存储和计算的瓶颈问题，使海量数据的数据挖掘成为可能。将分布式与现有数据挖掘算法相结合，已成为研究的热点Ｊ。而随着信息化建设的深入发展，高校都拥有
大量的教育信息，其分布范围在地理上越来越广泛，数据结构呈现多样化的趋势，使传统的数据挖

e商务文档

基于分布式数据挖掘方法的研究与应用

相关文档推荐：