当前位置:文档之家› 基于分布式数据挖掘方法的研究与应用

基于分布式数据挖掘方法的研究与应用


项集的集 合。仿真 实验结果表 明 , 随着节点数 目的增多 , 改进算法 比原算法执行时间要短 , 并且这种优势随着
节点数 目的增 加而扩大 , 说 明在异构集群环境下 , Ma p R e d u c e模型 的 A p i f o i算法能够 提高关联规则挖 掘的执 f
行效率 。将改进的分布式关 联规则算 法在 分布式教育决 策支持系统 中应用 , 通过对实 际数 据的挖掘 , 证明 了
V0 1 . 3 5 No .1 F e b. 2 01 3
文章编号 : 2 0 9 5—3 8 5 2 ( 2 0 1 3 ) 0 1 — 0 0 4 0一 o 4
文 献标 志 码 : A
基 于 分布 式 数 据 挖 掘 方 法 的研 究 与 应 用
汪 丽 ,张 露
( 1 .武汉理工大学 统战部 , 湖北 武汉 4 3 0 0 7 0 ; 2 . 武汉理工大学 计算机科学与技术学 院, 湖北 武汉 4 3 0 0 7 0 )
联规则挖掘算法 , 但A p r i o r i 算法仍是许多新算法
收稿 1 5 t 期: 2 0 1 2— 0 9—1 0 .
作者简 介: 汪
丽( 1 9 7 7 一) , 女, 湖北武汉人 , 武汉理工大学统战部 助理研究员
基金项 目: 湖北省教育厅教学研究基金资助项 目( 2 0 0 9 2 4 0 ) .
将运行 于大规模集群上复杂的并行计算过程高度 地抽象成两个函数 : M a p和 R e d u c e J 。在实现上 将并行化 、 容错 、 数据分布和负载均衡等细节隐藏 起来 , 然后把整个分布式过程看作 由 M a p / R e d u c e 来表达 的一个类 函数过程。M a p阶段 , M a p / R e .
1 关联规则挖掘算法及其分布式改进
1 . 1 关联规 则挖 掘算 法
从广义上讲 , 数据挖掘 的本质 即关 联分析。
数据挖 掘 的 目的是挖 掘 出潜 藏在 大量 数据 背后 的 有用 知识 , 这种 知识 所 反 映 的 必 然是 不 同对 象不 同属 性之 间 的关 联 。
掘也不再适用 J 。针对 A p r i o r i 算法进行改进 , 提
出了一 种 分 布式 的关 联 数据 挖 掘 算 法 , 利 用 Ma .
没有复杂的推导 。但同时该算法也存在两个主要 缺点 : ① 多次重 复 扫描 数 据 库 和产 生 大 量 候选 频 繁项集。在实际应用 中, 多次重复扫描数据库在 需要挖掘很长的模式时将带来 巨大开销 ; ②在迭 代过程中要在 内存 中产生 、 处理和保存候选频繁
该方法对教育决策 的有效性 。
关键词 : 分布式数 据挖 掘 ; Ma p R e d u c e 模型; 关联规则 ; 分布式教育决策支持系统
中 图分 类 号 : T P 3 1 1 . 1 3 D O I : 1 0 . 3 9 6 3 / j . i s s n . 2 0 9 5— 3 8 5 2 . 2 0 1 3 . 0 1 . 0 1 1
摘Hale Waihona Puke 要: 针对关联 规则 A p r i o r i 算 法多次重复 扫描数 据库 和产生 大量候选 频繁 项集 的缺点 , 对 其进行 改
进, 并在 Ma p R e d u c e 模 型上得以实现。改进 的 A p r i o r i 算法 只需要对 整个数据库扫描一次 , 即可得到所有频 繁
Ma p R e d u c e模 型 是 G o o g l e开 发 的一 个 针 对 大规模 群组 海量 数 据 处 理 的分 布 式 编程 模 型 , 它
在众多的关联规则算法中, 最著名的是 1 9 9 3 年A G R A WA L等提出 的 A p r i o r i 算法及其改进算 法 。 j 。尽管后来又有科研工作者提出了许多关
项集 , 这 个数量 有 时候是 非常 大 的 , 会导致 算法 在
广 度和 深度 上 的适 应性 很差 。 1 . 2 分布式 Ap r i o r i 算法 设计
p R e d u c e 模型对算法 进行实现, 并将改进 的关 联
规则 算法 应用 于分 布式 教育决 策支 持系统 中。
步骤 为 : ① 根据 原事 务集 产生频 繁 1项 集 L ; ②根据频繁 k 项集产生第 k +1 层候选集; ③
扫描事务集 , 找出第 k +l 层频繁集; ④循环步骤
②和步骤③ , 直到第 k + 1 层频繁集为空。
A p r i o r i 算 法 的优 点 是 结 构 简 单 , 易 于理解 ,
随着网络和计算机技术 的快速发展 , 信息也
在爆 炸 式地 增 长 并呈 现 出 海量 、 多样 、 异构、 动态
的原 型 , 很 多算法 都是 基于 A p r i o r i 算法 的改进 。 可将 A p i f o r i 算法 描述 如下 : 输人 为事务 数据 库 D; 最 小支持 度 阈值 J s 输 出为 D 中 的频 繁项 集 L 。
第3 5 卷 第1 期
2 0 1 3 年2 月
武 汉理工大学学报 ( 信息与管理工 程版 )
J O U R N A L O F WU T ( I N F O R M A T I O N&M A N A G E M E N T E N G I N E E R I N G )
变化 等特 性 J 。分 布 式 计 算 平 台 的 出现 解 决 了
海量数据 的存储和计算 的瓶颈问题 , 使海量数据 的数据挖掘成为可能。将分布式与现有数据挖掘 算法相结合 , 已成为研究 的热点 J 。 而随着信息化建设 的深入发展 , 高校都拥有
大量 的教育 信息 , 其 分 布 范 围在地 理 上 越来 越 广 泛, 数 据结 构呈 现多样 化 的趋势 , 使传 统 的数 据挖
相关主题