当前位置:文档之家› 基于云计算及数据挖掘技术的海量数据处理研究

基于云计算及数据挖掘技术的海量数据处理研究


随着 网络 技 术 的 飞速 发 展 , 存 储 于计 算 机 中 的 的百分 之一 。因此 , 我们 把重 点放 在树 的创建 上 ; 另 数 据 文件 呈爆 炸式 的发 展 。这些 数 据又 称为 海量 数 外 一方 面 , 基 于二叉 树简 洁又 精准 的特 点 , 本 文选 择 据, 这 类数 据 常常 伴 随着 噪声而 且是 异构 数 据 , 其 很 的是创 建二 叉树 。
S P RI NT算法 ,然后 结合云计算 中的 Ma p R e d u c e 编程模 式对 s P R I NT算 法进行 改进 和优 化 ,将并行的 s P R I NT算 法移植到
HADOOP平 台下 ,最 后 通 过 实验 实现 分 布 式 数 据 处 理 。
关键词 :云计 算;数据挖掘 ;S P RI NT;HADOOP;Ma p R e d u c e 中图分类 号: TP 3 1 文献标识码 :A 文章 编号 :1 6 7 2 — 9 8 7 0 ( 2 0 1 3 ) 0 6 — 0 1 5 7 — 0 4
Re s e a r c h o n Ma s s i v e Da t a Pr o c e s s i n g Ba s e d o n
Cl o ud Co m pu t i n g a n d Da t a Mi n i n g
W ANG Pe n g,W ANG J i a n a n, GUO C h a n g,BA J i c i
Vo 1 . 3 6 N o . 6
De c . 201 3
基 于云计算及数据挖掘技术 的海量数 据处理研究
王鹏 ,王健安 ,郭畅 ,巴济 慈
( 长春理工大学 摘 计算机科学技术学院 ,长春 1 3 0 0 2 2 )
要 :主要 介绍 了在 HADOO P平 台下使 用优 化 的 S P R I Ni n g wa s i n t r o d u c e d . Fi r s t l y, t h e SP RI NT a l g o r i t h m wh i c h i s t h e t r a d i t i o n a l d a t a mi n i n g a l g o r i t h m wa s i n t r o d u c e d a n d
难直接被用户理解 。如何从这样 的数据里提取出规 1 . 1 数 据结 构 律 和模 式 已经 成为 一个 难题 。数 据 挖掘作 为 一 门能 S P R I NT算 法表 示数 据 特征 的方 式是 采用 属性 够高效 的、 便 于 扩 展 的解 决 以 上 问题 的技 术 应 运 而 表 与直 方 图这两 种数 据结 构 , 其 中, 后 者是 依 附在 前 生 。选 择 云计 算 做 海量 数 据 的 分类 数 据 挖 掘处 理 , 者之上 , 而前 者又 是 随着 节 点 的划 分 而 分裂 的。 它 可 以减 少构 建 分 布 式计 算 平 台 的开 销 , 同 时将 底层 会 依 据属 性 的 不 同性 质 , 如 连续 型或 离 散型 而 显 现 屏 蔽掉 , 便 于开 发 , 使 得 原有 的设 备拥 有对 大 数据集 的较高处理效率 , 增加了节点的个数和容错 能力 , 提 出相应 的表 现形式 。
( S c h o o l o f Co mp u t e r Sc i e n c e a n d Te c h n o l o g y,Ch a n g c h u n Un i v e r s i t y o f S c i e n c e a n d Te c no h l o g y,Ch a n g c h u n 1 3 0 0 2 2 )
第3 6 卷第 6 期
2 0 1 3 年1 2 月
长 春理 工大 学学报 ( 自然科学版 )
J o u r n a l o f Ch a n g c h u n Un i v e r s i t y o f S c i e n c e a n d T e c h n o l o g y( Na t u r a l S c i e n c e E d i t i o n )
Ab s t r a c t :I n t h i s p a p e r ,o p t i mi z e d S PRI NT a l g o r i t h m wh i c h wa s u s e d i n t h e Ha d o o p p l a t f o r m f o r ma s s d a t a p r o c e s s —
t h e n wa s c o mb i n e d wi t h t he M r d p Re d u c e mo d e l i n t h e c l o u d c o mp u t i n g t o i mp r o v e a n d o p t i mi z e t h e S PRI NT a l g o — r i t h m .At l a s t ,t h e p a r a l l e l S PRI NT a l g o r i t h m wi l l b e t r a n s p l a n t e d t o t h e HADOOP p l a t f o m ,a r n d f i n a l l y t h e d i s t r i b u t — e d d a t a p r o c e s s i n g wa s a c h i e v e d t h r o u g h t h e e x p e r i me n t . Ke y wo r d s: c l o u d c o mp u t i n g;d a t a mi n i n g;SP RI NT ;h a d o o p; ma p Re d u c e
相关主题