当前位置:
文档之家› 基于Hadoop的Web日志挖掘
基于Hadoop的Web日志挖掘
i e c o d c mp tn n r nme t T u t e e iy t e e e t e e sa d e ce c ft e p af r , t s st e i r v d a g rt m O mi e u e s n t l u o u g e vi h i o n . o f rh rv rf f c i n s n f i n y o lt o m i u e mp o e l o i h v i h h h t n s r’ p e e e c e sp t e l g o eplto m . p r e t l e u t h w a , sn srb t d a g rt m o e slr e n mb ro e l g fl s r f r d a c s a i W b o n t af r Ex e m na s lss o t t u i g diti u e l o h t pr c s a g u e fW b o e h n h i r h i O i i e cuse , a i ni c n l p ov e e c e c f e a a mi i g. n t l tr c n sg f a t i r et f i n y o W b d t n n h i ym h i
势 ,设计一种基于 云计 算的 H do 集群框架 的 We aop b日志分析平 台,提 出一种能够在云计算环境 中进行分布 式处理 的混合 算法 。为进一步 验证该平 台的高效性 , 该平台上利用改进后 的算法挖掘 We 在 b日志 中用户 的偏爱访 问路径 。 实验结果表 明, 在集群 中运 用分布式算法处理
d v lp d t ot n c e e o e O a b t e e k.Usn e a v tg f c o d c mp tn — l ig t d a a e o lu o u ig h n iti t d p oc s i g a d vi u lz t n h s p p r p e e t e l g sr bu e r e sn n r ai a i ,t i a e r s n s a W b o t o
n lsspa r u d rt d o S l se a wo kb sdo lu o u ig i lope e t y r l oi a ay i lto m n e eHa o p’ cu tr r e r a e n co dc mp tn ,tas rs nsah b dag rtm ihC itiu e r c s f h fm i h whc a dsrb tdp o es n
第 3 卷 第 1 期 7 1
V_ -7 o 3 l
No. 1 1
计
算
机
工
程
2 1 年 6月 01
J n 01 ue2 l
Co mpu e t rEng n e i g i e rn
・云计 算专 题 ・
文章编号: Io 48 o11 o7 3 文献标识码: 1J 2( 1l 3—o M—3 2 )—o A
CHENG i o . M a CHEN a p n Hu - i g (. l g f n g me tb Colg f o ue c n e n e h o o y Unv ri f ce c dT c n lg f hn , e e 2 0 2 , ia a Col e e o Ma a e n; . l e mp tr i c dT c n lg , ie s yo in ea e h oo yo ia H fi 3 0 6 Chn ) e oC S e a t S n C
中圈分类号:T31 P1
基 于 Ha o p的 We 日志挖 掘 do b
程 苗a p陈华平
( 国科学技术大学 a 管理学院 ;b 计算机科学与技术 学院,合 肥 2 0 2 ) 中 . . 30 6
摘
要: 基于 单一节 点的数据挖掘系统在挖掘 We b海量数据源时存在计算瓶颈 , 针对该问题 , 利用云计算 的分布式处理和虚拟化技术 的优
大量 的 We b日志文件 ,可 以明显提 高 We 数据挖掘 的效率 。 b
关健词 :云计算 ;H do 架构 ;Ma/eue aop p dc 编程模 式 ; b日 R We 志挖掘 ; 遗传 算法 ;偏爱访问路径
W e l g M i i g Ba e n H a o p bo nn s do d o
[ b ta t h s aaf m baeds b td htrg no sa dd nmi, Otec r n aamiigss m ae n s gen d a A src IT emasd t o We r ir ue , eeo e eu n y a c S h ur t t nn yt b sdo i l o eh s r t i e d点 的计算能力 已经遇 到了瓶颈 ,因此 ,利
[ yw r s lu o u n ; d o a e Ma/ e ue We lgmiig gn t g r m;rfr dbo igpt Ke o d ]codc mp t g Ha o pf i r ; p d c; bo nn ; eei a o t peer rws a m R cl i h e n h D0I 1 .9 9 .s.0 03 2 .0 11 .1 : 03 6 0i n10 —4 82 1.1 3 s 0