分布式数据流聚类算法
mo e aa tr r ban db M loi m ihi e s iet i a au . DAM — s e m rsn s e st ae lo tm d l rmeesaeo tie yE ag rt whc sn iv oi t l le p h s t n i v Dit a pe e t n i b s dag r h t r d y i o
c to c to hes se . ai n os ft y tm
Ke r s ds iu e aasra s cu trn ; d n i —a e ; mo e— ae ; d t nn ywo d : il b tdd t t m ; ls i g e st b sd r e e y d lb s d aamiig
0 引 言
为 了 适 应 Itme ne t传 感 器 网络 、 以及 P P 算 等 这 些 应 用 2计 的 要 求 , 布 式 数 据 流 挖 掘 技 术 尤 其 是 聚 类 分 析 成 为 当前 数 分
部站 点 不 能 传 送 聚 类 簇 的 完 整 描 述 ,而 是 传 递 每 个 簇 的近 似 概括 , 即簇 的 充 分 统 计 量 。中心 站 点 则 需 要 综 合 分 析 、 理各 处 个 局 部 站 点 上 传 的统 计 信 息 , 到 一 个 全 局 的聚 类 描 述 。 得
l we o o r mmu iai nc ss DAM — s e m, a l s rn lo t m o i i gd n i t o dmo e t o r p s d 1 l 1 c n c t o t, o Dit a r u ti g ag r h c mb n n e st meh da d l c e i y n meh di p o o e . 1e 一 s a
在 一 个 地 方 , 聚 类 处 理 在 不 同机 器 上 执 行 并 存 取 同一 数 据 , 而
tr o GM M . E p rme s o t a i c ni r v t ecu tr gq ai f aa s e msi itiu e y msa dr d c h o es f x e l m h w h t t a mp o e h l s i e n u lyo d t r a t t nd s b tds  ̄e n e u et ec mmu l r n—
1 混 合 高 斯模 型 . 1
混 合 高 斯 模 型 被 定 义 为 个 高 斯 密 度 函数 的 线 性 组 合 , 它 能 够 很 好 地 刻 画 数 据 的 空 间 分 布 特 性 。混 合 高 斯 模 型 是 一
种 半 参 数 的 密 度 估 计 方 法 ,它 融 合 了参 数 估 计 法 和 非 参 数 估
率 的 分 布 式 算 法 来 降低 通 讯 负 担 、 央 存 储 和 计 算 时 间 。局 中
收稿 日 :2 1 - . ;修订 日期:2 1—1 4 期 0 0 80 0 3 0 01— 。 2 基金项目:国家 83高技术研究发展计划基金项 目 (0 8 0 10 ) 6 2 0 AA 10 1
cu tr a r a r t t a , t e r h t es i b ei i a a a tr r u sa x u emo e . S c n , EM l o t m e l se t s e msa f s, h t s os a c u t l t l r mee sf da t t i i h a n i p o Ga s inmi t r d 1 e o d ag r h i u d i s s t t r t ecu t r g a dt e h lo i oi ai e v l ei , n s n h nt eag r h t m d tr n s At a t t e e e mie . l s h mo e s l u l a e t h e ta i , d l ae p o d d ot ec n l t r s e ̄r eit g a e r a me t h t n e r t dt t n . e
moe dsem)该算 法 不 需要 事 先 设 定 簇 的个 数 , 获 得性 能 d1 ir , . ta 能 较 优 的模 型 参 数 , 具 备 跟 踪 数 据 流 聚 类 模 型变 化 的 能力 , 并 在
降 低 系 统 的通 信 代 价 的 同 时 能有 效 提 高 分 布 式 环 境 下 数 据 流
摘 要: 针对 分布式数据 流 中数据有 交 叠、 不完整 的情 况和聚类 需要 较低通信 代价的要 求 , 出了密度 和模型聚 类思想相结 提
合 的分布 式数据流 聚类算法 D M—ira 该 算法 利用混合 高斯模 型描述数据 流的分 布概 况 , 以有 效压缩数据量 并能较 好 A D sem。 t 可 的反映分 布数 据流 间的交 叠性 。 由于获得模型 参数的 E 算法对初值敏 感 , M 应用 H e dn 界 理论和基 于密度 的算 法对 数据 流 of ig 进行初聚 类, 得到 比较 准确 的初始参数 , 最后 采用合 并近似模 型策略 获得 全局模 型。仿真 实验 结果表 明, A Dsem能有 D M- ir ta 效克服 E 算法的缺点 , M 获得 的模型 参数性 能更优 , 在降低 系统的通信代价 的 同时能提 高分布 式环境 下数据 流 的聚 类质 量。
g ftm s s eGa s inmi t r d lod s r et e aas e ms o n t e o a it b t nst s o h u e u s xu emo e e c b t r a wi gi ot c l sr u i i .Ho v r i h t a t i h d t l f n h l d i o e we e,Ga s i xu e u sa mi t r n
Ex ei na s l h w a p rme tleu ts o t t r s h DAM - sra c le e t eyo e metes oto ng fh Dit m al f ci l v  ̄o rc mi s eEM lo tm n ba etr aa - e v h h o t ag r h a do ti b t rme i n ep
Ab t a t Ac o dn ec n i o a e ea es meo e lp a d mis g d t it b td d t r a s a d t e en e so sr c : c r i gt t o d t nt t h r r o v r n s i aa i d s u e a s e m , n me t e d f oh i h t a n n i r a t o h t
20 2 1,V 1 2 N . 计 算 机 工 程 与 设 计 C m ueE gneig n D s n 78 01 o. , o8 3 o pt nier d ei r na g
分布式数据流聚类算法
刘 力 雄 , 郭 云 飞 , 康 晶 , 马 宏
( 家数 字 交换 系统 工程技 术研 究 中心 , 河 南 郑 州 4 0 0 ) 国 50 2
本 文 基 于 文 献 [] 框 架 , 出 了 结合 密 度 和 模 型 聚 类 思 1中 提
想 的 分 布 式 数 据 流 聚 类 算 法 — — D M. s em (esyad A Dir t a dni n t
据 挖 掘 领 域 的一 个 研 究 热 点 “ 。 目前 主 流 的 分 布 式 数 据 流 聚 类 的基 本 框 架 是 每 个 站 点 对 各 自的 数 据 流 进 行 聚 类 分 析 ,
关键 词 : 布 式 数 据 流 ; 聚 类 ; 基 于 密度 ; 基 于 模 型 ; 数 据 挖 掘 分
中图法分 类号 :P 1 T31
文献标 识码 : A
文章编号 :0 072 2 l) 8 7 80 10-0 4(0 10 - 0 -4 2
Cl se i gag r h o e it b td d t te m u trn lo i m v rd s i u e aasr a t r
LI Lix o g GU O n f i K G i g M A n U - i n , Yu —e , AN Jn , Ho g
( a o aDi t w t ig ytm E g er gadTcncl eerh et , Z eg h u 5 0 2 C ia N t nl g a S i hn s n i ei eh i sa ne i il c S e n n n aR cC r hn z o 0 0 , hn) 4
算 法 的 模 型 应 该 具 备 跟 踪 变 化 的 能 力 , 且 应 该 有完 整 的 新 并 陈代 谢 功 能 。③ 要 聚 类 非 常 巨大 的 分 布 式 数 据 流 ,需 要 有 效
1 相 关 概 念
许 多 自然 界 和 社 会 系 统 模 型 都 表 现 出符 合 某 种 分 布 。 只
刘力雄 ,郭 云飞,康 晶,等:分 布式数据 流聚类算法
某 个 混合 高 斯 模 型 有 效 地 近 似 表 示 。
2 1, o.2 N . 2 0 0 1 V 1 , o8 7 9 3
表 1 分布 式环 境下 聚类 分 析
集中化聚类 ( C C )
集 中化 聚 类 ( c) C 分布式聚类 ( Dc) C C D. C C DC D.
后传送各个站 点间的聚类模 型, 最
后 通 过 分 析 处 理 得 到全 局 聚 类 结 果 nl 其 主 要 要 求 包 括 : ,。 1 J ①
流 数 据 可 聚 成 的簇 的个 数 是 在 不 断变 化 的 , 因此 不 能 给 定 一 个 固 定 的值 作 为参 数 。 流 数 据 的结 构 和 分 布 是 不 断 变 化 的 。 ②