当前位置:文档之家› 大规模短文本的不完全聚类

大规模短文本的不完全聚类

Ths p p rr v as 1 e ln ald srbu in oft i n fif r ai i a e e e l h o g ti iti to hs kid o n o m t on,a o o e n ic nd pr p s s a n omplt ls ei g ago ih . ee cu trn l rt m
The e pe i e a e u t s w ha h op e e h a l t r t ho tt xt fe tvey a fce ty x rm nt lr s ls ho t tt e pr os d m t od c n cus e he s r e se f c i l nd efii n l .
Ke r s:s r e ty wo d ho tt x s;c u t rn l s e ig; ic m plt l s e i g no e ec u t rn
Ab ta t s r c :Cl s e i g i n uns pe v s d ca sfc to te n ( s r a i s,da a ie s,orfat r e t s)i t u t rn s a u r ie ls iia in ofpa t r s ob e v ton t t m e u e v cor no
息 进 行 聚 类 分 析 时 往 往 显 得 异 常 无 力 。 该 文 通 过 对 实 际 应 用 中 的 短 文 本 信 息 进 行 实 验 分 析 , 现 了 这 类 数 据 类 别 发
所 具 有 的“ 长尾 现 象 ” 并 由此 提 出 了不 完全 聚 类 思 想 , 以有 效地 提 高这 类 短 文本 信 息 的 聚类 性 能 。 , 可 关 键 词 :短 文 本 ; 类 分 析 ; 完全 聚 类 聚 不
第 2 5卷 第 l期
2l O 1年 1月
中 文 信 息 学 报
J) (URNAI OF CH I NES N F E I ORM AT1 0N PROCE S NG S I
V 01 25,N o 1 . .
J n ,2 l a. 0 1
文 章 编 号 :1 0 — 0 7 2 1 ) 卜0 5 6 0 30 7 ( 0 0 0 40 1
中 图 分 类 号 :TP3 1 9 文 献 标 识 码 :A
I c m p e e Cl s e i g f r La g c l h r x s n o l t u t r n o r e S a e S o tTe t
PENG yn ,Y U a m ig Ze i g Xio n ,XU n b ,II Chu y n Ho g o U n ag ( .I siueo mp tn l c n lg ,Chn s a e f ce c ,B in 0 1 0,Chn ; 1 n t t f t Co u ig ' h oo y e ie eAcd myo in e ej g 1 0 9 S i ia
2 .Nain lC mp trNewo k Emeg n yRe p n eTeh ia Te m/ o dn t n(e tro ia,B in 0 0 9 t a o u e t r o r e c s o s c nc l a Co r iai ;n e fChn o ej g 1 0 2 ,Chn ) i ia
gr ps ( l t r ) So f r ou cus e s . a ,m a l s e i l ort s h vebe n pr po e ny c u t rng a g ihm a e o s d. W ih t a d d veo t he r pi e lpm e n e ne , ntofi t r t s or t t u h a h t ex s s c sque y l s a d Tw it rm e s ge a o ea o ei p t ntr e i rdal ie M o te r og n te s a sply a m r nd m r m ora ol n ou iy lf . s x— itng c u t rn e h s a eha d t pple n d a i t hi nd ofi o m a in duet hehu c l fda a s i l s e i g m t od r r O bea id i e lng wih t ski nf r to o t ges ae o t .
大 规 模 短 文 本 的 不 完 全 聚 类
彭泽 映 俞 晓 明 许 洪 波 刘 春 阳。 , , ,
( .中 国科 学 院 计 算 技 术 研 究 所 , 京 l 0 0;2 1 北 0l 9 .同家 计 算 机 网 络 应 急 技 术 处 理 协 调 中 心 , 京 1 0 2 ) 北 0 0 9

要 :聚 类 分析 是 数 据 挖 掘 的一 个 重要 手 段 , 们 可 以通 过 聚 类发 现 信 息 中 潜在 的 热 点或 规 律 。至 今 , 经有 大 人 已
量 聚类 算 法 被 研 究 和 提 出 。随 着 互联 网 的 日益 普及 , 询 日志 、 wi e 等 短 文 本 信 息 逐 渐 在 人 们 生 活 中起 着 越 来 查 T t r t 越 重要 的作 用 。这 类 短 文 本 信 息 数 量 巨大 , 常 可达 到 千 万 乃 至亿 级 , 有 的 聚 类 算 法在 对 这 类 大 规 模 短 文 本 信 通 现
相关主题