一种快速词自动聚类算法
A NEW ALGoRI THM oF oRDS AUTOM ATI CLUS W C TERI NG
WagD o QeJn Z a gJa L n i。 n u i u hn un i We bn
( at Sho o P h izun n i l o mie ,h ah ag00 5 , ee, hn ) P r colfC C S i ha gMu ip m teS i zu n 5 0 1 H biC ia y j a caC t i f 。 H bi r e inlcz e P li l c nea dL w,h izun 5 0 1 H biC ia ( eePo so a 0 ohc i c n a Siah a g0 0 6 , ee,hn ) fs a Se j ’ S iah ag U irt cnmi ,h izu n 5 01, biC ia (h i u n n esyo E oo c S iah ag0 03 Hee, hn ) jz v i f s j
( 河北 政 法 职 业 学 院
王 舵 郄 君 张 娟 李文斌
河北 石家庄 0 0 5 ) 5 0 1
河北 石家庄 006) 5 0 1
( 石家庄经 济学院
河北 石家庄 0 0 3 ) 5 0 1
摘 要
词聚类是语言 自动处理 中一个重要的基础环节。传 统的统计 方法基于贪 婪原则 , 常以语料 的似 然 函数或 困惑度 作为评
Ab t a t sr c W od cu tr g i a mp r n u d me tlw r n a t mai a g a e p o e s T a i o a sait a t o sb s n g e d r l s i n i o t t n a na o k i u o t ln u g rc s . r d t n l tt i lmeh d a eo r e y en s a f c i sc
价标准 , 其主要缺 点是 : 聚类速度慢、 初值对结果 的影 响大 、 易陷入局 部最优。针对这些 问题 , 出 了基于相似度 测度和覆 盖方法的 提
聚类方法。该方 法计 算量小 、 聚类速度 快。而且 , 借助覆盖原理有效减小 了初始 点选取对聚 类的影响程度 。实验证 踢, 效果理想 。 关键词 词聚 类 似然 函数 覆盖方法
g ,h i l se ig s e d i s w, e ii a v l e afc st er s l ge t , n h y e s y fl it o a p i m. o ni g t h s r b e , . te r u t r p e s l t n t l au f t h e ut r al a d te a i al n o lc l t c n o h i e y l o mu P i t t e e p o lms n o t i p p rp t f r r e w r sa tmai l se n t o a e n smi r yme s r me t n o e i g ag r h T ec u t r g s e d h s a e u s owa d an w o d u o t c u t r g meh d b s d o i li a u e n d c v rn l o t m. h l se n p e c i at a i i o i meh d i fs b c u et e c mp tt n lc mp e i smu h smp e Alo d e t h o ei g t e r s t i me h d r d c st e i f — ft s h to s a t e a s h o u ai a o lx t i o y c i l . s , u o te c v r h o e , s n i h t o e u e h n u l e c fi i a ee t n o on n t e cu trn . x e i n ai a e h d a f c fo rd sg . n e o t s lci f ito h l sei g E p r n i l o p me tv l ts t e ie 1 f to u e in d ee Ke wo d y rs W o d cu trn L k l o d f n t n C v r g meh d r l se g i i ei o u ci o e i to h o n
第2 7卷 第 8期
21 0 0年 8月
计算机 应 用与软件
Co u e p iai n n o wa e mp t rAp l to s a d S f r c t
Байду номын сангаас
Vo _ 7 No 8 l2 . Au . 2 0 g 01
一
种快 速 词 自动聚 类算 法
( 中共石家庄 市委党校
p n i l ot n us a ua e m ae as lk lh o u c in o o f so c e e e ta here au to rtra. e a e tpia fu t e. i r cp e, fe e lng g t r l i e io d f n to r c n u in a hiv m n s t i v la in c e i Th y h v y c ldea ls, i i