当前位置:文档之家› 基于条件随机场的中文分词算法改进

基于条件随机场的中文分词算法改进


Ya ti h n o g2 4 0 , C ia 2Mii r p ee tt e u euo D i h n Wu a b i 3 0 4, C ia na S a d n 6 0 1 hn ; . l ayRe rsnai sB ra f t v NE nWu a , h nHu e 4 0 6 hn )
摘 要 :在 中文分词领 域 ,基 于字标 注 的方法得 到广泛 应用 ,通过 字标 注分 词 问题 可转换 为 序列标 注 问题 ,现在分 词效果 最好 的是 基于条 件随机场( R s的标 注模 型。作 战命 令 的分 词是进 行 C F) 作 战指令 自动生成 的基础 ,在 将 C F 模 型应用到作 战命令 分词 时,时间和 空 间复杂度 非常高 。为 Rs 提 高效率 ,对模 型进行 分析 ,根 据特征选 择算 法选取特 征子集 ,有效 降低 分 词的 时间与空 间开销 。 利用 C F 置 信度对 分词结果 进行后 处理 ,进 一步提高分 词精确度 。实验 结果表 明 ,特 征选择 算法 Rs
i a a y e n e t r s b e s r s l c e y s n t f a ur s l c i n l o ih , wh c c t t e s n l z d a d f a u e u s t a e e e t d b u i g he e t e e e to a g rt m ih u h
(, ,) P f 为状态 转移特 征 函数 ; g (, X 为状态特 征 函数 ; Y kv ,) J
和 是 由训 练样本 得到 的特征权 重 ;k为特 征
函数 编号 ;v为 中的节点 。计算 特征权 重 函数 采用极 大似然 估计 方法 。C F 指数 模型 为凸 函数 ,可采 用迭代 R s
c mma d o d r So e o h a is o hea t — e r to fc mma d o d r .Ye o n r e si n ft e b sc ft u o g ne ai n o o n re s twhe i h o 1 n usngt em de f rc mma d o d r e me tto o o n r e ss g n ai n, p o e fb dtm ea d s a e efc e y a ee c un e e Th o e r blmso a i n p c fi inc r n o t r d. em d l
r s ls a e s ts a t r . e u t r a i f c o y
Ke r : Ch n s r e m e a i n; Co diin lRa d m i l s f au es l ci n; c n i n e ywo ds i e ewo ds g ntto n to a n o F e d ; e t r e e to o fde c
( RF ) a g ri teb s tg e hc a c iv tt-fteat efr n e T es g nain o e C s tg e s h e t a g rw ihc na he esaeo-h —r p r ma c . h e me tt ft o o h
如今 随着 信息化 技术 的迅猛发 展 , 互联 网上 的信息 量呈现 指数爆炸 的增长 趋势 , 海量 文本信 息使得 文本 信息
的 挖 掘 成 为 迫 切 需 求 。 与 西 方 语 言 不 同 ,中 文 文 本 中并 不 存 在 词 的 分 隔 符 ,故 中文 分 词 【 是 中 文 信 息 处 理 的 基 j
本 步骤 ,是 自然语 言处理 的经典 问题 。近 些年来 中文分词 得 到了长足 的发展 。主流 方法有传 统 的基于规 则 的 J 方 法和现 在流行 的基 于统计 的方法 。 统方法 如前 向最 大匹配 和反 向最 大匹配 等 , 于统计 的方法 主要有支 持 向 传 基 量 机(u p rV co c ie S M)J隐马尔 科夫模 型( d e ro dlHMM) 1 S p ot etr Ma hn , V 、 HidnMak v Mo e, [和条件 随机场 ( o dt n l 6 C nioa i R n o ils R s a d m F e ,C F ) d 等 。基于统计 的方法 建立在统 计推 断基础上 ,可得 到 比传统 方案更 高 的性 能 。随着 分词 算法 的不 断改进 , 各分 词方法 的性能 已经相差 无几 。目前 达到最好 分词效 果 的是 基于 C F 的分词 模型 , C F R s 但 R s 的主要 问题是其 训练效 率偏低 ,模型本 身决定 了其时 间复杂度 和空 间复杂度非 常高 , 尤其 现在新 的语料 、词汇 不 断涌现 ,预先训 练好 的模 型不能适应 开放性语 料 ,模 型需要 及时更 新 ,高 速实时处 理 的分 词系统 成为迫 切要求 。 如何提 高其训 练效率 ,使之 适应快 速变化 的环境是 实现该模 型 的一 大挑战 。
方 法 找 到 全 局 最 优 解 。目前 常 用 的 是 有 限 记 忆 B G ( i tdme r ry e ,l c e, odabS a n , . F 1 F SL mi moyB o d nFe hr lfr ,h n o L B GS e t G
迭代 方法 。 12 标 注 集 .
用全 局归一化 的方 法 ,避 免产 生标记偏 移 问题 ,所 以在 中文分词 上优 于 HMM 和最 大熵 马尔科夫模 型( xm m Ma i u E t p ro dl nr yMak vMo e,ME o MM) 等模 型 ,取得较 好 的效 果 ,其 中链 式 C F 在 中文 分词任 务 中最 常用 。在 给定 l R s 观察序 列条件 下 ,标 记序列 的条 件概率 为 :
收稿 日期 :2 1-52 ;修 回日期 :2 1-82 0 10 .4 0 10 .3
第2 期
顾 佼佼 等 : 于 条件 随机 场 的 中文 分 词算 法 改进 基
15 8
1 基 于条 件 随机 场 的算 法 改进
11 条 件 随 机 场 模 型 .
C F 是 一 种 判 别 式 模 型 ,采 用 的是 无 向 图 分 布 ,没 有 严 格 的 独 立 性 假 设 ,可 以 任 意 选 取 特 征 ,而 且 因 为 采 R s
引 入 标 注 集 可 把 分 词 问 题 转 化 成 序 列 标 注 问题 , 于 1 句 子 中 的 每 个 字 给 出相 应 的 标 签 , 效 地 就 知 道 了 对 个 等 分 词 结 果 。L MS体 系 是 一 种 常 见 的标 注 方 法 ,每 个 字 依 据 其 在 词 中 出 现 的 位 置 给 予 不 同 标 签 ,句 子 中 的 每 个 位 R
r 一
P Ek ∈,
P ) e I (I ∞ x P
( f) P 。 +∑ 1 女 ,I ) ,, . (Y , l t V k g
V , ∈ k /


( 1 )
式 中 : X 示 需 要 标 注 的 观 察 序 列 集 ; Y 示 相 应 的 标 注 序 列 集 ;在 一 阶 链 式 结 构 的 图 G=( , ) , V代 表 图 中 表 表 VE 中 的 节 点 集 , 表 示 图 中 的边 ,最 大 团 仅 包 含 相 邻 的 2个 节 点 ,即 图 G 的边 。对 1 最 大 团 中 的 无 向边 P ( . , 个 = . , )
Ab ta t I sr e : n Chi e e wo d s g n ai n fe d , t mo t wi e y u e eho i h r ce - s d n s r e me t to i l s he s d l s d m t d S c a a t rba e t g i g, wh c e o mu ae e me tto a kt e u n et g i g ts T n ii n lRa o Fi l a gn i hr f r lt ss g n a in t s o as q e c a g n a k. heCo d to a nd m eds
第 1 0卷 第 2期
21 0 2年 4月
信 息 与 电 子 工 程
I NF0RM ATI ON AND ELECTRONI C ENGI NEERI NG
VO1 0. .1 NO. 2 Ap ., 01 r 2 2
文 章 编 号 : 1 7 . 8 2 2 1 ) 2 0 8 —4 22 9 ( 0 2 0 — 1 4 0
o e h a ftme a d s a e e e tv l n m p o e t e efce c ft em o 1 The o e o tp o e s v r e d o i n p c f c ie y a d i r v h fi i n y o h de. n a n v lp s— r c s usn i g CRFs c n i e c s p e e td t u t e m p o e p ro ma c .By c mb n n h e t e s l c in o fd n e i r s n e o f rh ri r v e f r n e o i i g t e f aur ee to me h d n t e o fd n e b s d o tp o e s g e t mprv me t s c i v d n t e x rme t l t o a d h c n i e c - a e p s- r c s , r a i o e n i a h e e a d h e pe i n a
基 于条 件 随机 场 的 中文分 词 算 法 改进
顾 佼 佼 ,杨 志 宏 ,姜 文 志 h,胡 文 萱
( . 军 航 空工 程 学 院 a兵 器科 学 与 技 术 系 ;b夕 训 系 ,山 东 烟 台 2 4 0 1 海 . _ h 601 2海军 装 备 部驻 武 汉 地 区军 事 代 表 局 ,湖 北 武 汉 4 0 6 ) . 3 0 4
相关主题