当前位置:文档之家› 基于CRF和转换错误驱动学习的浅层句法分析

基于CRF和转换错误驱动学习的浅层句法分析


2 0 [共 享 任务 中组块 的定义 , 合 中文 的特 点 对组块 进 行定 义 。中文 组块 的定 义 : 0 06 ] 结 组块 是 句子 中相 邻 的 词语 组成 的 序列 , 各个 组块 之 间不重 叠 、 不递 归 、 不嵌 套 , 个 组块具 有 一个核 心词 语 。组块 介 于词语 和句 每 子之 间 , 并且 具有 一定 的 句法功 能 , 各个 组块 之 间的关 系是 平行 的 。本文 定 义 了 6种组块 类 型 ( 型 , 占汉语 短语 总数 的 9 以上 。对 于 每个 组块 , 0, 9 6 都标 注一个 组 块标记 。本 文组 块 的边 界 标 注采 用 I 2 注 方 法L , 体 的标 注 规则 如 下 : — 表 示 当前 词是 组 块 x开 始 的词 ; I OB 标 7具 ] ①B X, ② — X, 示 当前 词是 组块 X 中 间或者 结尾 的词 ; 表 ③o, 表示 当前词 是 一个 不属 于任 何组 块 的词 。 1 2 组块 的 获取 .
浅 层句 法分 析 (h l w p rig , 叫部 分句法 分 析 ( at l as g 或 者组块 分 析 (h n as g 。 s al as ) 也 o n p ri ri ) ap n c u kp ri ) n 浅 层句 法分 析将 句法 分析 分成 : 块 的识 别 和分 析 ; 组 组块 间 的相互 依存关 系分 析 。 目前 浅 层句法 分析 的方 法 主 要 有 : 于统 计 的方 法 、 基 基于 规 则 的方 法 以及 统 计 和规 则 相 结 合 的 方 法 。在 英 文方 面 , d E 利用 Ku ol i S VM 取 得 了很好 的 组块识 别 效果 ; 中文 的组块 识 别方面 , 广路 等 [利用 统计 的方 法 进行 组块 的识 别 , 在 孙 2 ] 黄 德根 等[ 利用 C F识别 汉语 组块 。本文将 利 用 C 3 ] R RF和 转换 错误 驱动 学 习相 结合 的方 法进 行 浅层 句法
分 析 。C RF模 型 克服 了传 统 机器 学 习方 法 中存 在 的标注 偏 置 问题 L , 基 于转 换 的错误 驱 动学 习则 可 以 4而 ]
进 一步提 高 组块 的识 别率 。
组 块 的定 义与 获 取
1 1 组 块 的定义 . 组 块 的 定 义 对 组 块 分 析 的结 果 有 很 大 影 响 。本 文 根 据 Ab e [ 对 英 语 组 块 的 定 义 以及 C NL 一 n y5 ] o L
第2 9卷
第 3期
广 西师 范大 学学 报 : 自然 科学 版
Ju n l f a g i oma Unvri : trl c n eE io o ra n x r l ies y Naua i c dt n o Gu N t Se i
Vo . 9 No 3 12 .
Se .2 pt 011
目前 中文还 没 有统 一 的组 块语 料库 , 本文 将从 宾 州大 学 中文 树库 5 0版 本 中抽 取 组块 建 立 汉语 组块 .
库 。该 树库 共 有 1 8 87 2个 句子 , 5 72 2个单 词 ,2 8 个 汉 字 , 为 8 0个 数据文 件 存储 。宾 州大学 约 0 2 8 49 3 分 9 中文 树库 中 原有 2 3种 短语 类 型 , 根据 上 文组 块定 义从 中抽 取 了 6种常用 类型 的组块 , 如表 2所 示 。

要 : 文 提 出一 种 C F和 基 于 转 换 错误 驱 动 相 结 合 的 中 文 浅 层 句 法 分 析 方 法 。 方 法 应 用 于 宾 州 大 学 中 本 R 该
文树库 , 取得不错 的组块识别效 果。 C 在 RF识 别的基础上 , 对初始识别 结果中的组块标注信息进行统计分析 ,
收 稿 日期 :0 10 —5 2 1-52 基 金项 目 : 家 自然 科 学 基 金 资 助 项 目 ( 0 7 1 3 60 3 1 ) 国 家 哲 学 社 科 基 金 资 助 项 目( O Y 2 ) 江 苏 省 自然 国 6 7 3 7 ,1 7 1 9 ; 1C Y0 1 ; 科 学 基 金 资 助 项 目 ( K2 1 5 7 ; 苏 省 教 育 厅 自然 科学 基 金 资 助 项 目(O J 5 O 0 ) 江 苏 省高 校 社 科 基 B 004)江 1 K B 2 09 ; 金 资 助项 目( 6J 7 0 7 0 SB 1 0 )
2 1 年 9月 01
基 于 C F和 转 换 错 误 驱 动 学 习的 浅 层 句 法分 析 R
张 芬 , 。 曲维 光 h , 红艳 h , 俊 生h 。 赵 。周
(. 1 南京师范大学 计算机科学与技术学院 , 江苏 南京 2 0 4 }. 1 0 6 2 江苏省信息安全保密技术研究中心, 苏 南京 2 1 9 ; 江 0 1 7 3 .南京师范大学 语言信息科技研究 中心 , 江苏 南京 2 1 9 ) 0 1 7
获得 候 选 转 换 规 则 集 合 ; 根 据 定 义 的 规 则 评 价 函 数 对 候 选 集 进 行 筛选 , 到 最 终 的 转 换 规 则 集 合 ; 后 应 用 再 得 最 转 换 规 则 集 对 C F标 注 的 结 果 进 行 校 正 。 实 验结 果表 明 , 单 独 使 用 C R 与 RF结 果 相 比 , 块 识 别 的 精 确 率 、 组 召 回率 以 及 F值 均 得 到 了 提 高 。 关 键 词 : 层 句 法 分 析 ;RF; 换 错 误 驱 动学 习 ; 换 规 则 集 浅 C 转 转 中 图分 类号 : P 9 . T 311 文献 标 识 码 : A 文章 编号 :0 160 (0 10 —1 70 10 —6 0 2 1 ) 304 —4
相关主题