当前位置:
文档之家› 混合的汉语基本名词短语识别方法
混合的汉语基本名词短语识别方法
2 任务描述
基本名词短语识别可转化为标注问题。这里引入 3 个标 注符号:B, I, O,其中,B 表示基本名词短语的开始;I 表示 基本名词短语的内部;O 表示其他。这样,基本名词短语识 别问题就转化为标注问题。 2.1 特征的表示
特征向量的属性主要考虑 3 类信息:词汇本身(W),词 性(P)和 BIO 标注(T)。假设标注过程是从左到右进行的,因 此,不考虑当前位置之后的 BIO 标注。特征向量可能采用的 属性如图 1 所示。其中,W0 表示当前词汇;W-1 表示当前 位置左面第一个词;P-1 表示 W-1 的词性;T-1 表示 W-1 的
对于表 2 中的词性模板,统计前后各一个词汇的词性与 短语是否是 BaseNP 的关系。词性模板 NN-NN 的环境与是否 为 BaseNP 间的关系如表 3 所示,其中,BaseNP 列表示符合 该词性序列,且模板 NN-NN 对应的词为基本名词短语的个 数;~BaseNP 列表示符合该词性序列,但模板 NN-NN 对应 的词不是基本名词短语的个数。
(1)输入:上下文 x; (2)过程:计算 p( yi | x) = exp(∑ λk fk (x, yi )) ;
k
取 t = arg max p( yi | x) ; (3)输出:标注 yi。 2.3 CRF 模型 文献[4]提出 CRF 的概念,其模型描述如下:给定的输出
基金项目:国家自然科学基金资助项目(0673041);国家“863”计划 基金资助项目(006AA01Z147) 作者简介:胡乃全(1981-),男,硕士研究生,主研方向:自然语言 处理;朱巧明,教授;周国栋,教授、博士生导师 收稿日期:2009-03-13 E-mail:naiquan_hu@
胡乃全 1,朱巧明 1,2,周国栋 1,2
(1. 苏州大学计算机科学与技术学院,苏州 215006;2. 江苏省计算机信息处理技术重点实验室,苏州 215006)
摘 要:提出一种混合的汉语基本名词短语(BaseNP)识别模型,包括采用语法规则、统计方法和组合分类器方法。利用 BaseNP 词的信息、 词性信息及上下文句法信息,构建组合分类器,提高判断的准确性。在中文树库(CTB5.0)上进行实验,F 值达到了 90.09%,证明该方法能 有效地识别 BaseNP。 关键词:基本名词短语;规则模板;组合分类器
BIO 标注。
… -2 -1 0 1 2 … 标注 … T T 0 1 2 … 词性 … P P P P P … 词汇 … W W W W W …
图 1 特征向量的属性
2.2 最大熵(ME)模型 文献[3]将最大熵方法应用到英语组块识别分析。对位置
限于考虑当前词左右第 1、第 2 个词;对信息限于考虑 BIO 标注(T)、词性标注(P)和单词本身(W)3 种,但不考虑当前位 置及之后的 BIO 标注。保留候选特征频数高的,其他的特征 被当作噪声舍弃,运用改进的迭代算法(IIS)计算特征参数 λi 和 P(y|x),其中,λi 表示每个特征的重要性;x 表示上下文, y 表示当前位置的 BIO 标记。在对新的样本进行标注时,把 当前词满足条件的特征的参数按特征右部标注分类迭加取得 最大的标注结果。可形式化表示为
BaseNP→BaseNP+BaseNP BaseNP→BaseNP+名词|名动词 BaseNP→限定性定语+BaseNP BaseNP→限定性定语+名词|名动词 定语→形容词|区别词|动词|名词|处所词|西文字串|数量词
本文参考英语的定义,将基本名词短语定义为具有单一 的语义核心、非嵌套的名词短语。它包括单个名词、没有任 何修饰成分的名词短语、难以确定修饰关系的一串名词、并 列名词性成分、专有名词、时间、地点等。
VV
1
1
44 920 44 922
处理方式 预标注为 B 预标注为 O 标注为 O
对于不能满足 97%以上的标注结果为同一标识的词性类 别(共有 6 类:CC, ETC, NN, NR, NT, PU),先标注为出现次
—200—
数最多的标识,再利用模板修正结果。 3.1.3 词性模板
定义 设一个汉语的句子为 S=w1w2…wm,对应的词性序 列为 A=a1a2…am,假设 Pi,j=wiwi+1…wj(1≤i<j≤m)为 S 中的 一个基本名词短语,则 Pi,j 对应的词性序列 B=bibi+1…bj 为 BaseNP 的词性模板。通过统计,得到了 450 种词性模板,综 合分析模板的出现次数、正确率及合理性,采用了其中 19 个词性模板,如表 2 所示。使用时,采用最长匹配的原则。
1 概述
名词短语的正确识别与分析对机器翻译、文本分类以及 句法分析具有重要作用。名词短语是以名词为主体的短语, 它的性质和作用与名词相同,如风俗习惯、自然语言处理等。 文献[1]将英语基本名词短语(Base Noun Phrase, BaseNP)定义 为“简单的非嵌套的名词短语”,即一个 BaseNP 内部不能再 包含有更小的名词短语。文献[2]从限定性定语出发给出汉语 BaseNP 的形式化描述:
8
PU-NN-PU
18
NR-NN-NN-NN
9
NN-PU-NN
19
NN-PU-NN-PU-NN
10
NN-NN-NN-NN
3.1.4 扩展词性模板 本文在研究词性模板的基础上,考察词性模板的所处的
上下文环境、标点符合类型,得到了识别更为准确的扩展词 性模板。
设当前词汇为 Wi,词性为 Pi,其前一个词的编号为 i-1, 后一个词的编号为 i+1,单一词汇的扩展模板举例如下:
Hybrid Method to Chinese Base Noun Phrase Recognition
HU Nai-quan1, ZHU Qiao-ming1,2, ZHOU Guo-dong1,2
(1. School of Computer Science and Technology, Soochow University, Suzhou 215006; 2. Jiangsu Provincial Key Lab for Computer Information Processing Technology, Suzhou 215006)
—199—
标识序列 Y 和观察序列 X,为了描述(X, Y)序列,对上述 CRF,
定义特征函数 f j ( yi−1, yi , x, i) 和权值向量 λ,yi-1, yi 为标识序列,
x 为输入序列,i 为输入位置,则
p( y
|
x,
λ)
=
1 Z (x)
exp(∑ λ j Fj ( y, j
x))
第 35 卷 第 20 期 Vol.35 No.20
计算机工程 Computer Engineering
2009 年 10 月 October 2009
·人工智能及识别技术·
文章编号:1000—3428(2009)20—0199—03 文献标识码:A
中图分类号:TP18
混合的汉语基本名词短语识别方法
(1)扩展模板 1:Wi=顿号,Pi-1 是 VA, VV, PU, M,或 Pi+1 是 CD, VV, JJ, P, DT, VE, VA,或 Pi-1=NN, Pi+1=NR 或 Pi-1=NR, Pi+1=NN 时,顿号标注为“O”,否则顿号标注为“I”。
(2)扩展模板 2:如果 Pi=NN 或 Pi=NR,Wi-1=顿号, Pi-2=NN,则当前词汇标注为“I”。
【Abstract】This paper proposes a hybrid method to recognize Chinese Base Noun Phrase(BaseNP), including the use of grammer rules, statistical approach and classification combination. It utilizes words information, part of speech information and context syntax information of BaseNP, generates a combination classification and improves the precision. Experimental results on CTB5.0 show that the F-score is 90.09%, it proves that the method is an effective approach to Chinese BaseNP recognition. 【Key words】Base Noun Phrase(BaseNP); rule templates; combined classifier
表 3 NN-NN 模板上下文环境分析结果
词性模板
M-NN-NN-PU PU-NN-NN-VV M-NN-NN-VV DEC-NN-NN-PU M-NN-NN-VV M-NN-NN-NN JJ-NN-NN-NN CC-NN-NN-NN
BaseNP
88 203 62 243 40 2 0 1
~BaseNP
表 2 词性模板
编号
词性模板
编号
词性模板
1
NN-NN
11
PU-NN-NN-PU
2
NN-NN-NN
12
NR-CC-NR
3
NR-NN13NN-NFra bibliotek-CC-NN-NN
4
NN-CC-NN
14
NT-NN
5
NR-NR
15
NR-PU-NR
6
NR-NN-NN
16
NR-NR-NN
7
NT-NT