汉语组块计算的若干研究
汉语组块计算的若干研究
李素建 北京大学计算语言学研究所
2003. 3. 11
企业资料
1
提纲
• 课题的提出、意义和现状 • 本文主要工作 • 总结
企业资料
2
课题的提出、意义和现状
• 提出:认知理论、AI(Soar)
• 内容:组块分析+组块相似度计算
• 意义
– 简化句子结构
– 信息检索
– 信息抽取
– 文本聚类/分类
企业资料
6
语言学中的研究方法
• 理性主义研究方法 – 基于规则的方法
• 经验主义研究方法 – 基于统计和实例的方法,语言建模
• 两种方式相结合
企业资料
7
两种方法的比较
研究 内容 理论 基础 处理 方法
规则方法
语言能力
统计方法
语言数据
基于乔姆斯基的
一般是基于
语言原则
shannon 的信息论
一些特殊的语句 实际使用的普通语
组块规则实例
• NC: NR • NC: JJ, NN • VCC: AD, VV • VCC: VV,AS • PC: P NN • QC: CD, M
1857 1339 1247 378 401 1708
(“中国”) ( “新 格局”) (“明显 增强”) (”确保 了") (“据 介绍”) (“数百 家”)
• 不重叠
• 覆盖
企业资料
18
NOC (而/CC) (是/VC) (借鉴/VV) (发达/JJ 国家/NN 的/DEG) (经验/NN 教训/NN)
VCC
VCC
DNC
NC
组块标注集合
• NC • VCC • PC • QC • LCC
• DVC • DNC • ADJC • ADVC • LST
• 有限状态机的成功应用
– 音律变换模型证明是有限状态模型
– 词内部语法是有限状态
• “组块分析”促进了有限状态机的应用
– 语言整体不是一个有限状态的语言,但是分
解后的一些子集,用有限状态描述不仅充分
而且比PSG容易构造
企业资料
37
有限状态机(2)
• 概率观点的兴起
– 很多概率方法可以用加权有限状态机描述。 这样的描述简洁、易理解、操作/优化/结合都 很有效。
• CurPOSTag_NT,POSTag-1_VC=NC
• CurPOSTag_P,POSTag+1_PN=PC
• ChunkTag-1_NC,CurPOSTag_VV=VCC
• ChunkTag-1_NC,CurPOSTag_NN=NC
• CurRhythm_2,CurPOSTag_NN,Rhythm-1_1=NC
~
H (y | x) p(x) p(y | x) log p(y | x)
x, y
满足了以下三个条件:
(1) p(y|x) 0 for all x, y
(2) y p(y|x) 1 for all x
~
~
(3) x,y p(x)p(y|x)f(x,y) x,y p(x,y)f(x,y) for i {1,2,...,n}
– 机器翻译
企业资料
3
语言学的研究内容
• 词法分析:
• 句法分析:一个语句的可能句法结构
• 语义分析:将语句的意义形式化表达出来
• 语用分析:上下文对语句理解的作用
企业资料
4
中文处理
生语料
分词
语法标注
语用,语义分析
句法分析
企业资料
5
组块分析--浅层分析,部分分析
• 不要求得到完整的句法树 • 标示出基本的组块 • 可以利用完全分析的各项技术
企业资料
24
引入拉格朗日函数:
~
( p, , ) p(x) p( y | x) log p( y | x)
x,y
~
~
i ( p(x, y) fi (x, y) p(x) p( y | x) fi (x, y))
i
x,y
( p( y | x) 1)
x
p*( y | x) Z (x) exp( i fi (x, y))
M个
1 1 3 NC
NN 边境
1 1 4 NC
NN 开放
1 1 5 NC
NN 城市
1 1 6 NC$
NN 经济
1 1 7 NC
NN 建设
1 1 8 NC
NN 成就
1 1 9 VCC 企业资V料V 显著
35
最大熵模型优点
• 特征选取灵活:使用最大熵可以准确为 变量间的细微依赖关系建模,这种关系 用传统的预测模型技术是不可能的。
c
ci {0,1,2,3,4}
0([)、1(])、2(][)、3(I)、4(O)
企业资料
11
组块分析--统计方法
[句法/n 分析/n ][ 是/v ][ 自然/n 语言/n 处理/v ] 中/f 的/u [重点/n] ./w
<Φ ,n> <n,n> <n,v> <v,n> <n,n> <n,v> <v,f> <f,u> <u,n> <n,w>
最大熵模型相关算法
• 参数估计算法: – G.I.S(Generalized iterative scaling) • 迭代时间O(NPA) N:训练集大小; P: 预 测数目;A:每个事件的平均特征数目
• 特征的选择:Field Induction Algorithm – 选择对模型具有最大增益值的特征(KL)
企业资料
41
有限自动机优点
• 描述简洁、易于构造
• 确定性强、速度快
• 操作方便
• 优化了空间
企业资料
42
错误驱动的基于转换的机器学习
未标注文本
初始状态 标注器
已标注文本
直接修正结果正确标注文本03223
3
140
1
企业资料
12
组块分析-- conll2000评测标准
Recall Number of correct proposed chunks Number of correct chunks
Precision Number of correct proposed chunks Number of proposed chunks
F
( 2 1) * Recall * Precision 2Recall Precision
F 1
2 * Recall * Precision Recall Precision
企业资料
13
组块分析--conll2000会议结果
[KM00] [Hal00] [TKS00] [ZST00] [Dej00] [Koe00] [Osb00] [PMP00] [Joh00] [VD00] Baseline(E)
• 概率分布:p(y|x) ?
• 引入特征: fi∈{0,1}
~
p( fi ) p( fi ) i {1,2,, n}
~
p( f ) p(x) p( y | x) f (x, y)
x,y
~
~
p( f ) p(x, y) f (x, y)
x, y
企业资料
23
特征限制条件下的模型分布
Fβ 1 93.48 93.32 92.50 92.12 92.09 91.97 91.94 90.14 87.23 85.76 77.07%
中文处理的组块分析研究
• baseNP的识别 • 汉语短语边界的界定 • 命名实体的识别
企业资料
15
提纲
• 课题的提出、现状和意义 • 本文主要工作 • 总结
Precision 93.45% 93.13% 94.04% 91.99% 91.87% 92.08% 91.65% 90.63% 86.24% 88.82% 72.58%
Recall 93.51% 93.51% 91.00% 92.25% 91.31% 91.86% 92.23% 89.65% 88.25% 82.91% 82.14%
或语言现象
句的统计表述
企业资料
8
组块分析--规则方法
• Finite State Cascade:有限状态叠
NP (D) A * N
T1 : VP Vtns
|
Aux Ving
NP Pron
T2 : PP P NP
T3 : S PP * NP PP * VP PP *
企业资料
16
本文主要工作
• 组块 • 组块分析技术 • 组块相似度的计算
最大熵模型 有限自动机技术 混合模型
企业资料
17
组块定义
• 组块:(汉语)
– 符合一定句法功能的非递归短语。每个组块都 有一个核心词,组块围绕核心词展开,以核心 词作为组块的开始或结束。
• 严格按照语法规则
• 所有组块是平等的,非递归
• PrevWord_被,CurPOSTag_VV=VCC
企业资料
28
ME模型的特征选取
• 粗选 – 出现频数
• 细选 – Kullback-Leibler(KL)距离
• 手工加入
企业资料
29
选用4个特征模板作 自动特征选取实验:
(1) CurPOSTag; (2) CurPOSTag,POSTag+1; (3) POSTag-1, CurPosTag; (4) POSTag-1,CurPOSTag, POSTag+1