当前位置:文档之家› 基于隐马尔可夫模型的中文文本事件信息抽取 (1)

基于隐马尔可夫模型的中文文本事件信息抽取 (1)


示) , 该结构含有最少的状态数。然后对现有模型施
以一系列操作, 这些操作包括: 增加一个前缀状态、
重复一个前缀状 态 、增 加 一 个 后 缀 状 态 、重 复 一 个
后 缀 状 态 、增 加 一 个 目 标 状 态 、重 复 一 个 目 标 状 态 、
增加一个背景状态等。经过这些操作后, 目前的模
在 实 验 数 据 集 上 进 行 “职 务 变 动 ”事 件 抽 取 实 验, 抽取结果如表 1 所示, 其中候选数据语句范围 采用触发词前后最近的两个句号之间的语句。将表 1 中的抽取结果和别的系统或方法进行比较, 发现 文中的方法的抽取性能要优于其他方法。
型结构会产生一些新的结构, 将这些新的结构作为
候选结构, 并在一个标注好的测试集上进行测试,
将得分最高的结构作为下一次循环的起始模型结
构, 直到最后找到一个最优的模型结构。
2.2.2 参数估计
对每类事件要素的 HMM 模型, 当模型结构确
定后, 就可以从标注好的训练语料中用最大似然估
计 学 习 模 型 的 参 数 。 计 算 模 型 的 初 始 状 态 概 率 、状
1 引言 当今信息社会, 大量有用信息存在于文本中。
为了应对信息爆炸带来的严重挑战, 迫切需要一些 自 动 化 的 工 具 帮 助 人 们 从 海 量 文 本 数 据 中 快 速 、准 确地找到真正需要的信息。信息抽取研究正是在这 种背景下产生的, 事件信息抽取( 简称事件抽取) 是 信息抽取研究中最具挑战性的任务之一, 旨在利用 计算机从文本中自动地抽取特定类型的事件及其 事件要素。例如, 从新闻报道中抽取职务变动事件 的详细信息: 人员、组织机构、职位、时间等。
利用 HMMs 进行文本事件信息抽取时, 首先对 不同的抽取域应该建立相应的 HMM, 其中最重要 的两个问题[5]是模型结构学习和进行参数估计。 2.2.1 模型结构学习
要建立用于事件信息抽取的 HMM 模型, 需要
对每类事件要素从训练数据集学习得到一个优化
的模型结构。虽然每个模型包含四类状态, 并且这
Abstr act: A method based on hidden Markov models ( HMMs) is proposed for extracting the event information from Chinese texts. Firstly, the method can find a candidate sentence, which contains a description for a kind of specific event via trigger detecting. Then the method constructs a separate HMM for a kind of event argument, and makes use of these HMMs to extract event arguments from these candidate sentences. The key of constructing model is learning HMM structure and parameter estimation. Experimental results show that the method has better performance than other ap- proaches for event extraction from Chinese texts. Key wor ds: hidden Markov model; event information extraction; trigger; event argument
学院院长一职。 ”中 事 件 要 素 人 物 : 赵 启 正 前 面 的
“原 国 务 院 新 闻 办 公 室 主 任 ” 在 这 里 由 前 缀 状 态 输
出, 显然这不是一个前缀状态可以完成的。在文中
进 行 模 型 结 构 优 化 时 采 用 了 和 文 献 [5]类 似 的 方 法 。
首先从最简单的模型结构开始 ( 如图 1 中上图所
收稿日期: 2007- 06- 02 基金项目: 教育部博士点基金项目( 20050007023)
触发词是能够很好地表述出某类事件中心意义的 词。例如 , 职务变动事件中的 “任 命 ”、“辞 职 ”等 词 语。( 3) 基于概率统计模型的文本信息抽取。文献[4] 用 一 个 隐 马 尔 可 夫 模 型 ( Hidden Markov Model, HMM) 对计算机科研论文头部信息的所有域进行抽 取 ; 文 献[5]使 用 随 机 优 化 技 术 动 态 选 择 最 合 适 的 HMM 模型从研讨会公告中抽取相关信息。虽然将 统计模型用于本中信息抽取的研究很多, 但和文中 所述的文本事件信息抽取是有区别的。因为这些研 究中待抽取的数据域都可以看成一个非常紧凑的 序列, 而文本中事件的表述往往并不具备这种特 征, 需要抽取的数据域是分散的、稀疏的, 有的待抽 取域甚至距离事件表述中心( 可以看作是触发词所 在的位置) 有一定的距离。
中图分类号: TP391
文献标识码: A
文章编号: 1000- 7180( 2007) 10- 0092- 03
Event Infor mation Extr action fr om Chinese Text Based on Hidden Mar kov Models
YU Jiang-de1, 2, XIAO Xin-feng1, FAN Xiao-zhong2
( 1 School of Computer and Information Engineering, Anyang Normal University, Anyang 455000, China; 2 School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China)
第二阶段的机理可以描述为: 为每类待抽取的 事件要素构建一个 HMM 模型, 例如: 职务变动事件 抽取中, 对时间、人物、组 织 机 构 、职 位 分 别 构 建 四 个独立的 HMM 模型。候选事件语句中的词语作为 这些 HMM 模型中状态的输出符号, 如果模型给定, 那么事件抽取过程就是搜索最可能创建词语序列 的状态序列。用于事件抽取的 HMM 模型结构应该 能反映待抽取域的内容和它的上下文特征。为了实 现 正 确 的 事 件 抽 取 , 一 般 引 入 四 种 类 型 的 状 态[5]: ( 1) 目标状态: 可分为多个状态, 用于对目标短语进 行建模。( 2) 前缀状态: 前缀包含一个或多个状态, 这些状态被连接成字符串, 一个前缀状态仅仅转移 到位于该字符串中的下一个状态, 或者如果它是该 字符串的最后一个状态, 则它转移到目标状态。( 3) 后缀状态: 后缀状态在结构上类似于前缀。( 4) 背景 状态: 背景状态主要是对没有被其它类型状态建模 的任何文本建模。图 1 示意了用于事件抽取的两个 HMM 模型结构。 2.2 模型结构学习和参数估计
92
微电子学与计算机
2007 年第 24 卷第 10 期
基于隐马尔可夫模型的中文文本事件信息抽取
于江德 1, 2, 肖新峰 1, 樊孝忠 2
( 1 安阳师范学院 计算机与信息工程学院, 河南 安阳 455000; 2 北京理工大学 计算机科学技术学院, 北京 100081)
摘 要: 提出了一种基于隐马尔可夫模型的中文文本事件抽取方法, 该方法首先通过触发词探测从文本中发现
k=1
式中, Ci, j 是训练序列中, 从状态 si 转移到状态 sj 的 次数。
bik=
Ci, k


1≤i≤N, 1≤j≤M
( 3)
!Ci, j
k=1
式中, Ci, k 是训练集中, 从状态 si 输出词语 ok 的次
件语句范围的办法进行了比较。依次分别记为 D_Trigger 和 Full_Stop。两种办法在四类事件要素上 的抽取性能比较如图 2 所示。可以看出, 方法( 2) 确 定的语句范围下抽取性能要稍微好点。
态转移概率和输出概率如下:
πi =
C( X1 =sj )

, 1≤i≤N
( 1)
!C( X1 =si )
j=1
式中, C( X1=si) 是训练语料中, 以 si 为初子学与计算机
2007 年第 24 卷第 10 期
aij=
Ci, j

, 1≤i, j≤N
( 2)
!Ci, k
3 实验及结果分析 3.1 触发词词表构建
实 验 中 用 于 进 行 “职 务 变 动 ”类 事 件 抽 取 的 触 发词表采用手工的方式构建, 在构建过程中参照第 3.2 节所提及的真实语料, 并借助于 《现代汉语词 典》和《同义词词林》, 构建出的触发词表包含了 136 个职务变动类事件的触发词。 3.2 训练和测试数据集
文中提出的事件抽取方法分两个阶段: 第一个 阶段是通过触发词探测发现候选事件所在的语句。 第二阶段是利用 HMMs 从 候 选 事 件 语 句 中 抽 取 事 件要素。
在第一阶段, 依据触发词表当在文本中探测到 触发词时, 就认定该触发词所在的语句表述了一个 特定事件, 该语句就是一个候选事件语句。该语句 的上下文范围有两种确定办法: ( 1) 通常情况下, 上 下文的选取是基于核心词左右一定范围进行的, 文 献[6]对自然语言处 理 中 词 语 的 有 效 范 围 进 行 了 定 量研究, 认为汉语核心词最近距离[- 8, +9]位置之间 的上下文范围能包含 85%以上的信息量, 文中将触 发词作为核心词; ( 2) 触发词前后最近的两个句号 之间的语句。最后对候选事件语句进行预处理, 包 括分词、词性标注、过滤停用词等。
相关主题