当前位置：文档之家› 基于隐马尔可夫模型的中文文本事件信息抽取 (1)

基于隐马尔可夫模型的中文文本事件信息抽取 (1)

示），该结构含有最少的状态数。然后对现有模型施
以一系列操作，这些操作包括：增加一个前缀状态、
重复一个前缀状态、增加一个后缀状态、重复一个
后缀状态、增加一个目标状态、重复一个目标状态、
增加一个背景状态等。经过这些操作后，目前的模
在实验数据集上进行 “职务变动 ”事件抽取实验，抽取结果如表１所示，其中候选数据语句范围采用触发词前后最近的两个句号之间的语句。将表１中的抽取结果和别的系统或方法进行比较，发现文中的方法的抽取性能要优于其他方法。
型结构会产生一些新的结构，将这些新的结构作为
候选结构，并在一个标注好的测试集上进行测试，
将得分最高的结构作为下一次循环的起始模型结
构，直到最后找到一个最优的模型结构。
２．２．２参数估计
对每类事件要素的ＨＭＭ模型，当模型结构确
定后，就可以从标注好的训练语料中用最大似然估
计学习模型的参数。计算模型的初始状态概率、状
１引言当今信息社会，大量有用信息存在于文本中。
为了应对信息爆炸带来的严重挑战，迫切需要一些自动化的工具帮助人们从海量文本数据中快速、准确地找到真正需要的信息。信息抽取研究正是在这种背景下产生的，事件信息抽取（简称事件抽取）是信息抽取研究中最具挑战性的任务之一，旨在利用计算机从文本中自动地抽取特定类型的事件及其事件要素。例如，从新闻报道中抽取职务变动事件的详细信息：人员、组织机构、职位、时间等。
利用ＨＭＭｓ进行文本事件信息抽取时，首先对不同的抽取域应该建立相应的ＨＭＭ，其中最重要的两个问题［５］是模型结构学习和进行参数估计。２．２．１模型结构学习
要建立用于事件信息抽取的ＨＭＭ模型，需要
对每类事件要素从训练数据集学习得到一个优化
的模型结构。虽然每个模型包含四类状态，并且这
Ａｂｓｔｒａｃｔ：ＡｍｅｔｈｏｄｂａｓｅｄｏｎｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌｓ（ＨＭＭｓ）ｉｓｐｒｏｐｏｓｅｄｆｏｒｅｘｔｒａｃｔｉｎｇｔｈｅｅｖｅｎｔｉｎｆｏｒｍａｔｉｏｎｆｒｏｍＣｈｉｎｅｓｅｔｅｘｔｓ．Ｆｉｒｓｔｌｙ，ｔｈｅｍｅｔｈｏｄｃａｎｆｉｎｄａｃａｎｄｉｄａｔｅｓｅｎｔｅｎｃｅ，ｗｈｉｃｈｃｏｎｔａｉｎｓａｄｅｓｃｒｉｐｔｉｏｎｆｏｒａｋｉｎｄｏｆｓｐｅｃｉｆｉｃｅｖｅｎｔｖｉａｔｒｉｇｇｅｒｄｅｔｅｃｔｉｎｇ．ＴｈｅｎｔｈｅｍｅｔｈｏｄｃｏｎｓｔｒｕｃｔｓａｓｅｐａｒａｔｅＨＭＭｆｏｒａｋｉｎｄｏｆｅｖｅｎｔａｒｇｕｍｅｎｔ，ａｎｄｍａｋｅｓｕｓｅｏｆｔｈｅｓｅＨＭＭｓｔｏｅｘｔｒａｃｔｅｖｅｎｔａｒｇｕｍｅｎｔｓｆｒｏｍｔｈｅｓｅｃａｎｄｉｄａｔｅｓｅｎｔｅｎｃｅｓ．ＴｈｅｋｅｙｏｆｃｏｎｓｔｒｕｃｔｉｎｇｍｏｄｅｌｉｓｌｅａｒｎｉｎｇＨＭＭｓｔｒｕｃｔｕｒｅａｎｄｐａｒａｍｅｔｅｒｅｓｔｉｍａｔｉｏｎ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｍｅｔｈｏｄｈａｓｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｔｈａｎｏｔｈｅｒａｐ－ｐｒｏａｃｈｅｓｆｏｒｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｆｒｏｍＣｈｉｎｅｓｅｔｅｘｔｓ．Ｋｅｙｗｏｒｄｓ：ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ；ｅｖｅｎｔｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ；ｔｒｉｇｇｅｒ；ｅｖｅｎｔａｒｇｕｍｅｎｔ
学院院长一职。 ”中事件要素人物：赵启正前面的
“原国务院新闻办公室主任 ” 在这里由前缀状态输
出，显然这不是一个前缀状态可以完成的。在文中
进行模型结构优化时采用了和文献［５］类似的方法。
首先从最简单的模型结构开始（如图１中上图所
收稿日期：２００７－０６－０２基金项目：教育部博士点基金项目（２００５０００７０２３）
触发词是能够很好地表述出某类事件中心意义的词。例如，职务变动事件中的 “任命 ”、“辞职 ”等词语。（３）基于概率统计模型的文本信息抽取。文献［４］用一个隐马尔可夫模型（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，ＨＭＭ）对计算机科研论文头部信息的所有域进行抽取；文献［５］使用随机优化技术动态选择最合适的ＨＭＭ模型从研讨会公告中抽取相关信息。虽然将统计模型用于本中信息抽取的研究很多，但和文中所述的文本事件信息抽取是有区别的。因为这些研究中待抽取的数据域都可以看成一个非常紧凑的序列，而文本中事件的表述往往并不具备这种特征，需要抽取的数据域是分散的、稀疏的，有的待抽取域甚至距离事件表述中心（可以看作是触发词所在的位置）有一定的距离。
中图分类号：ＴＰ３９１
文献标识码：Ａ
文章编号：１０００－７１８０（２００７）１０－００９２－０３
ＥｖｅｎｔＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎｆｒｏｍＣｈｉｎｅｓｅＴｅｘｔＢａｓｅｄｏｎＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ
ＹＵＪｉａｎｇ－ｄｅ１，２，ＸＩＡＯＸｉｎ－ｆｅｎｇ１，ＦＡＮＸｉａｏ－ｚｈｏｎｇ２
（１ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＡｎｙａｎｇＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ａｎｙａｎｇ４５５０００，Ｃｈｉｎａ；２ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＢｅｉｊｉｎｇＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ１０００８１，Ｃｈｉｎａ）
第二阶段的机理可以描述为：为每类待抽取的事件要素构建一个ＨＭＭ模型，例如：职务变动事件抽取中，对时间、人物、组织机构、职位分别构建四个独立的ＨＭＭ模型。候选事件语句中的词语作为这些ＨＭＭ模型中状态的输出符号，如果模型给定，那么事件抽取过程就是搜索最可能创建词语序列的状态序列。用于事件抽取的ＨＭＭ模型结构应该能反映待抽取域的内容和它的上下文特征。为了实现正确的事件抽取，一般引入四种类型的状态［５］：（１）目标状态：可分为多个状态，用于对目标短语进行建模。（２）前缀状态：前缀包含一个或多个状态，这些状态被连接成字符串，一个前缀状态仅仅转移到位于该字符串中的下一个状态，或者如果它是该字符串的最后一个状态，则它转移到目标状态。（３）后缀状态：后缀状态在结构上类似于前缀。（４）背景状态：背景状态主要是对没有被其它类型状态建模的任何文本建模。图１示意了用于事件抽取的两个ＨＭＭ模型结构。２．２模型结构学习和参数估计
９２
微电子学与计算机
２００７年第２４卷第１０期
基于隐马尔可夫模型的中文文本事件信息抽取
于江德１，２，肖新峰１，樊孝忠２
（１安阳师范学院计算机与信息工程学院，河南安阳４５５０００；２北京理工大学计算机科学技术学院，北京１０００８１）
摘要：提出了一种基于隐马尔可夫模型的中文文本事件抽取方法，该方法首先通过触发词探测从文本中发现
ｋ＝１
式中，Ｃｉ，ｊ是训练序列中，从状态ｓｉ转移到状态ｓｊ的次数。
ｂｉｋ＝
Ｃｉ，ｋ
Ｎ
，
１≤ｉ≤Ｎ，１≤ｊ≤Ｍ
（３）
!Ｃｉ，ｊ
ｋ＝１
式中，Ｃｉ，ｋ是训练集中，从状态ｓｉ输出词语ｏｋ的次
件语句范围的办法进行了比较。依次分别记为Ｄ＿Ｔｒｉｇｇｅｒ和Ｆｕｌｌ＿Ｓｔｏｐ。两种办法在四类事件要素上的抽取性能比较如图２所示。可以看出，方法（２）确定的语句范围下抽取性能要稍微好点。
态转移概率和输出概率如下：
πｉ＝
Ｃ（Ｘ１＝ｓｊ）
Ｎ
，１≤ｉ≤Ｎ
（１）
!Ｃ（Ｘ１＝ｓｉ）
ｊ＝１
式中，Ｃ（Ｘ１＝ｓｉ）是训练语料中，以ｓｉ为初子学与计算机
２００７年第２４卷第１０期
ａｉｊ＝
Ｃｉ，ｊ
Ｎ
，１≤ｉ，ｊ≤Ｎ
（２）
!Ｃｉ，ｋ
３实验及结果分析３．１触发词词表构建
实验中用于进行 “职务变动 ”类事件抽取的触发词表采用手工的方式构建，在构建过程中参照第３．２节所提及的真实语料，并借助于《现代汉语词典》和《同义词词林》，构建出的触发词表包含了１３６个职务变动类事件的触发词。３．２训练和测试数据集
文中提出的事件抽取方法分两个阶段：第一个阶段是通过触发词探测发现候选事件所在的语句。第二阶段是利用ＨＭＭｓ从候选事件语句中抽取事件要素。
在第一阶段，依据触发词表当在文本中探测到触发词时，就认定该触发词所在的语句表述了一个特定事件，该语句就是一个候选事件语句。该语句的上下文范围有两种确定办法：（１）通常情况下，上下文的选取是基于核心词左右一定范围进行的，文献［６］对自然语言处理中词语的有效范围进行了定量研究，认为汉语核心词最近距离［－８，＋９］位置之间的上下文范围能包含８５％以上的信息量，文中将触发词作为核心词；（２）触发词前后最近的两个句号之间的语句。最后对候选事件语句进行预处理，包括分词、词性标注、过滤停用词等。

e商务文档

基于隐马尔可夫模型的中文文本事件信息抽取 (1)

相关文档推荐：