当前位置:文档之家› 使用GATE进行中文命名实体识别的研究

使用GATE进行中文命名实体识别的研究


的信 息十 分困难 .用 户不 知道 如何 确切表 达对 真 正想
要 的网上 资源 的需求 , 以消化 已经下 载的信 息 。 难 如何 将大量 无 序的信 息及 时准 确地进 行 提取 、 滤 、 过 归类 组 织成便 于查 询检 索的形 式 . 已成为研 究开 发 的焦点 。 迫

非 流通使用 的数 字或 百分 比的混 用 。
领 域获 得广 泛 应用 。GA E的 主要 开 发 者认 为 , A E 于 gzt e 文 件 夹 内 T G T aet r e
真 实语料 中出现情况 复 杂 。 固有名 称 、 写及其 它唯 一标 识 , 缩 是正 确理解 文本 的基 中文机构 名 的特点 : 中文机 构名 的组成方 式非 常复 杂 : 础。
按 MU C的定义 , 命名 实体包 括 :
) (esn ;  ̄ P ro)
中文机构 名 中含有大 量其 它 的命 名实 体 : 中文机构 名 的用词非 常 广泛 : 中文机构 名 的长度极其 不 固定 :
GT A E项 目开始 于 19 9 5年 英 国的谢 菲 尔 德 大学 . 其 全 称 是 G n rl rhtc r o e t n ier g 中 e ea A ci t efrT x E gnei , eu n 文名 为文本 工 程通用框 架 。 经历 了十多年 的不 断发展 ,
基 金 项 目 : 通 大 学校 级 自然 科 学 基 金 基 于 G T 南 A E的 中文地 名 自动 识 别 研 究(9 0 3 oz 2)
21 0 0年第 8期

建 电

3 1
凭 借 其 优 秀 的 组 织 架 构 和 开 源 的 优 势 , A E 已经 被 类 似 的货 币单 位还 有英镑 、 纳尔 、 币 、 布 、 GT 第 港 卢 日元等 应 用 于广 泛 的研 究 和 项 目开发 , 科 研 、 育 、 业 等 等 , 有 的货 币单 位都被 放在 了 m n y u i文 件 中 , 在 教 商 所 o e nt _ 置
识别 进行 概 述 , 然后 简介 了 G T A E这样 一 种信 息抽 取 工具 , 以及使 用 G E进 行 中文命 名 实体 识 别 的规 AT
则( 以货 币识 别 为例 ) 最后 对全文进 行 了总 结。 ,
【 键词】 关 :信息抽取
1 信 息抽 取概述 、
G T 中文命名 实体识别 货 币实体识别 AE
不少 中文 机构 名还有 简称 。
3G T 、 A E简 介
J (oao)  ̄ Lct n; i
机构名 fra i t n ; O gnz i ) ao 日期(a ) dt ; e
时I(m ) ' t e; B i - ] 百 分数(ecnae; pret 1 g 货 币foeayvle。 m nt au) r
M C规定下 列类 型的 名词短语 不需 要抽 取 : U
随着 计算 机 的普及 以及互 联 网 的迅猛 发 展 ,大 量 的信 息 以 电子 文档 的形式 出现在人 们 面前 。信 息 的过
人 造物 品f : 如 时代周 刊杂 志 、 V等) MT ; 重复指代 的普通 名词 ( : 如 汽车 、 司等1 公 ;
21命名 实体识 别 的概念 . 命 名 实体 是 文本 中基 本 的信 息单 位 .是 文本 中的
人 名与其 上下 文组 合成 词 : 存 在歧义 。
中文地名 的特 点 : 中文地名 用字 分散 , 理起 来 困难大 : 处 中文地 名数量 大 , 乏 明确 、 范 的定 义 ; 缺 规
量增 长 带来一定 负 面影 响 : 面对 巨量 的信息 , 由于 目前 人 的 团体 名 称 . 以及 以人 名命 名 的法 律 (n 共 和 i: W。 b上存 在的信 息格式 具有 很大 的异构 性 .信息 之 间 国 、 贝 尔奖等1 诺 ; 形 容词形 式 的地 点名f : 国的 、 国的等) 如 中 英 : 的关 联描 述较少 ,用 户通 过直 接浏 览 的方式 第 8 0 0年 期
使用 G T A E进行 中文命名实体识别 的研 究
程 晨
(南通 大学 计 算机 科 学与技 术 学院 江 苏 南通 2 6 1 2 0 9)
【 摘
要】 中文命名 实体识别的研 究有着重大的现 实意义。 : 本文先对信息抽取技术和其 中的命名实体
命 名实 体识 别判 断 文本 中的一 个字 符 串是 否代 表
切需要 一些 自动 化的工 具 帮助 人们在 海量 信 息源 中迅 速找 到真 正需 要 的信息 .信息抽 取研 究正 是在 这种 背 命 名实 体 : 标注 命 名实 体 .即将 发 现 的命 名实 体标 注 为某 一 景下产 生 的 信息 抽 取 能够 帮助 人们 在海 量 信息 中快速定 位 到 种具体 类型 自己真 正需要 的信 息 .它是 一个 以未 知 的 自然 语言 文 22中文 命名实 体 的特点 . 档作为 输入 ,产生 固定 格式 、无 歧义 的输 出数 据 的过 中 国人 名 的特 点 : 程 信 息抽 取是 自然语 言处理 的一个 研究 热点 , 在数 字 人 名构成 的多 样性 : 图书馆 内容标 引 、决策 支持 系统 的知识 获 取和 问答 系 人 名 内部组合 成词 :
统 等领 域 已经 得到 了很好 的研究 应用 。
个命 名实 体 。 确定 它 的类 别 。 并 命名实 体识 别任务 包括 : 发现命 名实 体 .即判 断 一个 字 符 串是 否代 表一 个
信息 抽 取 目前 的 主要 研 究 方 向是 命 名 实 体 识 别 、 实 体关 系抽取 和事 件抽 取 。 2 命 名 实体 识别概 述 、
相关主题