当前位置:文档之家› 命名实体识别研究进展综述

命名实体识别研究进展综述


工规则对高校名进行了实验研究。I n t e l 中国研究中心
8 ] 的Z h a n g 等[ 在A C L 2 0 0 0上演示了他们开发的一个抽
取中文命名实体以及这些实体间相互关系的信息抽取 系统, 该系统利用基于记忆的学习( M e m o r yB a s e d L e a r n i n g ,M B L ) 算法获取规则, 用以抽取命 名实体 及 它们之间的关系。
1 引 言
命名实体识别( N a m e dE n t i t yR e c o g n i t i o n , N E R ) 的主要任务是识别出文本中的人名、 地名等专有名称和有意
1 ] 义的时间、 日期等数量短语并加以归类 [ 。命名实体识别技术是信息抽取、 信息检索、 机器翻译、 问答系统等多种

( I n s t i t u t eo f S c i e n t i f i c&T e c h n i c a l I n f o r m a t i o no f C h i n a , B e i j i n g 1 0 0 0 3 8 , C h i n a )

( N a t i o n a l A d m i n i s t r a t i o nf o r C o d eA l l o c a t i o nt oO r g a n i z a t i o n s ,B e i j i n g 1 0 0 0 2 9 , C h i n a )
【 A b s t r a c t 】T h e p a p e r i n t r o d u c e s t h e b a c k g r o u n da n dm o t i v a t i o no f N a m e dE n t i t y R e c o g n i t i o n , a n ds u m m a r i z e s t h e h i s t o r y d e v e l o p m e n t o f N a m e dE n t i t yR e c o g n i t i o na t h o m ea n da b r o a d ,a s w e l l a s t h er e l a t e dt e c h n o l o g ya n de v a l u a t i o nm e t h o d . F i n a l l y , i t d i s c u s s e s t h en e wd e v e l o p m e n t t r e n d s o nN a m e dE n t i t yR e c o g n i t i o n . 【 K e y w o r d s 】N a m e de n t i t yr e c o g n i t i o n I n f o r m a t i o ne x t r a c t i o n I n f o r m a t i o nr e t r i e v a l M a c h i n et r a n s l a t i o n E v a l u a t i o nm e t h o d s
2 3
【 摘要】介绍命名实体识别的研究背景和意义, 总结国内外命名实体识别研究历史, 详细介绍目前主流的技术方 法和评估方法, 讨论命名实体识别技术的发展趋势。 【 关键词】命名实体识别 信息抽取 信息检索 机器翻译 评估方法 【 分类号】T P 3 9 1
O v e r v i e wo nt h eA d v a n c eo f t h eR e s e a r c ho nN a me dE n t i t yR e c o g n i t i o n
- 2 0 0 2 、 C o N L L- 2 0 0 3 、 I R E X 、 L R E C等一系列国际会议 中, 命名实体识别都被作为其中的一项指定任务。 由于英文命名实体的识别中只需考虑词本身的特 征而不涉及分词问题, 因此实现难度相对较低。根据
① 以及 A ② 的评 测结果, M U C C E 测 试的准 确 率、 召回
6 ] 茂松等 [ 在国内比较生物命名实体信息提取时, 还包括蛋白质、 基因、 核糖核酸、 脱氧核糖核酸、 细胞等
1 7 ] 特殊生物实体 [ 。
主要采用统计的方法计算姓氏和人名用字概率。张小
7 ] 衡等 [ 对中文机构名称进行识别与分析, 主要采用人
3 研究内容及发展
3 . 1 研究主体 命名实体是命名实体识别的研究主体, 一般包括 3大类( 实体类、 时间类和数字类) 和 7小类( 人名、 地 名、 机构名、 时间、 日期、 货币和百分比) 命名实体。实 际研究中, 命名实体的确切含义需要根据具体应用来
1 5 ] 1 6 ] 确定, 比如, 可能需要把产品名称 [ 、 旅游景点名称 [
将《 知网》 中的义原作为特征加入到最大熵模型中, 以 此来训练产生性能更好的模型。 2 0 0 4年举行的 8 6 3命名实体识别评测, 成绩最好 的命名实体识别系统的准确率、 召回率和 F 1值分别为 8 1 . 1 0 %、 8 3 . 6 9 %、 8 2 . 3 8 %, 其中人名、 地名、 组织机构 名各 项 的 F 1值 最 高 分 别 为 8 5 . 5 1 %、 8 2 . 5 1 %、 6 0 . 8 1 % 。可见中文命名实体识别评测结果比英文结 果偏低, 尤其中文机构名称的识别难度更大一些。
《 现代图书情报技术》 版权所有, 欢迎下载引用! J ] , 现代图书情报技术, 2 0 1 0 ( 6 ) : 4 2- 4 7 . 请注明引用地址: 命名实体识别研究进展综述[
知识组织与知识管理
命名实体识别研究进展综述
, 3 孙 镇1 王惠临2 1
( 北京大学信息管理系 北京 1 0 0 8 7 1 ) ( 中国科学技术信息研究所 北京 1 0 0 0 3 8 ) ( 全国组织机构代码管理中心 北京 1 0 0 0 2 9 )
1 , 3 2 S u nZ h e n Wa n gH u i l i n 1
( D e p a r t m e n t o f I n f o r m a t i o nM a n a g e m e n t ,P e k i n gU n i v e r s i t y , B e i j i n g 1 0 0 8 7 1 , C h i n a )
F 1值目前大多可以达到 9 0 %左右。 率、 由于中文内在的特殊性决定了在文本处理时首先 必须进行词法分析, 中文命名实体识别的难度要比英 文的难度大。中文命名实体识别起步较晚, 2 0世纪 9 0 年代初期开始, 国内一些学者对中文命名实体( 如: 地 名、 人名、 组织机构名等) 识别进行了一些研究。如: 孙
自然语言处理技术必不可少的组成部分。从语言分析的全过程来看, 命名实体识别属于词法分析中未登录词识 别的范畴。命 名 实 体 是 未 登 录 词 中 数 量 最 多、 识 别 难 度 最 大、 对 分 词 效 果 影 响 最 大 的 问 题。根 据 S I G H A N
2 ] ( h t t p : / / w w w . s i g h a n . o r g / )B a k e o f f 数据评测结果, 未登录词造成的分词精度失落至少比歧义大 5倍以上 [ , 可见
由于数量、 时间、 日期、 货币等实体识别通常可以 采用模式匹配的方式获得较好的识别效果, 相比之下 人名、 地名、 机构名较复杂, 因此近年来的研究主要以 这几种实体为主。同时生物领域的实体识别也比较活 跃。这些实体中以机构名和生物实体识别难度最大, 普遍存在嵌套和缩写的识别问题。从研究的发展趋势 上看, 由原来的单独针对人名、 地名等进行识别发展到 开始采用统一的方法同时进行各类中文命名实体的识 别, 而且识别效果也得到了提高, 其中部分研究成果发 表在 A C L ( h t t p : / / w w w . a c l w e b . o r g / ) 年度会议以及 C O L I N G ( h t t p : / / n l p . s h e f . a c . u k / i c c l / ) 、 S I G H A N等 国 际会议上。 这种方法虽然考虑了人名、 地名和机构名的共同 特点, 能够有效地 解决 多种 命名 实体 间的 歧义 问题。 但是, 它不能充分分析不同命名实体间的差异性, 制约 了整体的识别性能。
2 命名实体识别研究历史
国外对于英文命名实体识别的研究开始比较早。 1 9 9 1年 R a u 在第 7届 I E E E人工智能应用会议上发表 了“ 抽取和识别公司名称” 的有关研究文章, 首次描述 了抽取和识别公司名称的系统, 该系统主要采用启发
3 ] 。1 9 9 6年, 命名实体 式算法和手工编写规则的方法 [ [ 4 ] 评测作为信息抽取的一个子任务被引入 M U C- 6 , [ 5 ] 在其后的 M U C- 7的 M E T- 2 以及 I E E R- 9 9 、 C o N L L
[ 9 ] 国外对于命名识别研究主要包括: B i k e l 等最早
提出了基于隐马尔可夫模型的英文命 名实 体识别 方 法, 其在 M U C- 6测试文本集的 测试 结果为: 英 文地 7 %、 9 4 % 名、 机构名和人名的识别精度分 别达到了 9 和9 5 %,召 回 率分 别达 到了 9 5 %、 9 4 %和 9 4 %; L i a o
收稿日期: 2 0 1 0- 0 3- 2 4 收修改稿日期: 2 0 1 0- 0 4- 1 1
4 2 现代图书情报技术
总第 1 9 3期 2 0 1 0年 第 6期
对未来发展趋势进行展望。
1 2 ] s a i 等[ 提出 中文名实体识别也获得了广泛关注。 T 1 3 ] 基于最大熵的混合的方法;冯元勇等 [ 提出基于单字 1 4 ] 提示特征的中文命名实体识别快速算法; 郑逢强等 [
相关主题