当前位置:
文档之家› 国内自然语言处理技术研究与应用的状态
国内自然语言处理技术研究与应用的状态
进行的[2]。基础性研究主要集中在语言学、数学、 计算机科学等领域,比如消除歧义、语法形式化、 计算语言学理论基础以及为语言资源库等。应用性 研究主要集中在一些需要应用自然语言处理技术的 领域中,比如,信息检索、文本分类、自动文摘、 机器翻译等。据此,本文将自然语言处理技术所涉 及的研究内容分为以下五个方面:①基础理论研究 与语言资源库建设;②自然语言理解;③机器翻译 及评测;④智能检索:信息检索、信息抽取、文本 分类、话题跟踪、自动文摘、文本过滤等;⑤术语 数据库及键盘输入、音字转换等。根据调查统计的 结果见表1。
关键词:自然语言处理技术,自然语言理解,机器翻译,技术应用,数字图书馆 DOI:10.3772/j.issn.1673-2286.2008.07.005
Special Focus
DLF
特 别 关 注
自然语言处理(Natural Language Processing,简 称NLP)是指用自然语言对信息进行处理的技术[1]。 从第一台电子计算机诞生起,人们就一直致力于研 究如何利用计算机来分担自然语言的自动识别、语 言翻译、语言理解和语言生成等工作。特别是今天 的互联网,Web2.0提倡用户参与度,在用户界面层 和网站内容层增加用户的互动,未来Web3.0则提倡 利用自然语言理解与处理,让使用者更好地使用互 联网资源。在这一背景下,自然语言处理技术有了 新的发展。2005年以来,信息的组织,已经从通用 型转向领域,中国科学技术信息研究所下属的万方 数据技术研究院为了在知识组织和挖掘上进行技术 储备,确定采用的技术路线,对国内已经进行的自 然语言处理相关研究工作进行调查和总结。本文调 研了150项研究项目,总结了国内14个研究机构、4 个在华国际公司、12个相关企业在自然语言处理领 域的研究状况和技术应用情况。
2 3% 自然语言理解 2 5%
智能检索 0 0%
智能检索 22 33%
智能检索 11
30.5%
基础理论研究及语言资源库建设 11 38%
基础理论研究及语言资源库建设 24 36%
基础理论研究及语言资源库建设 12
33.3%
其它 5
17.3% 其它 10 15% 其它
5 14%
DLF
特 别 关 注
Special Focus
表1 自然语言处理技术研究项目分类统计表
项目类别 机器翻译 自然语言理解 智能检索 基础理论研究及语言资源库建设 其它 总计
项目数量 30 7 28 47 20 132
百分比 23% 5% 21% 36% 15% 100%
目前,词法、句法、语义分析等基础理论的研 究和语言资源库的建设依然是研究的重点,这一类 别的项目几乎占据项目总数的“半壁江山”;其次 是机器翻译类的研究;智能检索类的项目数量略低 于机器翻译,此类研究是近年来研究的热点,而自 然语言理解以及术语数据库、键盘输入、音字转换 等其它类别的研究相对较少。
2000年以前 2000——2005 2006——2008
表2 研究项目按执行时间分类统计表
项目总量 占该时间段项目总量百分比
项目总量 占该时间段项目总量百分比
项目总量 占该时间段项目总量百分比
机器翻译 10
34.5% 机器翻译
9 13.4% 机器翻译
6 17%
自然语言理解 3
10.3% 自然语言理解
2 研究成果的应用
技术研究的最终目的在于应用(见表4)。 下面仅从机器翻译、搜索引擎两方面介绍国内
2008年第7期(总第50期)
企业对于自然语言处理技术的使用情况。
表4 项目实用成果统计表
论文 实用产品 实验室样品 资源库
机器翻译
5
14
11
1
自然语言理解
2
2
0
0
智能检索
8
14
18
0
基础理论与语言资源库 18
都是研究的重点,在各个时间段中关注程度都在第 一位。值得注意的是,2000年以后,机器翻译的热 点地位逐渐被信息检索、信息抽取、话题跟踪、文 本分类、文本过滤、问答系统等智能检索技术所代 替。近年来,机器翻译处于一个平稳的调整期,而 新兴的智能检索技术研究则,处于强势的上升期。
另外,从研究周期来看,除语言资源库建设以 外,自然语言处理技术的开发周期普遍较短,为1-3 年以内。语言资源库的建设包括自然语言文本的采 集、存储、检索、统计、标注、句法分析、语义分 析等,开发周期通常在10年左右,这是由于其处理 对象是非受限领域的语言,且是对真实文本进行大 规模的语言信息处理,因而搭建周期一般较长,例 如,北京大学计算语言所完成的《现代汉语语法信 息词典》与《人民日报》标注语料库,都经历了近 十年的研制时间。
2
7
10
其它
3
11
2
1
总计
36
43
38
12
2.1 机器翻译
90年代以来,国内机器翻译研究有了长足的进 步。目前正在从事机器翻译研究的高校包括北京大 学、清华大学、哈尔滨工业大学等。研究所包括中 国科学院计算技术研究所、自动化研究所等。公司 有译星公司、华建公司等。这些单位的研究成果在 产品开发中得到了充分运用。例如,译星、高立、 通译等全自动翻译系统,采用全自动机器翻译技 术,有简单的全自动翻译功能,并且提供带有用户 界面编辑工具以及用户词典管理的工具;金山快 译、东方快车等全自动汉化工具,除了采用全自动 机器翻译技术以外,还包括各种辅助功能,如软件 界面即时汉化和永久汉化、操作系统和帮助文件的 自动汉化、网页的自动翻译等;盈华双语浏览器、 看世界网等全自动网络浏览工具,可以在网络上提 供实时的免费全自动翻译服务;雅信CAT辅助翻译 软件等计算机辅助翻译系统,采用的主要技术不是 全自动的机器翻译,而是翻译记忆(TM)技术。
27 http: //
2008年第7期(总第50期)
出现这个结果大体有以下两个方面的原因: (1)研究传统。基础理论、语言资源库建设以 及机器翻译系统的研究起步时间早,这些领域历来 都是研究的重点,研究成果积淀丰富。 (2)研究成果的应用。词法、句法、语义分析 等研究是其它几个应用方面的理论基础,而各类语 言资源库是进行研究测试提取样本的重要资源,长 期来得到相当的重视;机器翻译是自然语言处理领 域中一个相当重要的部分,直到现在,国内对高质 量机器翻译系统仍然有相当大的需求;智能检索技 术所涉及的内容颇为广泛,随着广大网民对搜索的
HNC是Hierarchical Network of Concepts(概念 层次网络)的缩写,HNC理论,是一个关于自然 语言理解(natural language understanding)处理的 理论体系[4]。它是中科院声学所黄曾阳研究员创立 的面向整个自然语言理解处理的理论框架,是自然 语言处理技术研究的新方法。它自诞生以来,就受 到相关领域的广泛关注。本文在此对其进行简单的 介绍。
1 国内自然语言处理技术的研究
1.1 国内研究机构的研究现状
上世纪九十年代以来,中国的自然语言处理技 术研究进入快速发展时期,一系列商品化的系统推 向市场,新的研究内容、新的应用领域也在不断探 索中。
1.1.1 研究内容 自然语言处理的研究分为基础性研究和应用性 研究两部分,这两类研究都是从语音和文本两方面
HNC理论的目标是,以概念联想脉络为主线, 建立一种模拟大脑语言感知过程的自然语言表述模 式和计算机理解处理模式,使计算机获得消解模糊 的能力。围绕这一主线,HNC预定建立自然语言 的五个理论模式[5]:①自然语言概念体系的理论模 式;②自然语言语义块和语句的理论模式;③句 群、段落和篇章要点的表述模式;④短期记忆和长 期记忆的形成及其相互转换模式;⑤基于文字文本 的计算机学习模式。目前,HNC已经建立了五个理 论模式中的前两个,并实现了技术化,其进展具体 体现在HNC理论向技术转换的研发过程,先后被列 入国家计委“九五”攻关项目以及科技部的国家重 点基础研究发展规划项目(简称“973”计划),目 前已取得两项专利及多项领先成果。为了推进HNC 语言知识处理技术的产业化进程,中国科学院声学 研究所和深圳麦尼实业发展有限公司,合作建立了 大正语言知识处理研究院。目前,该研究院推出的 实用研究成果有:HNC智能信息过滤器、“花季 护航”青少年上网管理软件、中文信息智能搜索技 术、HNC词语知识库系统、句子级语义标注的现代 汉语语料库系统等。
日益青睐,网络文本检索与知识获取技术的需求也 日益增加,因此,这方面的研究也较多[3]。
1.1.2 研究时间 上世纪90年代以来,随着计算机速度和存储量 的大幅提升,自然语言处理的物质基础大幅改善, 技术研究进入了迅速发展的时期。从研究项目的时 间分布情况看,基本上都为上世纪90年代以后开始 的项目,2000年以后开展的研究项目要明显多于上 一个十年。 根据调查统计的结果见表2。 表2中,基础理论研究与语言资源库建设一直
(1)微软亚洲研究院 微软亚洲研究院的自然语言计算组,其研究课 题关注如何克服从海量数字化文本中获取信息的困 难。研究内容包括多国语言文本分析、机器翻译、 跨语言信息检索和自动问答系统等。这些研究项目 产生了一系列实用成果,如中文输入法(IME)、 对联游戏、中文分词系统、拼音搜索、用于SQL2005 和Share Point的文本挖掘技术、用于MSN的元数据提 取技术等,为微软的产品做出了重大贡献。 (2)IBM中国研究院 IBM中国研究院在自然语言处理技术领域主要 从事信息检索、语义网技术、语音技术等方面的研 究。信息检索,主要研究如何从海量数据中提取有 用的信息,提高用户的工作效率,研究项目包括: 中文实体的辨识匹配及数据清洗,中文信息挖掘及 搜索等。语义网技术,致力于研究如何通过数据集 成和关联分析,提供更好的商业智能,包括:语义 数据管理,语义搜索等。语音技术,旨在为用户提 供比传统的键盘和图形用户界面更为直观和普及的
自然科 社会科“863”“973” 企业 国家其 学基金 学基金 项目 项目 合作 它资助