语料库和知识库研究现状2015-12-9摘要:语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源,它与自然语言处理有着相辅相成的关系,是用统计语言模型的方法处理自然语言的基础资源。
知识库广泛应用于信息检索、机器问答系统、自动文摘、文本分类等领域,为进行大规模的真实性文本的语义分析提供了有利的支持,它也成为自然语言处理不可或缺的基础资源。
由于语料库和知识库的广泛应用,如今国内外对语料库和知识库的研究给与高度的重视,经过过去几十年的发展,各国在语料库和知识库的建设和应用方面都取得了不少成果。
本文通过对语料库与知识库相关文献资料的搜索整理,重点介绍目前国内外在语料库和知识库方面的研究现状。
关键词:语料库;知识库;研究现状1前言语料库是指按照一定的语言学原则,运用随机抽样的方法,收集自然出现的连续的语言文本或者说话片段而建成的具有一定容量的大规模电子文本库[1]。
而知识库是知识工程中结构化、易操作使用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
语料库和知识库在传统语言研究、词典编纂、语言教学、自然语言处理等领域有重要作用,所以自从20世纪60年代第一个现代意义上的语料库——美国布朗语料库(Brown Corpus)诞生开始,大批国内外的专家学者致力于语料库和知识库的研究,近年来国内外对于语料库知识库的研究取得了重大的突破,形成了规模不一的各种语料库和知识库,并且涌现了众多有关语料库和知识库的专着、论文等。
对于语料库和知识库发展现状的总结研究,不仅可以帮助人们清楚的了解语料库和知识库当前发展的形势,对今后语料库知识库的发展具有一定的指导作用,而且对于应用语料库知识库发展自然语言处理等领域具有重要意义。
2研究意义从现代意义上第一个语料库出现以来,语料库在国内外的发展均有长足的进步,不但其规模越来越大,加工深度越来越深,而且有关语料库的应用也越来越广泛[2]。
语料库的迅速发展对语言学研究领域和应用语言学领域产生了巨大的作用。
在语言学研究领域,语料库为语言研究者和使用者提供了丰富而全面的研究素材,有助于研究者根据大量的语言素材实际得出客观正确的结论。
另外,语料库的现代化使得语言学家可以利用语料库分析软件实现语料检索和频率统计,帮助人们观察和把握语言事实,更为准确的得出结论。
在应用语言学领域,语料库技术与应用语言学的结合也产生了大量的实用成果。
比如,应用语料库产生一系列基于语料库的词典,应用语料库确定语言教学的教材提纲,提供外语教学与研究的良好平台等。
而知识库尤其是语言知识库,是帮助计算机了解人类语言的一个媒介和手段,也是让计算机逐渐智能起来的物质前提[3]。
知识库的构建对于自然语言处理的发展具有重要作用,可以满足其对语言句子语义知识的要求,在信息检索、机器问答系统、信息提取、机器翻译、文本分类、自动文摘等方面得到了广泛的应用。
鉴于以上介绍的语料库和知识库在当今研究中的重要作用,对于语料库和知识库发展现状的研究总结,可以帮助人们更好地了解语料库和知识库的现今已取得发展成果和尚未解决的问题,可以为人们对语料库知识库的进一步研究和应用提供一定的指导作用。
3国内发展现状语料库的发展与现状自1979年中国开始建立机器可读的语料库以来,国内语料库发展迅速,取得了相当一部分的成就。
(1)早期语料库早期在中国建立的机器可读语料库主要包括:1979年武汉大学建立的汉语现代文学作品语料库(527万字)、1983年北京航天航空大学建立的现代汉语语料库(2000万字)、1983年北京师范大学建立的中学语文教材语料库(106万8千字)以及1983年北京语言学院建立的现代汉语词频统计语料库(182万字)。
早期形成的这些语料库,基本都是手工方式建立的,成本高、效率低。
另外,在早期建立语料库时,只形成了初步的国家语料库的建立标准,在语料库建立的统一规范方面问题比较突出。
(2)国家级大型汉语语料库在1991年,为了推进汉语的词法、句法、语义和语用的研究,中国国家语言文字工作委员会开始建立计划规模达7000万汉字的国家级大型汉语语料库。
虽然该语料库当时在汉语语料库系统开发技术上具有国际领先水平,而且在语料的可靠和标注的准确方面等享有权威性,但是该语料库依靠纯手工建立,在选材方面也受到了一定的限制。
目前,该语料库已经具有2000万字的核心语料,经过人们的加工处理,其正在完成从生语料库到熟语料库的过度。
(3)大规模真实文本语料库随着技术的进一步发展,大规模真实文本语料库逐渐被建立起来。
研究大规模真实文本语料库的单位包括北京大学计算语言学研究所、清华大学、山西大学、哈尔滨工业大学、北京语言文化大学、东北大学、中科院软件研究所、中科院自动化研究所、香港城市大学以及台湾中央研究院等。
其中代表性成果有:北京大学计算语言学研究所从1992年开始开展对现代汉语语料库多级加工的研究,先后建成2600万字的1998年《人民日报》的标注语料库,2000万字汉字、1000多万英语单词的篇章级英汉对照双语语料库以及8000万字篇章级信息科学与技术领域的语料库等。
清华大学则在1998年建立了1亿汉字的语料库,它着重研究歧义切分的问题,如今建立的生语料库已达7-8亿字 [4]。
(4)双语语料库在20世纪90年代前后,随着外语教学的普及,先后出现了各种不同的双语语料库,比如:北大计算语言学研究所的双语语料库、哈尔滨工业大学的英汉双语语料库、东北大学的英汉双语语段库等英汉双语语料库,北京外国语大学的北京日本学研究中心建立汉语和日语并行语料库、中国海洋大学语言文学院研制的《蝴蝶》德汉对照语料库以及复旦大学计算机系建立的汉日英分类熟语料库。
在该时期,中国语料库的发展进入到全新的蓬勃时期。
双语语料库的迅速发展为外语教学提供了丰富的可用资源,对于外语教学的发展起到了巨大的推动作用。
(5)少数民族语言语料库由于我国民族众多,民族语言资源丰富,所以近年来,少数民族语言语料库的发展得到了大家的重视。
比如,新疆大学从2002年起开始建设现代维吾尔语语料库系统,目前已有生语料800万词;新疆师范大学建立了200万词的维吾尔语语料库,拟发展到300万词;中国社会科学院民族研究所建立了500万藏语字符的藏语语料库;内蒙古大学建立了带有初步切分和标注的蒙古语语料库[5]。
虽然由于少数民族语言的特殊性,少数民族语料库的建设还存在一系列问题,但是少数民族语言语料库的建立足以说明到目前为止我国语料库的发展已经达到了一个新的高度。
知识库的发展与现状在国内,现今比较知名的知识库是HowNet(知网)、基于WordNet框架开发的中文概念词典(CCD)以及台湾中研院的Sinica Bow[6]等。
从上世纪末开始,董振东先生就带领一批专家学者开始建立知网(HowNet),它是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
知网的发展从1988年展开基础研究开始到2008年发布“知网在线”共经历了九个过程。
现如今,中国知网的发展比较成熟,已经成为中国知识资源的总库,提供了工业、农业等众多学科的知识。
它不仅为语言信息处理的研发提供了丰富的知识资源,而且提供了一个进行汉语言计算机处理的新思路,其在词义标注、词义消歧、信息过滤、词义相似度的计算等许多领域得到广泛的应用。
CCD是基于WordNet框架开发的,他不仅继承了WordNet的一部分方法技术,而且根据汉语的特点对WordNet进行了改进,经过多年的努力,CCD已包含十万左右的汉语同义词集[7]。
台湾中研院开发的Sinica Bow支持英汉双语查询;多重语义索引等,并且Sinica Bow还包括了不同层次的词汇知识,词汇的可用资源丰富而全面。
4国外发展现状语料库的发展与现状从20世纪60年代开始,语料库从第一代逐渐发展到如今的第三代,这么多年来,各国在语料库的发展方面都取得了不菲的成绩。
(1)第一代语料库20世纪60年代Francis和Kucera在美国Brown大学建立美国布朗语料库(Brown Corpus),它是世界上第一个根据系统性原则采集样本的标准语料库,主要代表当代美国英语的,具有100万词的规模。
70年代初,英国Lancaster大学、挪威Oslo大学与Bergen大学联合建立了与布朗语料库规模相当的 LOB 语料库,它主要代表当代英国英语。
LLC口语语料库(London-Lund Corpus of Spoken English)在1975年建成的,其规模为万词的并且带有详细的韵律标注。
总体来说,第一代语料库的规模比较小,基本采用系统的抽样方法并且基本都以语言研究为目的。
(2)第二代语料库COBUILD语料库(Collins Birmingham University International Language Database,科林斯英语语料库)是从20世纪80年代开始由英国伯明翰(Birmingham)大学和柯林斯(Collins)出版社合作建立的主要应用于词典编撰的一个大规模语料库,目前它固定在亿词的规模,并且提供在线检索。
同样在20世纪80年代朗文语料库委员会还建立了应用于英语学习词典编纂的Longman语料库(朗文语料库),目前其规模达5000 万词次。
由于技术的进步,第二代语料库采用交心的光电符号识别技术,拜托了手工建立的麻烦,节省了语料库建立的时间和成本,而且第二代语料库的规模与第一代语料库相比均有大幅度提高。
(3)第三代语料库美国计算机协会(ACL/DCI)倡议发起建立ACL/DCI语料库,其收集的语料来源广泛,而且采用了统一的标准通用标注语言和TEI文本编码倡议标准。
在20世纪80年代末90年代初,美国宾州大学开始对百万词级的语料进行句法和语义标注,把线性的文本语料库加工成为表示句子的句法和语义结构的树库,建立了宾州大学树库(PennTreeBank)。
到1993年已经完成了对300万词的英语句子进行了句法结构标注。
另外在2000年,其完成了约10万词、4185个句子的第一版中文树库。
随着发展,第三代语料库的语料从开始的单语种发展到多语种,规模从开始的百万级发展到亿级、万亿级,选取的文本从抽样发展到全文。
经过三个阶段,现如今除上述所列的语料库,国外还包括许多其他的语料库,总体来说,当今不仅中国的语料库发展迅速,在国外语料库也取得了巨大的发展成果。
知识库的发展与现状国外知识库的发展过程中,形成了以描写聚合关系为主的WordNet,以描写组合关系为主的FrameNet[8]。
本文将着重介绍WordNet,对于FrameNet不做详细叙述。