当前位置:文档之家› 语料库的发展历程

语料库的发展历程

CORPUS LINGUISTICS
0.2 发展历史与现状
语料库语言学的发展历史,大致可以分为两个时期:
计算机化以前时期,可称之为传统语料库时期 计算机化以后时期,可称之为现代语料库时期
20世纪 50年代Chomsky的影响 第一代(1970- 80年代) 第二代(1980- 90年代) 第三代(1990年代) ?第四代(21世纪)
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
朗文语料库(Longman Corpus Network)
商用语料库,建于上个世纪80年代 由三个大的语料库组成
朗文 /兰开斯特英语语料库(Longman/Lancaster English Language Corpus,即 LLELC) 朗文口语语料库(Longman Spoken Corpus,即 LSC) 朗文英语学习者语料库(Longman Corpus of Learners’ English ,即 LCLE)
CORPUS LINGUISTICS
0.1 语料库语言学的定义 语料库(corpus,复数形式为corpora),顾名思义就 是存放语言材料的仓库(或数据库)。而语料库语 言学则是一种以语料库为基础的语言研究方法,它 包含两层含义:
— 利用语料库对语言的某个方面进行研究,也就是说“语料 库语言学”不是一个新学科的名称,而仅仅反映了一个新 的研究手段。 — 依据语料库所反映出来的语言事实对现行语言学理论进 行批判,提出新的观点或理论。
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第二代语料库
COBUILD语料库(Collins Birmingham University International Language Database) 英国国家语料库 国际英语语料库
CORPUS LINGUISTICS
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第三代语料库
TELRI——跨欧洲语言资源基础建设学会(Trans-European Language Resources Infrastructure) http://telri.nytud.hu/
– 1995年由欧洲共同体( European Commission)提供经费支持创立,其总 部挂靠在德国曼海姆的德语研究所(IDS),负责人 Wolfgang Teubert ; 2000年以后挂靠在英国的伯明翰大学语料库语言学研究所 – 目的是为商业机构、研究团体和大学提供研发平台,为自然语言处理提供 单语种和多语种的语言资源 – 主要任务是协调欧洲的多语言信息处理和多语言语料库的建设 – 已建成柏拉图(Plato)的《理想国》( Politeia)多语语料库、计算工具 和资源的研究文档TRACTOR( Research Archive of Computational Tools and Resources)、以及欧洲语言词库 EUROVOCA
CORPUS LINGUISTICS
0.1 语料库语言学的定义
语料库的哲学基础


近二十年以来,基于语料库的统计分析研究越来 越多。 这种统计研究被称为是经验主义的,或者说是基 于统计的,与理性主义相对而言。理性主义又说 是基于规则的。 我们认为:理性主义说到底也是经验主义,是使 用语言的个人的一生的语言经验的积累。
CORPUS LINGUISTICS
0.2 发展历史与现状
英国伦敦大学学院(University College London )的语言学家夸 克( Quirk)开创了新一代的语料库。他在1959年建立英国英语 口语和书面语的“英语用法调查”(the Survey of English Usage,简称SEU)语料库的计划,目的是要对英语进行全面的 描写。 1961年,弗朗西斯(N. Francis)和库塞拉(H. Kucera)为首 的一批语言学家和计算机专家汇集在美国的布朗大学合作建成了 世界上最早的机读语料库,即布朗语料库(Brown Corpus)。 1975年,斯沃特威克(Svartvik)与他在隆德大学的同事把SEU 语料库中的口语部分转变为计算机可读的形式,最后建立了“伦 敦 —隆德英语口语语料库”(LLC) 。
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第一代语料库
布朗语料库(Brown Corpus) LOB语料库(The Lancaster-Oslo/Bergen Corpus) LLC语料库(London-Lund Corpus of Spoken English) 兰开斯特/IBM英语口语语料库(Lancaster /IBM spoken English corpus)
——引自张普教授的幻灯片
CORPUS LINGUISTICS
0.1 语料库语言学的定义
语料库的分类
用途 :通用语料库、专用语料库; 介质 :文字语料库、声音语料库; 语体 :书面语语料库、口语语料库; 时间 :共时语料库、历时语料库; 状态 :静态语料库、动态语料库; 语种 :单语语料库、双语语料库、多语语料库; 平行语料库、非平行语料库; 母语语料库、外语学习者语料库; 处理程度:生语料库、熟语料库。
为教学目的而编制的书面语料库和词表
陈鹤琴《语体文应用字汇》,商务印书馆,1928年 。 做过两次统计,第一次统计使用了六种材料,包含 554,478个汉字的 语料,得出不同汉字4261个;第二次使用包含34,818个汉字的语 料,得出与4261个汉字相异的汉字458个。
CORPUS LINGUISTICS
CORPUS LINGUISTICS
为什么要学习语料库语言学?
语料库语言学已经成为语言研究的主流
——J. Thomas et al, 1996
语料库研究正酝酿着对语言学理论和研究方法的 重大突破
——J. Svartvik, 1996
Corpus research has become a key element of almost all language study .
——美国 Lexis-Nexis 公司的机储文件已经达到15亿件,有 1.5万亿字符,并且以每周950万件的速度递增
动态监控语料库
——国际互联网上,英国COBUILD语料库每周向电子邮件用 户发送 Word Watch(词语监察)的邮件,报告社会用语的 动态变化情况
……
CORPUS LINGUISTICS
主要目标之一是编纂英语学习词典,为外国人学习英语服务 规模达到 5000万词级
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第三代语料库
特大型语料库
1. 2. 3. 4. 语料:从单语种到多语种。 数量:从百万级到千万级再到亿级和万亿级。 加工:从词法级到句法级再到语义和语用级。 文本:从抽样到全文。
0.2.2 计算机化的语料库(现代语料库)
第三代语料库
ACL/DCI美国计算语言学学会数据采集计划
美国计算语言学学会(The Association for Computational Linguistics, 即 ACL)倡议的数据采集计划 (Data Collection Initiative, 即 DCI),其宗旨是向非赢利 的学术团体提供语料,用标准通用置标语言 SGML统一置标, 以便于数据交换(Liberman, M.Y. 1990)
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第三代语料库
UPenn树库(宾州树库)
由宾夕法尼亚(Pennsylvania)大学计算机系的 M. Marcus主持,到 1993年完成了近 300万词的英语句子的句法 结构标注。 2000年由 LDC(语言数据协会)发行了UPenn的中文树库 (规模较小,仅包含10万词,4185句)
——Wolfgang Teubert , 24 October 2004
……
CORPUS LINGUISTICS
0.1 语料库语言学的定义
“根据篇章材料对语言的研究称为语料库语言学。 ” ( K. Aijmer & B. Aitenberg, 1991) “基于现实生活中语言运用的实例进行的语言研究称 为语料库语言学。”( T. McEnery & A. Wilson, 1996) “以语料为语言描写的起点或以语料为验证有关语言 的假说的方法称为语料库语言学。”( D. Crystal, 1991)
CORPUS LINGUISTICS
UPenn树库(宾州树库)示例
CORPUS LINGUISTICS
UPenn树库(宾州树库)示例(续)
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第三代语料库
ELRA——欧洲语言资源学会 (European Language Resources Association) (/) – 1995年在卢森堡成立,开展以语言技术为主的语言资源收 集、监测、评估、鉴定、宣传、开发与利用工作,定期召 开语言资源与评估国际学术会议(LREC, Language Resources and Evaluation Conference),出版会刊《语言资源与评估》,力求 语言资源建设和评估的科学化
CORPUS LINGUISTICS
0.2.2 计算机化的语料库(现代语料库)
第三代语料库
语言资源联盟(Linguistic Data Consortium) 1992年在美国宾夕法尼亚大学(University of Pennsylvania)建立,它的目的是构建、收集和发布 用于研发的语音和文本数据库、词典以及其他资源 该联盟提供了一种可供大规模发展和普遍的共享用于 语言工程技术研究的资源的新机制,目前已经拥有超 过100个公司、大学和政府机构会员单位。为197个 会员机构源自458个非会员机构提供了数据 (/)
相关主题