当前位置：文档之家› 几个大的语料库评析

几个大的语料库评析

纵观西方语言科学发展的历史 ,Quirk 的 SEU 无论是在研究观念上还是方法上都是一大
创新 ,为语料库语言学的发展开了个好头 ,也为语言学研究提供了全新的科学手段。六十年代初 ,美国布朗大学 (Brown U niversity) 的两位语言学家 Nelson Francis 和 Herry
( Private) ;广播 ( Radio) ;不公开 ( Surreptitious) 等。最后 ,用字母 S 和数字给各语篇加上标示。
Svartvik 除了给各语篇内的每个语段标出语调及节律外 , 还精心设计了一套索引程序
(concordance program) ,叫做 KWIC(key word in context) 。这样一来 ,不仅为检索某个语篇提
·14 ·
当代语言学
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
LL C 最初包含 87 个语篇 ,每篇约 5 ,000 字左右。为了检索方便起见 ,首先对这些语篇进
行详细的分类编目。这些语篇共分为五大类 :
从这个定义可以看出 ,所收集的语料已从早期的词语、短语、单句扩大到语篇 (text) ;收集范围从特定语言扩大到方言和语言的其它分支。值得注意的是 ,所选语篇必须考虑到典型性
或代表性 ,语篇本身和语料库还得具备相当的容量 ,才足以反映出语言特定部分的真实特征。要使收集到的语篇达到这样的标准 ,毫无疑问 ,在收集语料的过程中 ,语言学家就得凭自己对语言的直觉 ,仔细地对所选语料内省一番不可。当然 ,其中也不排除典型调查和诱导询问的方
·13 ·
有准备的演说 (未转写)
演说
自发言语评论体育
现代
其他
( Ⅱ) 原始口说材料 (100 篇)
6 10
亲密不公开
疏远言学
4 4
交谈
可公开
亲密疏远
亲密电话
疏远
24 10 20 6 10 的。6
可以看出 ,该库共收集 200 个语篇 ,口头语书面语各占一半 ,每个语篇约 5000 字左右 ,共有百万字之多。其内容包罗了各种不同的语体及社会的各个层面。
Kucera 继 Quirk 之后 , 建起了第一个计算机可读的 ( machine- readable) 布朗语料库 (Brown
Corpus) 。此后不久 , G. Leech (Lancaster 大学) ,S. Johansson (Oslo 大学) 和 K. Hofland (Bergen 大学) 三方协同 ,依据布朗语料库的模式 ,建起了“兰开斯特 —奥斯陆 / 卑尔根语料库”( The Lancaster- Oslo / Bergen (LOB) Corpus) 。与 Brown Corpus 所不同的是 ,LOB Corpus 还能对英语的不同变体 (varieties) 进行分析研究。
7
(C) 口语 (18) 剧本 i 4
资讯性谈话
想象性
正式演说 (经转写)
3
故事
广播新闻
3
5 6 6 4 ti 4 4 4 4
4 2 2
1998 年第 1 期 © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
TOSCA 语料库 (1. 5 百万字)
九十年代以来 ,还有一些电脑语料库正在筹建之中。Sidney Greenbaum (伦敦大学教授)
计划从所有讲英语的国家里广收最新语料 ( 1990 —1993) ,设计筹建“英语国际语料库 ( The
International Corpus of English ( ICE) ) 。赫尔辛基大学 (U niversity of Helsinki) 英语系的三位教
(relative pronouns) ;V = 动词 (verbs) ,然后在每个大写字母后附加上其它符号以表示词的不同
变化形式 ,如在表示名词 N 的字母后加上 + 2 来表示名词的复数形式 (plural) ;用 + z 表示名词
的所有格 (genitive) ;用 + 表示动词原形 (t he baseform of a verb) ; + D 表示动词的过去时形
供了方便 ,同时 ,还可用这套程序检索某个语段 ,甚至某个词在整个语篇中或语段中所处的位
置、搭配关系、属何种词类、出现次数等。这就要求不仅对每个语段标上数码 ,而且 ,还要给每
个词按不同词类设计一套标示。在词类标示中先用不同的英语大写字母来表示不同的词类 :
A = 副词 ( adverbs) ; C = 连词 (conjunctions) ; E = 前限定词 (predeterminers) ; G = 关系代词
了达到语法描写的目的 ,还要设计一套句法标示 ( syntactic tagging) 以区分句法分析单位 (t he
unit of syntactic analysis) 。而且 ,为了对语法进行更为精细的描写 ,甚至还设计了一套短语分
析程序 (t he p hrase analysis program) 。当然 ,也少不了为各类从句里的不同语法成分设计一套
表 1.“英语用法调查”语料库
( I) 原始书写语料 (100 篇)
(A) 印刷品 (46)
(B) 非印刷品 (36)
人文科学自然科学
6
想象性连续书写品
7
资讯性
教学
6
亲密
一般新闻报刊
4
社交书信平等
专门报导
4
C
疏远
文书法律
4 3
平等非社交书信 l 疏远
论说文
5
日记
散文小说
式 (past form) ; + G 表示动词的-ing 形式 ; + N 表示动词的过去分词 (past participle) ; + 3 表示
单数第三人称形式等。用 VM 表示情态动词 ( model verb) ,系动词用 VB 表示 ,如 : be = VB +
,is = VB + 3 ,been = VB + N ,being = VB + G ,仅词类标示的设计就够费心思的了 ,更不用说为
1975 年 ,Quirk 的一名学生 ,瑞典隆德大学 (L und U niversity) 英语系教授 J an Svartvik 带领他的同事们 ,发起并组织了一项“英语口语调查”( The Survey of Spoken English) ( SSE) 。这项工程实际上是 SEU 的姊妹工程 ( sister project ) ,目的是实现用电脑自动化处理方式获取 SEU Corpus 的英语口语的原始资料。语料库标注包括节律分析 (prosodic analysis) ,语调单位
1998 年第 1 期
·15 ·
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
为了对美国口语进行广泛深入的研究 ,美国加州大学 ( U niversity of California) 语言学系的三位教授 W. L . Chafe , J . W. Du Bois 和 S. A. Thompson 正着手筹建“口头美国英语语料库”( The Corpus of Spoken American English (CSA E) ) ,计划收词约 20 万左右。另外 ,其它一些讲英语的国家如澳大利亚、新西兰等国也已建成或正在筹建电脑语料库。
(tone unit) ,重音 (st ress) ,语调 (tone) ,调核位置 (place of nucleus) 等。 SSE 历时六载 ,1981 年宣告完成。这个电脑自动化语料库被命名为“伦敦 —隆德口头英
语语料库”(London-L und Corpus of Spoken English (LL C) ) 。LL C 可称得上是一项复杂而艰巨的工程 ,是把计算机技术与语言研究相结合的较完美的成果 ,是计算机与语言学交叉领域里的一个创举。
三大电脑语料库的建立 ,结束了个人费时费力收集语言材料的历史 ,确立了语料库语言学在语言研究中无可争议的地位。同时也给 corpus 赋予了新的含义 ,提出了新的标准。这一点在 Francis 给 corpus 下的定义中得到了充分体现 :语料库即“文本的集合 ,假定代表某一语言、方言或语言的品种 ,用于语言分析”(1979 :110) 。
标示 (tagging of clause elements) 。另外 ,还得注意到各种不同的否定形式 ,如否定词缀和非否
定词缀等 ,以及其它一些语言现象。不仅如此 ,LL C 的库容量也从最初的 100 ,000 增加到了
500 ,000 个词。LL C 的诞生标志着语料库建设已跨入了全新的电脑自动化阶段 ,为语言学界
(1) 依赖自己的语言直觉 (intuition) ,通过自我内省 (self- retrospection) ,自造例证 ; (2) 以取样调查的方法 ( sampling technique) 收集有代表性的语料 , 并建语料库 (corpus work) ; (3) 进行诱导询问 (elicitaton) ,发放调查表 ,向合作人提问诱导来获取经过验证的语料。这三种方法虽然各有各的用途 ,各有各的优点 ,但使用最普遍的是第 (2) 种方法 ,这就是建语料库。本文着重介绍几个影响较大的语料库。 1959 年伦敦大学语言学教授 Randolp h Quirk 组织发起了“英语用法调查”( The Survey of English Usage) ( SEU) 项目 ,有计划地收集不同语体的大量语料 ,并利用计算机对收集到的语料进行储存、分类。语言科学史上的第一个较大型的电脑语料库从此诞生了。该库的各种语料成分及分类如下 (引自 J an Svartvik et al. 1982) :

e商务文档

几个大的语料库评析

相关文档推荐：