几个大的语料库评析
纵观西方语言科学发展的历史 ,Quirk 的 SEU 无论是在研究观念上还是方法上都是一大
创新 ,为语料库语言学的发展开了个好头 ,也为语言学研究提供了全新的科学手段 。 六十年代初 ,美国布朗大学 (Brown U niversity) 的两位语言学家 Nelson Francis 和 Herry
( Private) ;广播 ( Radio) ;不公开 ( Surreptitious) 等 。最后 ,用字母 S 和数字给各语篇加上标示 。
Svartvik 除了 给 各 语 篇 内 的 每 个 语 段 标 出 语 调 及 节 律 外 , 还 精 心 设 计 了 一 套 索 引 程 序
(concordance program) ,叫做 KWIC(key word in context) 。这样一来 ,不仅为检索某个语篇提
·14 ·
当代语言学
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
LL C 最初包含 87 个语篇 ,每篇约 5 ,000 字左右 。为了检索方便起见 ,首先对这些语篇进
行详细的分类编目 。这些语篇共分为五大类 :
从这个定义可以看出 ,所收集的语料已从早期的词语 、短语 、单句扩大到语篇 (text) ;收集 范围从特定语言扩大到方言和语言的其它分支 。值得注意的是 ,所选语篇必须考虑到典型性
或代表性 ,语篇本身和语料库还得具备相当的容量 ,才足以反映出语言特定部分的真实特征 。 要使收集到的语篇达到这样的标准 ,毫无疑问 ,在收集语料的过程中 ,语言学家就得凭自己对 语言的直觉 ,仔细地对所选语料内省一番不可 。当然 ,其中也不排除典型调查和诱导询问的方
·13 ·
有准备的演说 (未转写)
演说
自发言语 评论 体育
现代
其他
( Ⅱ) 原始口说材料 (100 篇)
6 10
亲密 不公开
疏远 言学
4 4
交谈
可公开
亲密 疏远
亲密 电话
疏远
24 10 20 6 10 的 。6
可以看出 ,该库共收集 200 个语篇 ,口头语书面语各占一半 ,每个语篇约 5000 字左右 ,共 有百万字之多 。其内容包罗了各种不同的语体及社会的各个层面 。
Kucera 继 Quirk 之后 , 建起了第一 个 计 算 机 可 读 的 ( machine- readable) 布 朗 语 料 库 (Brown
Corpus) 。此后不久 , G. Leech (Lancaster 大学) ,S. Johansson (Oslo 大学) 和 K. Hofland (Bergen 大学) 三方协同 ,依据布朗语料库的模式 ,建起了“兰开斯特 —奥斯陆 / 卑尔根语料库”( The Lancaster- Oslo / Bergen (LOB) Corpus) 。与 Brown Corpus 所不同的是 ,LOB Corpus 还能对英 语的不同变体 (varieties) 进行分析研究 。
7
(C) 口语 (18) 剧本 i 4
资讯性 谈话
想象性
正式演说 (经转写)
3
故事
广播新闻
3
5 6 6 4 ti 4 4 4 4
4 2 2
1998 年第 1 期 © 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
TOSCA 语料库 (1. 5 百万字)
九十年代以来 ,还有一些电脑语料库正在筹建之中 。Sidney Greenbaum (伦敦大学教授)
计划从所有讲英语的国家里广收最新语料 ( 1990 —1993) ,设计筹建“英语国际语料库 ( The
International Corpus of English ( ICE) ) 。赫尔辛基大学 (U niversity of Helsinki) 英语系的三位教
(relative pronouns) ;V = 动词 (verbs) ,然后在每个大写字母后附加上其它符号以表示词的不同
变化形式 ,如在表示名词 N 的字母后加上 + 2 来表示名词的复数形式 (plural) ;用 + z 表示名词
的所有格 (genitive) ;用 + 表示动词原形 (t he baseform of a verb) ; + D 表示动词的过去时形
供了方便 ,同时 ,还可用这套程序检索某个语段 ,甚至某个词在整个语篇中或语段中所处的位
置 、搭配关系 、属何种词类 、出现次数等 。这就要求不仅对每个语段标上数码 ,而且 ,还要给每
个词按不同词类设计一套标示 。在词类标示中先用不同的英语大写字母来表示不同的词类 :
A = 副词 ( adverbs) ; C = 连词 (conjunctions) ; E = 前 限 定 词 (predeterminers) ; G = 关 系 代 词
了达到语法描写的目的 ,还要设计一套句法标示 ( syntactic tagging) 以区分句法分析单位 (t he
unit of syntactic analysis) 。而且 ,为了对语法进行更为精细的描写 ,甚至还设计了一套短语分
析程序 (t he p hrase analysis program) 。当然 ,也少不了为各类从句里的不同语法成分设计一套
表 1.“英语用法调查”语料库
( I) 原始书写语料 (100 篇)
(A) 印刷品 (46)
(B) 非印刷品 (36)
人文科学 自然科学
6
想象性 连续书写品
7
资讯性
教学
6
亲密
一般新闻 报刊
4
社交书信 平等
专门报导
4
C
疏远
文书 法律
4 3
平等 非社交书信 l 疏远
论说文
5
日记
散文小说
式 (past form) ; + G 表示动词的-ing 形式 ; + N 表示动词的过去分词 (past participle) ; + 3 表示
单数第三人称形式等 。用 VM 表示情态动词 ( model verb) ,系动词用 VB 表示 ,如 : be = VB +
,is = VB + 3 ,been = VB + N ,being = VB + G ,仅词类标示的设计就够费心思的了 ,更不用说为
1975 年 ,Quirk 的一名学生 ,瑞典隆德大学 (L und U niversity) 英语系教授 J an Svartvik 带 领他的同事们 ,发起并组织了一项“英语口语调查”( The Survey of Spoken English) ( SSE) 。这 项工程实际上是 SEU 的姊妹工程 ( sister project ) ,目的是实现用电脑自动化处理方式获取 SEU Corpus 的英语口语的原始资料 。语料库标注包括节律分析 (prosodic analysis) ,语调单位
1998 年第 1 期
·15 ·
© 1995-2005 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
为了对美国口语进行广泛深入的研究 ,美国加州大学 ( U niversity of California) 语言学系的三 位教授 W. L . Chafe , J . W. Du Bois 和 S. A. Thompson 正着手筹建“口头美国英语语料库”( The Corpus of Spoken American English (CSA E) ) ,计划收词约 20 万左右 。另外 ,其它一些讲英语 的国家如澳大利亚 、新西兰等国也已建成或正在筹建电脑语料库 。
(tone unit) ,重音 (st ress) ,语调 (tone) ,调核位置 (place of nucleus) 等 。 SSE 历时六载 ,1981 年宣告完成 。这个电脑自动化语料库被命名为“伦敦 —隆德口头英
语语料库”(London-L und Corpus of Spoken English (LL C) ) 。LL C 可称得上是一项复杂而艰巨 的工程 ,是把计算机技术与语言研究相结合的较完美的成果 ,是计算机与语言学交叉领域里的 一个创举 。
三大电脑语料库的建立 ,结束了个人费时费力收集语言材料的历史 ,确立了语料库语言学 在语言研究中无可争议的地位 。同时也给 corpus 赋予了新的含义 ,提出了新的标准 。这一点 在 Francis 给 corpus 下的定义中得到了充分体现 :语料库即“文本的集合 ,假定代表某一语言 、 方言或语言的品种 ,用于语言分析”(1979 :110) 。
标示 (tagging of clause elements) 。另外 ,还得注意到各种不同的否定形式 ,如否定词缀和非否
定词缀等 ,以及其它一些语言现象 。不仅如此 ,LL C 的库容量也从最初的 100 ,000 增加到了
500 ,000 个词 。LL C 的诞生标志着语料库建设已跨入了全新的电脑自动化阶段 ,为语言学界
(1) 依赖自己的语言直觉 (intuition) ,通过自我内省 (self- retrospection) ,自造例证 ; (2) 以取样调查的方法 ( sampling technique) 收集有代表性的语料 , 并建语料库 (corpus work) ; (3) 进行诱导询问 (elicitaton) ,发放调查表 ,向合作人提问诱导来获取经过验证的语料 。 这三种方法虽然各有各的用途 ,各有各的优点 ,但使用最普遍的是第 (2) 种方法 ,这就是建 语料库 。本文着重介绍几个影响较大的语料库 。 1959 年伦敦大学语言学教授 Randolp h Quirk 组织发起了“英语用法调查”( The Survey of English Usage) ( SEU) 项目 ,有计划地收集不同语体的大量语料 ,并利用计算机对收集到的语 料进行储存 、分类 。语言科学史上的第一个较大型的电脑语料库从此诞生了 。该库的各种语 料成分及分类如下 (引自 J an Svartvik et al. 1982) :