语料库语言学简史语料库语言学及语料库方法的作用在今天已不容忽视,但是语料库语言学的发展却经历了一段长期曲折的过程。
以1957年Chomsky《句法结构》的发表为界,此前的语料库研究被语言学界广泛称为“早期的语料库语言学”;从上世纪50年代至80年代语料库语言学进入低谷;从80年代开始,语料库语言学迎来了它的“复苏期”。
1 早期的语料库语言学利用真实语言资料进行研究,是词汇学家和语法学家的优良传统。
早在1747年英语词典编纂的鼻祖Samuel Johnson就发表了Plan of an English Dictionary,将前人收集资料的最好方法作了总结,他所编的英语词典含15万条以上的引证说明,可见其所收集的资料库已相当可观。
Oxford English Dictionary于1928年完成,所用的引证达400多万条,卡片1100多万张,还专门出版了中古英语手稿与文章350册,供编写OED时参考。
Webster’s New International Dictionary第二版的编写参照了100多万条引证,第三版于1961年付印时,新旧引证共达1000多万条。
英语语法大师Jesperson在编写《英语语法大全》(1909-1949)时,所使用的卡片数目多达30至40万张。
(王建新,1998:52)20世纪40年代,美国的语言学家Boas在研究美洲印第安语言时就使用了语料库的方法(corpus-based methodology),后来的结构主义语言学家更是如此。
只不过当时还没有出现一个专门叫“语料库语言学”的词汇而已。
下面是早期语料库语言学的一些主要研究领域:1.1 语言习得研究19世纪70年代,语言学家就系统地对幼儿语言习得进行了研究。
这些研究都基于父母对幼儿话语及时记录的日记材料。
即使在现代,基于原始语料的语言习得研究也没有停止(Ingram,1978)。
在以日记材料为语料的研究风行过后(通常认为从1876年至1926年),语言习得的研究主要表现为下面两种方式:(1)以大量的、不同年龄段的儿童为语言素材的来源(informant),进行语言发展和成熟的研究;(2)以少量的儿童为语言素材的来源,长期跟踪记录他们使用的语言而进行的历时研究(McEnery,Wilson,2001:3)。
1.2 拼写规范研究德国语言学家Kading以德语大型语料(1100万词次)为基础,对德语各字母在文本中的出现频率以及字母串进行了研究。
1.3 语言教学研究20世纪20年代,由于大量移民涌向北美,以及各英属殖民地对英语教学的需要,有好几项工程都把寻找英语语言中最常用的词汇作为了主要的研究目标(Fries 和Traver,1940;Bongers,1947)。
1921年,Thorndike借助于语料库发布了英语词汇的使用频率研究报告。
此项研究对后来美国以及世界其他地区的英语教学都产生了巨大的影响。
1944年,Thorndike进一步完善了他的早期研究,发表了“教师3万词汇手册”(The Teacher’s Wordbook of 30,000 words)。
此时,Thorndike 研究所依据的语料库已达到1800万词次。
出于教学目的而对英语词汇进行基于语料库研究最著名的例子是Michael West的“实用英语词汇表”(General Service List of English Words)。
此项成果发表于1953年,它对当时英语书面语中最常用的2,000个词汇进行了具体的描述,不仅有不同词义的使用频率情况,还有用法说明。
这些早期研究都得出这样的结论:不论在何种语体和文本中,都是为数不多的常用词占据了文本的大部分篇幅。
1.4 对比语言学研究在对比语言学领域,语料库方法很早前就得到了应用。
最有代表性的例子是Eaton在1940年对荷兰语、法语、德语和意大利语词义频率的对比研究。
即使从今天的眼光看,这也是一项非常复杂的工作。
1.5 句法学和语义学研究对词义频率的研究也出现在单语研究领域,Lorge的研究(1949)是这方面的例子之一。
与此同时,句法研究也使用了语料库的方法。
Fries (1952)以电话听抄稿为语料,对英语语法进行了系统分析,这项研究是早期描写语法的一个代表。
从以上的诸多例证可以看出,语料库方法在语言研究领域很早以前就已经被使用。
但语料库语言学的发展却有一个明显的低谷时期,它从20世纪50年代开始,以Chomsky的著作《句法结构》的发表为标志。
因为Chomsky在书中对语料库方法的批评,语料库方法和语料库语言学曾一度极度低落,几近死亡。
2 语料库语言学的低谷时期Chomsky的转换生成语法在很短的时间内就在语言学界引起了一场革命,经验主义(empiricism)也很快被理性主义(rationalism)所取代。
Chomsky对语料库方法进行了直截了当的批评,他认为语料库永远也不会成为语言研究的有用工具,因为语言研究的最终目的是寻找语言能力(language competence)而不是语言行为(language performance)。
语言能力是所有说本族语的人可以理解并且说出从来没有听过的句子的能力,这是人人都共有的、内在的语言知识。
语言行为只是语言能力在特定场合下的表现,它是支离破碎的,不能反映语言能力的实际情况。
语言行为受到很多外部事物的影响,说话人是否饮了酒、说话时的环境等都会对语言行为产生影响。
因此,Chomsky认为语料库充其量只是对语言能力的外在表现——语言行为即言语的一种收集,这些数据无法指导语言学家获得语言能力的模型。
除此之外,Chomsky还对语料库语言学进行了进一步的批评。
早期的语料库语言学的做法会使人得出这样的两条假设:(1)自然语言中的句子是有限的;(2)自然语言中的句子是可以被收集的。
Chomsky批评说:很显然自然语言的句子是无限的,任何人都有说出或写出从未听过的句子的能力。
此外,英语的句子结构具有循环性(recursiveness)的特点,例如“The man that the cat saw that the dog ate that the man knew that the…”。
循环性进一步证明了自然语言中句子的无限性。
退一步说,假设自然语言中的句子是有限的,语料库方法会不会是研究语言的最佳方法呢?Chomsky也给出了否定的答案。
他认为语料库方法是多余的,语言学家只要通过内省(introspection)就可以进入思维活动的中心,从而对语言能力进行考察。
很多时候,语言直觉(intuition)比在语料库中搜索更节省时间。
像下面这样的句子是不大可能在语料库中出现的,如果不是靠内省,我们该如何将合乎语法的句子和不合乎语法的句子区分开来。
He shines Smith books.我们怎么知道这是一个不合乎语法的句子呢?在语料库中,我们会找到大量与此结构类似的句子。
He gives Smith books.He lends Smith books.He owes Smith books.语料库在这里毫无用处,反而给人以假象:这样的句子是可以接受的。
另外,歧义结构也只有通过内省才能够得到甄别,光靠对句子结构的观察是不够的。
例如:Tom and Ruby sat down---he read a book of medicine.Tom and Ruby sat down---he ate a can of dog food.如果遇到像这样的句子,我们只有知道Ruby是一条狗的名字才能够理解句义。
除Chomsky之外,早期的语料库语言学也受到其他学者的质疑,这些质疑主要表现在语料库方法的“可信性”方面。
Abercrombie(1965)称语料库语言学的研究方法为“伪方法”(pseudo-procedures)。
在计算机技术还很落后的年代,这样的批评并不是空穴来风。
谁能想象语言学家们如何对大型语料库(如Kading的1100万字次的语料库)进行检索?在没有检索软件支持的情况下,光凭人工是无法实现科学、全面的检索和统计的。
因此可以说,由于计算机技术的限制,早期语料库语言学进行研究的基本条件在当时并不具备。
虽然Chomsky的批评对语料库语言学是致命的一击,但基于语料库的研究却从来没有停止过。
例如在语音学领域,对实际话语的记录材料一直是语言学研究的主要素材。
同样的情况也出现在语言习得的研究方面。
从20世纪50年代至80年代,语料库语言学领域仍有下面这些显著的成就:1959年,英国伦敦大学的Randolph Quirk提出建立“英语用法调查”语料库(Survey of English Usage,SEU)。
不久以后,Nelson Francis和Henry Kucera在美国Brown大学召集了一些“语料库的有识之士”,开始了最终被称为Brown语料库的建设工作。
Brown语料库是世界上第一个根据系统性原则采集样本的标准语料库,规模为100万词次,主要代表了当代美国英语。
在当时的学术环境下,他们的研究是逆流而动的。
尽管受到许多语言学家的质疑,但他们对语料库的信心却没有动摇。
上述语料库的最终成功也极大地鼓舞了同行专家,为建设更大规模的语料库积累了经验。
1970年,在英国Lancaster大学的著名语言学家Geoffrey Leech的倡议下,LOB 语料库开始建设。
这项工作由挪威Oslo大学的Stig Johansson主持,完成于1978年,最后安装在挪威Bergen大学挪威人文科学计算中心。
LOB语料库与Brown 语料库相当,主要代表当代英国英语。
20世纪60年代初,Randolph Quirk主持的英语用法调查课题组曾收集了2000个小时的谈话和广播等口语素材,并整理成了书面材料。
这些材料后来由瑞典Lund 大学J. Svartvik教授主持全面录入计算机,这就是1975年建成的London-Lund英语口语语料库。
除了上面的语料库研究之外,这一时期还有“美国传统中级英语语料库”(The American Heritage Intermediate Corpus)和“康乃尔语料库”(The Cornell Corpus)等。
尽管在20世纪80年代之前,语料库的研究一天也没有真正停止,但应该承认这个阶段语料库语言学的发展步履维艰,语料库的建设也由于受诸多负面因素的影响而进展缓慢。
另外,这个阶段的语料库普遍规模小、加工深度低,除了对原始语料的简单处理外,对语料本身没有做什么分析和标注。
因此,这一时期的语料库被后人称为第一代语料库。
3.语料库语言学的复苏语料库语言学的复苏始于20世纪80年代①。
第一代电子语料库有其时代局限性,Brown语料库和LOB语料库可以在计算机上使用,但所含的语料均为书面语,缺乏口语与手稿。