2010年11月November 2010第33卷第4期Vol.33No.4现代外语(季刊)Modern Foreign Languages (Quarterly )语料库语言学与中国外语教学桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成[编者按]为推动我国应用语言学研究的新发展,教育部人文社科重点研究基地———广东外语外贸大学外国语言学及应用语言学研究中心于2010年9月24-25日成功举办了“首届广外应用语言学论坛”,庆贺我国著名语言学家、应用语言学学科的开拓者桂诗春教授八十华诞。
期间,举行了题为“语料库语言学与外语教学”的高层论坛,就语料库语言学的现状、发展前景及语料库的建设、共享、应用等展开了互动讨论。
以下是根据专家发言,整理后的主要内容。
[中图分类号]H319[文献标识码]A[文章编号]1003-6105(2010)04-0419-08语料库语言学的发展前景与资源共享广东外语外贸大学桂诗春1.语料库语言学的发展前景语料库语言学在外国和国内都发展很快,有的人选择了它作为发展方向,因为它的入门比较容易,上手较快;有的人把语料库语言学作为收集数据的重要手段。
但是总的来说,我们的语料库研究还处在比较初级阶段,需要提高。
究其原因是很多人把它看成是一种工具或手段,可以运用现有的一些现成的程序和公开的语料库,如Brown ,LOB ,Frown.Flob ,BNC ,CLEC ,只要选题得当,就能获得很多量化的数据,从而写出洋洋洒洒的文章来。
在计算机和扫描仪的支持下,自行收集一些语言素材,建立一个特定的语料库,也不是什么难事。
我觉得,语料库语言学既是一种工具,但更是一门学科;它是对语言行为进行概率性归纳和概括的一门学科,它本身是跨学科性的,要做语料库语言学研究必须许多方面要有比较雄厚的基础。
首先是数学和统计学。
Herdan (1960)的一本早期著作,叫做《词次/词型数学》(Type /token Mathematics ),其副标题就是《数理语言学教科书》(A Textbook ofMathematical Linguistics ),当时还是前计算机时代,但Herdan 觉得有两件语言事实值得我们注意:一是大量语言资料(language inmass ),二是语言排列(language in line ),它们是任何语言运作都不能离开的两个方面。
某些语言学研究分支如果考虑到这两个方面,将会从中获益。
当时还没有真正的机读语料库,Brown 的语料库在1967年才面世,美国心理学家John Carroll 根据该语料库以及他后来参与制作500万词的AHI 语料库,所提出的词汇频数对数正态模型(lognormal model )均源于Herdan 所奠定的基础。
一直到最近美国Barber 利用计算机对英语语体的各种研究,更是利用了因子分析的统计方法。
其次是计算机科学。
语料库的发展离不开现代科学技术,其主要表现是个人电脑、扫描仪和大容量硬盘的普及,当初Brown 语料库要动用到大型电脑,而到如今,只需一万元左右就能在家里拥有这些设备,制作出甚至比Brown 还要大的语料库。
但是我们往往只注意到硬件部分,而不认识到软件的建设。
从事语料库语言学研究的人而不掌握一到两种编成语言,也不可能拓展他们的研究领域,因为他不能根据个人的研究需语料库语言学与中国外语教学1.双语料库的建设我很赞同桂诗春教授的意见,积极推进语言资源的共享,语料库只有共享才能变成财富,如果把语料库的研究成果“藏诸名山,束之高阁”,只是一堆数据垃圾,必将自毁前程。
桂诗春教授刚才提到宾西法尼亚大学的Linguistic Data Consortium (我建议最好翻译为“语言数据联盟”,简称LDC ),是一个很好的供语料库语言学研究者进行交流互动的平台。
在语言数据联盟和其他相关机构的帮助下,研究者们可以获得口语和书面语的大规模的语料。
重要的是,在这些语料中还包括一些标注过的语料,如宾州树库(Penn Treebank ),布拉格依存树库(Prague Dependency Tree Bank ),命题库(PropBank ),宾州话语树库(PennDiscourse Treebank ),修辞结构库(RSTBank )和TimeBank (我不知道TimeBank 这个名称如何翻译为中文)。
这些语料库是带有句法、语义和语用等不同层次的标记的标准文本语言资源。
这些语言资源的存在大大地推动了人们使用“有监督的机器学习方法”(supervisedmachine learning )来处理那些在传统上非常复杂的自动句法剖析(automatic syntactic parsing )和自动语义分析(automatic semantic双语语料库的建设与用途国家教育部语言文字应用研究所冯志伟要,通过计算机自行编程来检验假设。
此外,要做语料库语言学研究,文本分类(又叫文本分析或内容分析)也必须具备雄厚的基础。
它的研究范围也很广,从信息的提取、组织、储存,文本(包括语体)的分析,社会舆论调查,著作归属到文本格式。
这也牵涉到许多统计学知识和计算机知识。
数理语言学和计算机语言学的研究对象是文本和语篇。
有志于研究这门科学的必需具有这些基础训练,否则不会走得很远的。
我觉得,当务之急是让我国语料库语言学的先行者们聚在一起,研究语料库语言学作为一门科学应该在什么层次上开设?它有什么基本内容?由哪些核心课程组成?只有规范语料库语言学专业的课程,按照这些课程设置来培养我国语料库语言学的学生,他们才能高瞻远瞩,取得真正的进展。
2.资源共享问题语料库语言学对资源有很大的依赖性,为了促进语料库语言学在我国的发展,应该提倡资源共享。
回顾语料库语言学在国外的迅猛发展,和资源共享有密切的关系。
共享的方法有多种:一是免费提供,最典型的例子是GeorgeMiller 领衔制作的英语大型词汇数据库Wordnet 受到各方面资助,前后参与制作的不下一千人,而且还在不断完善。
他们认为这不是一个商品,应该为公众所有。
二是提供网上服务,整个语料库不提供,但是在网上可以自由检索获得数据,像美国Brigham Young 大学的Mark Davies 在他的网页上检索美国现代英语语料库、美国历史英语语料库、英国国家语料库、《时代》杂志语料库、西班牙语语料库、葡萄牙语语料库以供检索。
三是成立语料库分配中心,收少量成本费提供语料库,像挪威的ICAME (International Computer Archive of Modern and Medieval English ),美国的LDC (The Linguistic Data Consortium ),等等。
一些语料库工具,如TACT 、LEXA ,Wordcruncher ,Wordsmith 、Antconc 也都很容易在网上获取。
资源共享的理念是,只要有更多的人使用,我们所开发的资源、工具才能完善,学科才能发展。
只有互通有无,才能共同协作,才能减少重复劳动,制作出更成熟的成品。
4201.语料库语言学的应用研究这次专题讨论的题目“语料库语言学与外语教学”我觉得很好,很及时。
语料库语言学本来就是实践性、应用性很强的一门学科,语料库语言学的应用研究与贡献上海交通大学杨惠中analysis )等问题。
这些语言资源也推动了有竞争性的评测机制的建立,评测的范围涉及到自动剖析(parsing )、信息抽取(informationextraction )、词义排歧(word sense disambiguation )、问答系统(question-answer system )、自动文摘(automatic summarization )等领域。
几年前由中国中文信息学会发起,在北京创建了“中文语言数据联盟”(ChineseLinguistic Data Consortium ,缩写为CLDC ),是一个自愿组成的学术性社会团体,其宗旨是团结中文语言资源建设领域的广大科技工作者,建成代表中文信息处理国际水平的、通用的中文语言和语音的资源库。
欢迎语言学界的同仁积极参与CLDC 的工作,促进语料库资源的共享。
目前单语语料库很多,已取得煌煌的成绩,但双语并行语料库(parallel corpus )不容易获得,它的构建和加工是很困难的工作。
我国还没有高质量的、大规模真实文本的英汉双语语料库,更没有成熟的、可共享的加工工具,最近公布的2010年国家社会科学基金重大项目中有一项就是“大规模英汉平行语料库的构建与加工研究”,资助强度大约是50万元左右,可见国家对于双语语料库建设的重视。
这个项目是我和王克非教授在今年的社科基金评审会议上建议提出的,已开始招标,希望大家积极投标,积极推进我国的双语语料库建设。
2.如何将语料库语言学运用到外语教学,如何从语料库中挖掘知识?我认为英汉双语语料库的最大用途就是推进英语教学,我们可以从双语语料库中抽取教材的原材料,帮助语言学习者提高对于真实语言材料的语感,从而编写出高质量的外语教材。
有的外语老师冥思苦想地根据自己的语感来编写教材,费时费力,其实,如果依靠英汉双语平行语料库,就可以减轻搜集素材之困难,大大提高编写教材的工作效率。
另外,语料库中蕴藏着无比丰富的知识等待我们去挖掘,如果我们使用“文本数据挖掘”(text data mining )的技术,从语料库中挖掘知识,既可以挖掘语言学的知识,也可以挖掘非语言学的知识,就像从矿石中挖掘出黄金一样,这些知识可以弥补传统语言学的不足,克服研究者的主观性和片面性。
我们在text data mining 这个术语中使用mining (挖掘)这个单词,而没有使用extraction (抽取)这个单词,正是为了强调在从语料库中获取知识的时候,要开动脑筋,要经过一番“去粗取精,去伪存真,由此及彼,由表及里”的深思熟虑的功夫来加工数据,而不要被海量的数据所迷惑。
数据就像矿石,我们的任务是从海量的数据中挖掘出隐藏在其中的有规律性的东西,把海量的、离散的“数据”(data )变为精炼的、系统化的“知识”(knowledge ),从而把经验主义方法和理性主义方法紧密地结合起来。
这种知识获取方法上的巨大变化,有可能引起整个语言学研究的“战略转移”(strategytransit );我们中国的语言学家应当敏锐地关注“战略转移”问题,做出我们的应有的贡献,千万不要错过这个在语言学历史上千载难逢的良机。
桂诗春冯志伟杨惠中何安平卫乃兴李文中梁茂成421语料库语言学与中国外语教学脱离了应用,坐而论道,也就失去了发展的基础和动力,将变成无本之木、无源之水。
外语教学正是语料库语言学的重要应用领域,语料库语言学以实际使用中的语言事实作为研究对象是一种着眼于语言运用的研究方法(performance-based approach),因此跟语言教学有着直接的关系,对真实语言交际的各个方面,包括词汇的、句法的、语义的、语用的、语篇的,进行深入的探讨和全面的描写,其研究成果可以应用在教学大纲设计中,为确定教学内容、制定教学目标提供坚实可靠的决策依据。