当前位置:文档之家› 基于语料库同义词辨析的一般方法

基于语料库同义词辨析的一般方法

收稿日期:2005-3-28作者简介:1.张继东(1965-),男,安徽安庆人,东华大学外语学院讲师,研究方向为语料库语言学;2.刘 萍(1965-),女,安徽芜湖人,上海交通大学技术学院副教授,研究方向为语料库语言学与英语教学法。

基于语料库同义词辨析的一般方法张继东1,刘 萍2(1.东华大学外语学院,上海200051;2.上海交通大学技术学院,上海200231)摘 要:基于语料库的同义词辨析方法包括:(1)统计出同义词在语料库的不同语域中的词频分布差异;(2)以节点词的跨距为参照,统计同义词的显著搭配词,并计算同义词与其搭配词相互信息值(M I 值)以及Z 值;(3)通过观察检索行中所呈现的同义词搭配特征,揭示出它们的类联结、搭配关系和语义韵等语言特征。

关键词:同义词;语料库;语域;搭配;语义韵中图分类号:H31312 文献标识码:A 文章编号:10022722X (2005)0620049204Corpus 2ba sed Approaches to the D i fferen ti a ti on of English Synony m sZ HANG J i 2dong 1,L I U Ping2(1.College of Foreign Languages,Donghua University,Shanghai,200051,China;2.Technical School,Shanghai J iao Tong University,Shanghai,200231,China )Abstract:W ithin cor pus 2based app r oaches,synony m s can be differentiated with reference t o:1)their distributi ons a mong different registers;2)their significant coll ocates,and the M I value and Z score bet w een synony m s and their coll ocates;3)their coll ocati onal behavi ors and se mantic p r os odies with regard t o certain colligati onal fra me works .Synony m s thus differentiated will have significant pedagogical i m p licati ons .Key W ords:synony m;cor pora;register;coll ocati on;semantic p r os ody 0.引言英语是世界上使用最广泛的语言之一,其词汇量极其庞大,其中同义词占有很大比例,是语言学习的难点。

据统计,英语语言中同义词、近义词的数量约占总词汇量的60%以上(贺晓东,2003),它们通过词形、词义、结构或用法等方方面面的相同或相近构成了庞大的英语词汇体系,切实学懂、用熟同义词是突破英语词汇的重要环节,更是提高英语写作、阅读、会话等技能的关键。

传统的同义词辨析方法,多依赖于直觉经验,采用内省的定性方法,对同义词的词目意义条分缕析,然而,一般的语言学习者在实际的运用中似乎仍然难得要领。

本文拟从语料库语言学的角度,通过对相关的语料库进行检索统计,发现同义词在不同语域中的词频分布差异,计算出词语搭配的不同相互信息值,通过观察检索行中所呈现的同义词搭配特征,揭示出它们不同的类联结、搭配关系和语义韵等语言特征。

1.基于英语语料库的同义词辨析111同义词在不同语域中词频分布差异语域是人们在实际的语言活动中,出于交际的需要,或因其所从事的职业和兴趣相异,亦或因其话语发生的情景、说话的对象、地点和话题的不同而产生的一种言语变体,体现为语言中的不同语体风格、用语格调等。

同义词由于其内在意义的差异,在不同的语域中往往会呈现出不同的分布特征,所以统计它们不同语域中的频率差异,有助于将它们区分开来。

为了说明同义词在不同语域中的分布频率对同义词的辨析具有宏观指导作用,本文选取了一组同义形容词:big 、great 、large,对《朗文英语口语和书面语语料库》(简称LGS W E )所提供的数据进行搜集,按会话、小说、新闻、学术文章四个语域进行分类。

big 、great 、large 之间的词义差异,学习者似乎能够直接从词典类工具书中就可以查询出来,但是第28卷 第6期2005年11月解放军外国语学院学报Journal of P LA University of Foreign Languages Vol .28 No .6Nov 12005一般的工具书对于词汇附加信息的语域分布信息却没有涉及。

从LGS W E每百万词中的显示频率来看,我们发现big、great、large三词在以上四个语域中的分布情况也有相当的差异。

以每百万词计为统计单位,B ig在前三个语域中的分布频率分别超过200词次,而在学术文章中则为0次;great在小说、新闻和学术文章中分布频率分别超过200词次,而在会话语域则为0次;large在会话中为0次,在小说、新闻语域分别为80多词次,在学术文章中超过200词次。

见下表1。

表1.B I G、GRE AT和LARGE在LGS W E中每百万词中分布频率会话小说新闻学术文章B I G******GRE AT******LARGE**** **表示大于200次;*表示大于80次以上的频率分布调查表明,对于同义词的辨析如果我们仅仅从概念意义或句法功能入手,是很难辨析出同义词之间的细微差异的,但是,如果我们以语域的频率分布情况为着眼点,我们就容易发现同义词在不同的语域中的概率,从而领会不同语域中的用词优先原则,这种方法对同义词的取舍能够起到一定的宏观指导作用,使学习者能够实现对同义词的辨析由感性认识向理性认识方向的发展。

112搭配词的计算与同义词的辨析搭配是词汇研究的重点,通过研究搭配词来区分同义词也是一种行之有效的研究方法。

具体来讲就是从语料库中将关键词的所有搭配词提取出来,采用统计手段来测量各搭配词与关键词共现的显著程度,以确定各词项之间在多大程度上相互吸引,进而概括出词项的典型搭配程度。

这种方法不考虑词项所处的句法结构,计算的方式参照了Krishna murthy(1987:70)对搭配的理解,即“有意义的搭配词是指在被研究词的两侧5个词的范围内出现频数比按均匀分布所期望出现的频数高得多的词”。

常规的统计测量手段有两种:Z值(或T值)测量和M I值测量。

(参阅桂诗春、杨惠中,2002)除big、great、large这组同义形容词外,我们还另选取cause、lead t o一组同义动词,并对它们在LOB和F LOB语料库分别进行检索,统计出两组同义词各自搭配词的相关Z值和M I值。

通常一个搭配要在0101水平上有显著意义,Z值必须等于或超过21576,搭配值越大,则搭配越密切;如果M I值在0附近,则表示搭配词之间没有什么联系,正值表示有搭配联系,值越大,关系越密切。

首先,我们对large的搭配词计算M I值(见表2),发现其右侧“频繁出现”的搭配词按M I值的大小排列,分别为表示数量的quantities、a mounts、nu mbers、number、a mount;表示范围的scale、part;表示面积的cities、fa m ily、gr oup、house;表示程度的defor mati ons、discrepancies、extent;后置程度副词多为enough。

表RGE在F LOB语料库中与其搭配词的相互信息值搭配词总计M I值LARGE395NUMBER166176SCALE128146NUMBERS87184P ART85149EXTE NT77161QUANTI TI ES79181AMOUNTS59138DEF OR MATI O NS411165D I SCREP ANC I ES49174F AM I L Y45113AMOUNT36156C I TI ES37195E NOUGH34168GROUP34166HOUSE34127 B ig搭配词的M I值(见表3)表示其显著搭配词分别为表示形体、面积的man、part、house;后置程度副词多为enough。

另外,当big与man、business、day搭配时,big的含义会演变为口语表达中的i m portant、great之义。

表3.B I G在F LOB语料库中与其搭配词的相互信息值搭配词总计M I值B I G263MAN85172BUSI N ESS66158E NOUGH66128P ART45109DAY34157HOUSE34187 从great搭配词来看(见表4),great与deal、many、care、length、p leasure等词汇形成常用搭配,表示“强度加大”的意思;great的其他含义多表示“伟大、重要”之义或是出于固定名词称谓表达的需要,如Great B ritain、great grandfather等。

・5・解放军外国语学院学报2005年 表4.GRE AT在F LOB语料库与其搭配词的相互信息值搭配词总计M I值GRE AT5463DE AL349105BR I T A I N166187HALL87118MANY53161CARE45118WAR44139GRANDF AT HER37164LE NGTH36101P ART33161P LE AS URE36160 对以上三个同义词的搭配词M I值的计算却具有重要的词汇搭配信息价值,它能够让学习者较为直观地了解到英语母语者在实际的语言交际中提取显著搭配词的特征,从一个侧面说明了母语者心理词汇的提取方式:词汇的通达不完全是按照概念范畴来进行的,而可能是按照词的搭配频率状况进行提取的,即高频搭配词汇的检索优先于低频搭配词的检索。

这与传统的同义词差异的解释不尽相同。

以下我们再对同义使役动词cause和lead t o进行比较。

通过T ACT软件计算它们在LOB语料库中的Z值,结果显示出它们的显著搭配词亦有很大的差异(见表5、表6)。

Cause的右侧搭配词多为suffering、alar m、har m、clash、strike等“问题类”名词;而lead t o的右侧搭配词既有表达消极意义的,如anarchy、intercep ti on、fears、reducti on等,也有表达积极意义的,如appease ment、ceasefire、p r ogress等。

相关主题