当前位置:文档之家› 美国当代英语语料库(COCA)使用介绍

美国当代英语语料库(COCA)使用介绍


POS LIST





pron.INDF 不定代词 pron.PERS 人称代词 pron.WH 疑问代词 pron.REFL 反身代词 adj.CMP 形容词比较级 (comparative) adj.SPRL 形容词最高级 (superlative) adv.particle 副词小品词 adv.WH 疑问副词
规则: 若要得到某种词性且词中带有部分带有某些字母的形 式时,如要得到以 un- 开头、 -ed 结尾的所有形容词的所有形 式,那么输入: un*ed.[j*]; 若要得到动词 + 任何词 +ground 的所有词组 , 那么输入 : [v*]*[ground]即可。 前者用来研究词汇,后者用来查询特定词性的搭配。
查询结果
筛选出“应用”和“增加”作主谓搭配的例句
• The annual application of fertilizers has increased by 5.48% on average since 1980, and that of pesticide… • In ten Member States, average application of nitrogen increased almost 400% between 1950 and 1981. • Finally, studies have shown that application of biosolids increases the water holding capacity as well as reduces the potential of(wildcards) ,如分别输入 un*ly 和r?n*,结果如图。
? 代替一个字母 * 代替任意数量字母
EXAMPLE 3
EXAMPLE 3
COCA主要搜索功能
• 例 4. 输入 lemmas (即一个单词的单复数、时态等 所有形式),若要得到 sing 这个单词的所有形式, 可以如下图所示。
COCA界面简介
COCA界面简介
• 显示方式区:
• 1.LIST——列表显示 • 2.CHART——图表显示,可以显示在各语料库类型中的使 用频率和各时间段内的使用情况。 • 3.KWIC——Key word in context,上下文关键词显示 • PARE——单词比较显示,比较两个不同词或短语 的搭配情况。
POS LIST





det.GEN 类指限定词 det.POS 物主限定词 num.CARD 基数词 num.ORD 序数词 conj.CRD 并列连词 conj.SUB 从属连词 Interj. 叹词 PUNC 标点
词性列表的使用
• 1)查询多义词特定的词性 • 2)某个词前或者后面特定词性的若干搭配 词,如confidence前的形容词 • 3)词性附码放置的位置——WORDS或 COLLOCATES处
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
二、COCA主要搜索功能
• 2.1 搜索words、phrases、lemmas(单 词的所有形式)、wildcards(通配符)和 其他更加复杂的字词。
COCA主要功能(四)
• 2.4 进行语义倾向比较 • 2.4.1 比较近义词 • 如:近义形容词hot和warm后面所跟名词的 区别(如图2.4.1):
图2.4.1
规则:在words的方格里分别输入hot和warm,再在collocates 方框里输入[nn*],表示后面所跟任何名词。当然也可以比较在 某个子语料库中出现的频率。
选择学习COCA的原因
• 1. COCA免费且在线方便。 • 2. 规模大(4.5亿,1990-2012)、速度快 (一般几秒)、词性标注易于理解。 • 3.时效性强——每年至少更新两次,并且每 年新增2000万词汇。
COCA界面简介
主要包括三大功能区:
Ⅰ 显示及查询条件界定区,包括:显示方式区, 字串查询区,语料库分类区,查询结果排列方式 区。 Ⅱ 查询结果数据显示区 Ⅲ 例句显示区

POS LIST

verb base=动词原形 verb.INF=动词不定式 verb MODAL=情态动词 verb 3SG=动词第三人称单数 verb ED=过去式 verb EN=过去分词 verb ING=现在分词 verb.LEX=lexical verb实意动词 verb.[BE]=系动词 verb.[DO]=do verb.[HAVE]=have
COCA主要功能(二)
• 如:跟在 “smile前面的形容词” (图2.2-2)
规则:在words里输入: smile.[n*],表示作为名词的smile; 在 collocates里输入: [aj*]表示其前后出现形容词的语境。
Confidence前使用的形容词 图2.2-3
COCA主要功能(三)
• 2.4.2 比较反义词 • 如:woman和man前面所跟的形容词的区 别(如图2.4.2)
图2.4.2
规则:在words的方格里分别输入woman和man,再在 collocates方框里输入[j*],选在左3,表示前面3个跨距内所有的形 容词。当然也可以比较在某个子语料库中出现的频率比较。
EXAMPLE 4
规则:若要得到某个单词的所有单复数和时态形式,那么 就要在输入时,在这个单词外加 [ ]。
EXAMPLE 4
形容词early的原形,比较级和最高级三种形式一次性检索出来检索
COCA主要功能(一)
• 例 5.输入某种词性且部分带有某些字母的命令, 如要得到以 un- 开头、 -ed 结尾的所有形容词的所 有 形 式 ( 见 图 2.1.5-1 ) 和 得 到 动 词 + 任 何 词 +ground的所有词组(见图2.1.5-2):
图2.1.2-1
图2.1.2-2
White+名词的短语
规则:用正表达式 名词: [nn*];动词: [v*]; 形容词: [j*]; 副词: [r*];代词:[p*];连词:[c*]……
POS LIST 词性列表
noun.ALL=名词 noun.SG=单数名词 noun.PL=复数名词 noun.CMN=普通名词 noun.+PROP=专有名词 noun.-PROP=非专有名词
/coca
一、COCA语料库简介
• COCA简介
– COCA:美国当代英语语料库(Corpus of Contemporary American English)是由美国杨 伯翰大学(Brigham Young University)的 Mark Davies 教授开发的美国最新当代英语语 料库,是当今世界上最大的英语平衡语料库。
结论
• Application可以和 increase作主谓搭配,但 多用于学术期刊中,口语中出现很少。
• 2.4.3 搜索近义词 • 如:搜索beautiful的所有近义词(如图 2.4.3-1)
规则:在words的方格里输入[=beautiful],表示和beautiful语 义相近的所有形容词。
• 再如:搜索动词clean的所有近义词,如下 图:
图2.4.3-2
Question
• Application和increase能否作主谓搭配?
图2.1.1-3
例句显示区使用的是KWIC显示
KWIC显示方式
蓝色——名词 棕色——副词
紫色——动词 灰色——代词
绿色——形容词 黄色——介词
COCA主要搜索功能
• 例2. 输入词组 “white+名词” (图2.1.2-1),得到 的结果都是white 后面跟的名词短语 (图2.1.2-2),检索 表达式为:white [n*]。
COCA语料库简介

COCA简介
– COCA美国当代英语语料库涵盖美国这一时期 的口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的语料库,并且在这五个类 型方面基本呈均匀平衡分布。 – 网址:/coca
图2.1.5-1
图2.1.5-2
动词+任何词+ground的所有词组
COCA主要搜索功能(二)
• 2.2 搜索搭配词和出现的频率
• 如“thick后跟的名词” (图2.2-1)
图2.2-1
规则:在collocates里输入[n*] 后选择4,表示在thick4后面 (4跨距范围内)出现的任何名词
• 例1. 输入单词“mysterious” (图2.1.1-1):得 到相关结果(图2.1.1-2):在各子库中的频率,每 百万词使用的频率。 • 若对图2中的相应条块进行点击,那么就可以看到 KWIC,如图2.1.1-3 (以点Fiction的条块为例):
图2.1.1-1
图2.1.1-2
使用CHART显示
美国当代英语语料库(COCA)使用说明
/
免费的英语语料库资源
• /static/worldcorpora.htm
• /index.html
• /m/micase/ • http://lextutor.ca/conc/eng/ • /
COCA界面简介
COCA界面简介
• 字串查询区:
• Ⅰ、WORDS:输入字符串。 • Ⅱ、COLLOCATES:上下文限定。 • Ⅲ、POS LIST:词性列表
COCA界面简介
COCA界面简介
• 语料库分类区(五大类型语料库共包括42个 子语料库)。
相关主题