当前位置:文档之家› 常用在线语料库使用简介

常用在线语料库使用简介


字串查询区
图5-1
COCA
5. COCA界面简介(图5-1)
语料库分类区
图5-1
COCA
5. COCA界面简介(图5-1)
查询结果排列 方式区
图5-1
COCA
5. COCA界面简介(图5-1)
查询结果数据显示区
图5-1
COCA
5. COCA界面简介(图5-1)
例句显示区/帮助信息显示区
图5-1
结果如图6.5-2
图6.5-1
图6.5-2
COCA
7. 新增功能 7.1 Words and Phrases (图7.1-1)
/
图7.1-1
COCA
7. 新增功能 7.1 Words and Phrases 7.1.1 Frequency List (图7.1.1-1)
COCA语料库规模大,涵盖美国1990-2012年间
口语(spoken)、小说(fiction)、流行杂志(pop magzine)、报纸(newspaper)和学术期刊 (academic)五大类型的文本 使用界面友好,检索速度快 时效性强,不断更新功能
COCA
5. COCA界面简介 三大功能区:
图6.1.1-4
COCA
6.1.2 检索某一词性的单词
输入“feature.[v*]”,可得到“feature”做动词时的使
用情况 (图6.1.2-1) “.”表示feature不与其后的字符串组成短语 “[v*]”代表所有形式的动词 点击POS LIST后的问号,可了解具体词性代码
在搜索结果区可得到“feature”的频数 (图6.1.1-2 )
点击该词,可在例句显示区看到含有“feature”的词条
(图6.1.1-3)
图6.1.1-2
图6.1.1-3
COCA
6.1.1 检索某一词形
在显示方式区选择KWIC
并再次点击search, 可得含有“feature”的词语 索引(图6.1.1-4)
输入任意文本,可获得该文本中的高频学术词汇或短语。
图7.1-2
COCA
7. 新增功能 7.1 Words and Phrases 7.1.2 Analyze texts(图7.1-2)
图7.1-2
图7.1-2
COCA
7. 新增功能 7.2 Academic Vocabulary Lists
/ 可免费下载学术词汇词表
BNC
3. 其他BNC检索界面(如图3-1)
图3-1
COCA
4. COCA简介
由美国杨伯翰大学(Brigham Young University)的
Mark Davies 教授开发,是大型语料库资源平台 /的一部分。如图4-1
图4-1
COCA
4. COCA简介
个人语料库,如图8-2
图8-2
Sketch Engine
8. Sketch Engine 简介
主要功能
Sketch:呈现所检索词项在语法结构下 所搭配的高频词汇 Thesaurus:提供同义或近义词 Sketch-Diff:呈现近义词之间的搭配差异
图5.4-1
图5.4-2
COCA
5.5 查询结果数据显示区
以列表形式呈现结果 (图5.5-1)
图5.5-1
COCA
5.5 查询结果数据显示区
以图表形式呈现结果 (图5.5-2)源自图5.5-2COCA
5.6 例句显示区
默认例句显示方式 (图5.6-1)
图5.6-1
COCA
5.6 例句显示区
COCA
5.1 显示方式区(DISPALY) (图5.1-1)
LIST——列表显示 CHART——图表显示,可以显示在各语料库类型中的使用频
率和各时间段内的使用情况。 KWIC——Key word in context,例句以词语索引的形式呈现 COMPARE——单词比较显示,比较两个不同词或短语的搭 配情况。
输入任意词,可获得该词在COCA词表中的排位、频率、
搭配词、词语索引、近义词等信息。如图7.1.1-2
图7.1.1-1
COCA
7. 新增功能 7.1 Words and Phrases 7.1.1 Frequency List
频数
释义
近义词 各字库频数 词语索引
图7.1.1-2
COCA
7. 新增功能 7.1 Words and Phrases 7.1.2 Analyze texts(图7.1-2)
——以BNC、COCA和Sketch Engine 为例
One-word Introduction
英国国家语料库(British National Corpus/BNC): 库
容1亿词的现代英式英语样本集合,文本来源广泛,其 中书面语占90%,口语占10%。 美国当代英语语料库((Corpus of Contemporary American English/COCA): 库容为4.5亿词的大型平 衡语料库,含有多个字库,具有多种检索功能,可免 费在线使用。 Sketch Engine: 在线语料库管理及检索工具,可有效 总结词汇的语法及搭配行为。
图2.1-2
BNC
2.2 其他可下载的BNC产品
BNC XML edition:BNC全库 BNC Baby:BNC子库,包含小说、新闻、科技、口语
四类文本各100万词 BNC sampler:BNC 子库,包含书面语、口语两类文本 各100万词 注:以上语料库采用XML格式,需使用XAIRA软件检索
Ⅰ 显示及查询条件界定区,包括:显示方式区,
字串查询区,语料库分类区,查询结果排列方 式区。 Ⅱ 查询结果数据显示区 Ⅲ 例句显示区
COCA
5. COCA界面简介(图5-1)
/coca/
显示方式区
图5-1
COCA
5. COCA界面简介(图5-1)
图6.1.2-1
COCA
6.1.3 检索短语
输入“white [n*]”(图6.1.3-1)
可得所有white修饰的名词短语 (图6.1.3-2)
图6.1.3-1
图6.1.3-2
COCA
6.1.4 检索lemma
输入“[suggest]”(图6.1.4-1)
可得suggest所有词形的使用 情况(图6.1.4-2)
图6.3-1
COCA
6.3 对比某词项在两个子库中的频数 两子库中suggest的搭配词显著不同,频数也相差很多
图6.3-2
COCA
6.4 进行语义趋向比较
对比generate和create语义趋向 在显示方式区选择COMPARE,WORD(S)后输入
[generate]和[create],COLLOCATES后输入[n*],如图 6.4-1,结果如图6.4-2
图5.1-1
COCA
5.2字串查询区(图5.2-1)
WORDS:输入字符串 COLLOCATES:搭配词限定
POS LIST:搭配词词性限定
图5.2-1
COCA
5.3 语料库分类区
此区共包括42个子语料库,可以对查询的字符串限定语
料类型(Genre)和时段(Year) ,并可明确限定某一个子语 料库,或某一年某个字词的使用情况。(图5.3-1)
点击conditions可进一步观察prevail的语境 (图6.2-3) 通过观察例句,我们发现与prevail共现的conditions常
有消极意义的词修饰,例如harsh, precarious, daunting, severe, colder and drier, dangerous等 点击其中一条例句,可查extended context: Relatively peaceful conditions existed when the survey was conducted in April 1999. Very different conditions prevail three and a half years later. If similar findings are observed under these dissimilar conditions, confidence in their accuracy and generalizability will increase.
图6.1.4-1
图6.1.4-2
COCA
6.1.5 使用通配符检索
“*”代表任意数量的字符
“?”代表一个任意字符 输入un*ly和r?n*,结果如图6.1.5-1, 6.1.5-2
图6.1.5-1
COCA
6.1.5 使用通配符检索
图 6.1.5-2
COCA
6.2 检索搭配词
如需检索prevail前的名词,可在WORD(S)里输入
“[prevail]”,COLLOCATES里输入[n*],右边跨距设 为0, 如图6.2-1
图6.2-1
COCA
6.2 检索搭配词
prevail左侧高频搭配名词如下(图6.2-2) 由高频搭配词可知,prevail常与表示“条件,环境”,
或者“制度,观点”的词搭配
图6.2-2
COCA
6.2 检索搭配词
BNC
2.1 BNC simple search
可通过点击图2.1-1中的链接了解检索语言和词性标注代码
检索语言说明
词性标注代码
图2.1-1
BNC
2.1 BNC simple search
随机生成50条结果,不以索引形式排列。例如检索
“feature=VVB”,检索结果如图2.1-2
相关主题