当前位置:文档之家› 英汉语语料库在语言研究中的应用

英汉语语料库在语言研究中的应用


(3)检索带通配符的词,通配符有“*”和“?” 两种,“*”代表任何多个任意字符,“?”代 表一个任意字符。
a. 检索“un*ly”,在第一检索栏words输入它既 可,下面的collocates和pos list不选,点击search 就可以得到所有的以un开头和ly结尾的词。
b. 检索“r?n*”词,“?”只代表一个任意 字符,操作如检索“un*ly”。
(2)随机数字法
翻到随机数字表任何一页,在任意一行或列开始,如你 的处理数字最大为9(即处理号1到9),则从任何一行 一组数据开始(如03 47 43 73 86 36 96 47 36 61 46 98 63 71 62 33 26 16 80 45 60 11 14 10 95 ),除去重复的数字 和0外,依次找到的数字(347869125)即是随机数字; 如你的处理数字大于9时,如12,则从任何一行一组数 据开始,(如03 47 43 73 86 36 96 47 36 61 46 98 63 71 62 33 26 16 80 45 60 11 14 10 95 )每三位一组如347除以12 得到的余数就是随机数字。
b. 也可检索某个词有特定关系的词,如靠 近eyes的所有“clos*”词,在第一检索栏输 入eyes,在collocates中输入“clos*”,检索 即可。
(5)检索同义词分布。 a. 如检索beautiful的形容词的分布,在第一检
索栏words中输入“[=beautiful]”,再选 sections,点击show打上钩就可,即可检索。
应用于词典编纂,语言教学,传统语言研究, 自然语言处理中基于统计或实例的研究等方面。
二、英汉语大型语料库简介
序号
序号
名称
名称
库容
库容
网址
网址
1
British National Corpus 400 m
/bnc/
m /
c. 检索带-ed的所有形容词,可以在在主页的 左上角第一检索栏words输入 “*ed.”,然后 点击pos list选参数“adj.all”,则第一检索栏 自动变为“*ed.[j*]”,就可以检索了。
(4)、检索搭配的词。
a. 检索靠近某个名词,动词,形容词或副词的 词。如检索靠近woman的所有形容词,在主页 左上角search string下的第一检索栏words输入 “[woman]”,然后点击collocates,再点击pos list选“adj.all+”,collocates中自动出现“j*”, 检索即可。
.tw/kiwi/m kiwi/index.html
三、 语料采集(以BNC为例)
(一)英国国家语料库(BNC)的使用方法 1. 网站: / 用户可以免费申请一个使用账户,用户名
是自己的电子信箱名。
2. 用户可以使用此语料库检索以下信息: (1)检索特定的词和短语。在主页的左上
角第一检索栏words输入要检索的内容,如 mysterious, 下面的collocates和pos list不选, 点击search即可。
(2)检索出某个词所有曲折变化的方法。 在主页的左上角第一检索栏words输入要检 索的内容,如[tall]、[sing],把检索的内容 放在方括号中。
8 北京大学汉语语言学研究 中心
英汉双语语料库
:8080/ccl_c orpus/index.jsp?dir=xiandai
9 中英双语在线 ChineseEnglish Online(CEO)
10 台湾现代汉语平衡语料库
500万
http://202.204.128.82/CEO/inde x1.html
英汉语语料库在 语言研究中的应用
讲座提纲
一、语料库定义 二、英汉语大型语料库简介 三、语料采集(以BNC和VOA为例) 四、语料处理 五、语料分析 六、小结
一、 语料库的定义
在语言学中,语料库(Corpus)指大量文本的 集合,库中的文本(称为语料)通常经过整理, 具有既定的格式与标记,特指计算机存储的数 字化语料库。
b. 同时比较几个同义词。如比较 stunning|gorgeous|charming,在第一检索 栏words中输入 “stunning|gorgeous|charming”,点击 search即可。
(6)比较两个词或近义词的分布。
a. 比较两个近义词。如small和little,men和 woman,先点击display 下的compare,然后输 入要比较的词,在collocates还可选择和他 们搭配的noun或adj参数,在pos list中选取 参数,自动出现在collocates中。
b. 比较两个词在不同文体中的分布。如 “illicit”和“illegal”, 先点击display 下的 compare,然后输入要比较的词,再在 section中选“来源”,点击搜索即可。
(二)VOA语料检索
CONCAPP软件介绍
四、语料处理
抽样方法 (1)抽签法 (2)等距抽样(K=N/n, a, a+k, a+2k, …)
Contemporary American
English (COCA)
3
The Bank of English
450 m /
4 国家语委现代汉语语料库 2000万 5 国家语委古代汉语语料库 1亿
/ /
6 北京大学汉语语言学研究 307,317, :8080/ccl_c
中心
060
orpus/index.jsp?dir=xiandai
现代汉语语料库
7 北京大学汉语语言学研究 中心
古代汉语语料库
:8080/ccl_c orpus/index.jsp?dir=xiandai
相关主题