当前位置:文档之家› 语料库简单dye 第二讲

语料库简单dye 第二讲

2008/7/31语料库简单DIY 第二讲语料库软件初探--语料库软件初探--MonoConcPro 2.2本软件是Athelstan开发小组/ ,于1996年开发的语料库比较检索工具。

目前,我的服务器上提供学术性下载,下载地址: http://vu.flare.hiroshima-u.ac.jp/whistle/corpus/MoconcPro2.2.rar(本软件为学术交流使用,所有权归本软件开发小组所有,一切商务性盈利目的的违法使用,所带来的连带责任关系与本人及本论坛无关。

请慎重下载,小心使用!!!)功能介绍:软件主界面基本功能:MonoConc Pro 2.2 的软件界面比较简单。

适合语料库初学者和初级研究人员使用。

本软件据作者的研究,其内部主核使用UTF-8编码,基本支持欧洲几种主要语言。

当然,其主要的应用领域还是针对英语。

本软件主要处理的文本素材是以TXT结尾的记事本文件,当然,本软件还可以导入RTF文档和其他格式的操作系统默认文档格式。

不过,从DIY的角度来说,我们自己收集到的语料,为了免除格式,字体,行距等等文本要求,最好全部使用TXT文档,方便,省事!用了都说好!(谁用谁知道)我们按照自己的研究目的,研究方向,收集我们所需要的语料素材,具体的收集方法因人而异。

可以从报纸杂志的电子文文档上直接下载,也可以从网站上直接下载整理好的TXT版本的小说,资料素材等,还可以直接从各大语料库中检索需要的语用素材,然后拷贝粘贴到TXT文本中。

由于MonoConc Pro强大的跨文档处理系统,一次可以同时导入多个TXT文档进行比较处理,所以我们可以把文章或者资料按照自己喜好的分类标准进行分类,然后存成不同的TXT文件名。

检索的时候,只需要同时导入这些文件就可以了。

(异常强大~)下载好软件,解压缩,然后打开MP22.EXE文件,你就可以看到上图那个简单的主界面了。

之后,选择File→Lord Corpus File(s),找到你需要导入处理的TXT文档,一个或者多个都可以,然后选择[打开]。

指定的TXT文件就被全部导入进MonoConc Pro中了。

如果导入了过多的TXT文档,比如您导入了莎士比亚全集+马克思选+恩格斯选+列宁选+毛泽东选+邓小平选.....(不能否认,真的有这样的朋友存在)。

那么,为了方便您查询检索结果所出现的文章,你可以选择File→View Corpus File/URL,这样就能看到查询结果所在的文章,还可以删除不需要的文章,或者添加新的文章,非常简单。

*这里的URL,指的是在HTTP或者FTP上,可以直接打开的文字页面的链接。

一般朋友们DIY的语料库都是存在本地硬盘上的,所以基本上可以无视这个选项。

不过,将来我们的个人语料库要实现点对点,点对多的平台连接。

连接后,我们就可以相互查询对方个人语料库中的资料,此时在导入对方语料库中的文档的时候,就要用这个了。

(这个目前还很遥远,大家还是踏踏实实做自己的DIY语料库吧!)当我们要删除所有的文章的时候,这个时候仅仅关闭文章的窗口,是不能实现删除文章内容的。

关闭了窗口,只是你看不见了而已,但是文章实际上已经写入了内存,你必须将它清除出内存,才能在搜索的结果中排出掉不需要使用的文章。

这个时候,你就需要File→Unload Corpus功能了。

这里Unload只是卸载掉内存中的TXT文档,不是删除你的文章,所以不要害怕,大胆卸。

以上就是MonoConc Pro操作的基本功能。

这里需要说明一个问题,MonoConc Pro的File里面有一个Language的选项,里面你可以发现软件支持很多语言。

这里所谓的支持,只是显示TXT文档时所支持的语言编码。

也就是说,在MonoConc Pro里面是可以显示字母体系文字,和汉字体系文字的。

但是,但是,但是!在内存中处理的时候,软件是使用UTF-8欧洲语言进行处理的(ANSI),所以无法直接处理汉字编码Unicode或者ASCII编码。

不过,通过WORD或者其他的专码工具,也可以进行操作,但是本人研究了很多编,对于汉字编码的处理,系统总是出现很多错误,所以建议不要使用这个软件来处理汉字文本。

当然,有钻研精神的人,还是很鼓励的。

没有钻研精神也不要怕,MonoConc Pro介绍完了之后,我们会介绍专门处理汉字编码的软件Antconc3.2.0W,要好好支持我,我才讲哦!*有的朋友在打开自己所整理的TXT文本文件时,在MonoConc Pro进行操作的时候,会出现软件报错,或者软件自动关闭等状况。

这就是我在上面提到的编码问题。

在我们进行MonoConc Pro操作之前,我们有必要将我们的TXT 文档,用写字板打开,然后选择另存为,编码选择ANSI ,然后用新保存的文件进行MonoConc Pro操作,就会避免这个问题;当然也可以使用Word等更加强大的软件进行编码转换。

如果在这一点上有疑问,请联系我。

--------------------------------------------------课间休息------------------------------------------课间休息-------------------------------------------------进阶功能介绍:前半节的课程上,我们认识了MonoConc Pro软件的基本功能。

现在我们来学习今天课程的精华中的精华中的精华部分。

要好好听,不要走神哦! Word List 功能这个功能看名字很简单,但是实际上这是一个很了不起的功能。

首先我发上来两个图,大家可以参考一下。

第一副图是对于英文文章Word List---词汇频率出现的统计;第二幅图是对于汉语文章Word List 的统计结果。

从第一幅图上我们就可以很清楚的看到(可能这里看得不是很清楚),软件能够把英文单词准确地提取出来,按照单个词来统计频率。

而第二幅图就明显地看到,软件不能把汉字处理成为单个汉字来统计,那么Word List当你导入文件之后,你会发现,主页面的登陆画面上,这个选项。

这个也是一个很有用的选项。

它会将Word List的统计结果,按照字母表顺序排列,这样你就可以看到,同一个字母开头的词汇,哪些词出现的频率较高,对于词性研究,词类对比,使用对比等,想必是非常有用处的吧。

我也不是语言学的专家,有用没有用,还需要大家自己的判断。

Frequency下面还有一个选项,Frequency Options。

这个选项主要对于我们的频率检索做一些简单的设定。

里面规定了,结果显示行数,最低频率数,最高频率数,大小写区别,TAG区别等,没有特殊的需求,初学者一般不要修改这个选项比较好。

好了!我们现在已经学习了Word List的制作方法,也懂得了一些查询的选项。

在开头我也提到了,语料库软件的学习,其实也是培养一种理性地逻辑思维能力。

用这种逻辑思维去思考和设计语料库检索处理软件,来为自己的语料研究服务。

刚才我们讲了单词频率的统计。

那么,我向大家提出一个问题,如果遇到了两篇巨长的文章,我们要同时比较某个单词在这两篇文章中的出现频率,应该怎么做呢?!细心的你,一定注意到,在Frequency项。

这是一个伟大的选项。

虽然实现的是一个很不起眼,Save 存储这样的小破功能。

但是,对于后来我们的比较研究,确是必不可少的一步。

在我给大家提供的下载文件里面,我放入了很多DEMO用的TXT文档文件在SIMPLE文件夹中,还有一篇巨长的小说《罪与罚》。

这都是用来讲解和大家实践用的。

首先,我们运行软件,导入SIMPLE中的TXT文档(poorfolk.txt,demo.txt,demo2.txt,demo3.txt)!对!就是不要那个《罪与罚》。

然后我们统计这四篇TXT文档的Word List。

具体统计的操作方法,不会的朋友看上面的教程。

然后我们就看到了下面这个图:然后我们选择Frequency→Save as File 这个时候会出现一个对话框,这个对话框是提示需要用多少行来表示所统计的数据,一般我们默认为0,也就是用无限行来表示。

然后选择OK,这个时候出现保存程序的对话框。

我强烈建议,大家把文件不要存成TXT,存文件的时候,把保存类型选择为All files。

然后我们给文件随便命名为mantou。

这样就保存成了一个叫做mantou,但是不能直接运行的程序文件。

为什么这样?呵呵!这是一个小诀窍。

使用All files还可以用SQL,MYSQL,ACCESS等数据库文件打开这个叫做mantou好了,继续!现在我们使用Unload Corpus,卸载掉驻留内存的所有文档,然后打开罪与罚.txt (抱歉里面使用了日语,将就吧)。

然后对这一篇文章进行Word List频率统计。

就会出现下图:同样地,为了保险起见,我们也把这篇文章的Word List 存成名叫qianqian 的无指定程序运行的文件。

这个时候,我们选择Frequency→Corpus Comparison,在打开的对话框的文件类型中选择All Files。

然后我们就可以看到mantou那个文件了,选中它,然后打开。

这个时候我们就能看到下面这个图。

多数比,也就是复数文章以上的,针对指定单词的出现频率和出现次数的比较的话,那么最好是用EXCEL打开多个保存Word List的文件,直接在EXCEL上做统计,表格,图形处理,会比较直观(大家现在也明白我要把文件保存成那样哦。

至于要保存什么格式,大家自己决定吧!有了这些统计和比较的表格,是不是我们的语言研究就会更加理性一些呢?有兴趣的朋友,还可以尝试看看Frequency下的Sort命令,这个是对于比较统计结果的表格进行排列顺序以及显示方式的调整。

好了~罗嗦了一下午,也不知道大家感觉如何?是不是很久没有听计算机课的感觉?在今天的课里,我们主要讲解了MonoConc Pro 2.2的基本使用功能,并介绍了MonoConc Pro的一种进阶处理功能。

通过本次课的学习,我希望让大家从宏观上,对于DIY语料库时,所必需的语料检索和处理工具有一个大的了解。

不要看到电脑程序就头疼,其实这些东西都是人开发出来服务于人的,如果让你感到困惑了,那就违背了软件开发的初衷了!下节课我们将继续研究MonoConc Pro中,针对语料库中的语料定性,定向,定类等方面的检索和处理。

程序是很枯燥的,我尽量用通俗易懂的语言来讲解,希望大家能够认真学习。

如果有疑问和需要帮助,请在QQ群里直接提出来,我会尽力帮助大家解答。

版权所有,如果需要转载请注明出处和作者!谢谢。

相关主题