GreenStone实验报搞目录1 实验目的 (1)2 实验设备、材料 (1)3 实验内容与实验步骤 (1)3.1 数据库名 (1)3.2 实验内容 (1)3.3 Greenstone简介 (1)3.4 安装Greenstone V 2.86 (2)3.5 Greenstone功能简介 (6)3.6 Greenstone模块介绍 (7)3.6.1 Download模块 (7)3.6.2 Gather模块 (9)3.6.3 Enrich模块 (10)3.6.4 Design模块 (11)3.6.5 Create模块 (13)3.6.6 Format模块 (14)3.7 Greenstone实验过程 (15)3.7.1 确定馆藏主题 (16)3.7.2 导入并描述馆藏资源 (16)3.7.3 定制馆藏资源的检索与浏览方式 (19)3.7.4 定制馆藏功能与外观 (25)3.7.5 生成与发布馆藏资源 (31)4 实验收获与体会 (34)1实验目的本质目的:考核学生对Greenstone软件的运用能力,提高自主创新能力。
任务目的:利用Greenstone创建信管课程资料库,资料库要包含文本文档(doc.exl.ppt)、音频、图像,视频。
2实验设备、材料电脑、u盘、Greenstone软件、Greenstone资料与案例3 实验内容与实验步骤3.1数据库名数据库名:信管专业课程资料库3.2 实验内容实验内容:建立的库必须包含:包含文文本文档、音频、图像,视频。
布局合理,显示主题。
3.3 Greenstone简介Greenstone是一个面向全球、基于unicode编码支持多语言的开源软件。
也是一套用于创建、管理及发布数字图书馆馆藏的软件包。
提供了组织信息并在因特网或CD-ROM上发布的新方法。
Greenstone数字图书馆软件包的主要目的是为了帮助用户,特别是在大学图书馆以及其它公共服务机构里的用户来创建数字图书馆,鼓励信息的分享和共享。
数字资源要存储到Greenstone文档中,必须经过一个导入过程。
将原有的数据格式转换Greenstone系统特有的数据格式,Greenstone通过一系列插件来完成这个转换。
Greenstone系统本身提供了一些常用的插件,同时也允许用户编写自己的插件放入系统中。
在数据标引阶段,该系统允许为资源建立不同级别层次上的索引,例如可以在文件、章、节等不同层次上建立索引。
由Greenstone创建的馆藏支持各种文件格式的全文检索和基于不同元数据类型的元数据检索和浏览功能。
Greenstone可以通过基于Web和基于命令批处理两种方式建立收藏,可以接受html、pdf、txt、Email、Bibliographic等格式。
该系统支持文件分级浏览的全文标签,支持自动文本抽取和索引,数据转换为HTML,XML格式显示。
系统可以自动抽取简单的元数据(title、email,简要描述信息等),并通过元数据实现按主题的等级浏览和按机构和作者的分类列表。
Greenstone系统除了可以在因特网上发布资源外,还可以用于CD-ROM方式的内容发布。
Greenstone是一个完整的数字图书馆系统,包含了创建,管理和发布功能。
系统提供了可视化的操作界面,使用该系统的机构或个人不需要特殊的编程开发即可直接安装使用。
总结而言,Greenstone基本上可满足用户建立个人数字图书馆的需求,并且功能可以根据用户自身的需求设置,有较强的灵活性,操作简单,适合各类人群使用。
3.4安装Greenstone V 2.86①双击Greenstone.exe文件。
图3-1②选择软件语言。
V 2.86版的Greenstone能提供英语,法语,西班牙语,德语中文等多国语言,但经过亲身体验,我们发现安装英语的用户体验是最好的,中文版本的适配并不完善,而且部分系统无法成功安装。
图3-2③阅读软件许可,主要提到Greenstone是免费的开源软件等条款,我们点击接受即可进入下一步。
图3-3④选择安装路径。
默认是装在C盘,但是我们可以自由选择装在其他盘里。
图3-4⑤选择好目录之后,可以根据需要选择安装的组件,一般情况下我们都会选择全部安装,然后点击下一步。
图3-5⑥然后会进入管理员设置页面,因为本实验所建的资料库是我们自用的,因此我们没有设置管理员。
点击下一步。
图3-6⑦然后点击“安装”,等待完成即可。
图3-73.5 Greenstone功能简介Greenstone具备了个人数字图书馆的主要功能:(1)资源采集服务。
①帮助用户将个人计算机上的自创数字资源直接导入到数据库中;②提供搜索下载界面,运用http协议从网上下载资源,支持下载遵循OAI协议、Z39.50/SRW等互操作协议的数字仓储中的资源;③内嵌有MediaWiki开源搜索引擎软件,在检索框中输入关键词,就可以在网络上搜索。
(2)资源组织服务。
允许用户采用文件夹的方式组织信息,用户可以新建文件夹,建立文件夹等级结构。
文件夹内的文献采用元数据进行组织,提供多种元数据格式供用户选择,默认的元数据格式为DC元数据。
可以将两种不同的元数据集融合,也可以运用辅助工具Greenstone元数据集编辑器(GEMS)修改现在的元数据。
(3)查询服务。
①允许用户像平时浏览硬盘文件那样浏览该系统的文件,也可以按照作者、题名、日期、文件夹等浏览;②可以同时在多个文件夹中检索,也可以检索元数据的某一具体元素;③支持全文检索;④支持信息过滤功能,如可选择只显示某一格式如HTML,XML的文件;⑤提供插件供用户自行设置,扩展符合用户需要的特定检索功能需求。
(4)支持与其他数据仓储之间及元数据层面的共享。
用户可以通过stoneD 将Greenstone的内容导入Dspace中,也可以将Dspace的内容导入到Greenstone 中。
Greenstone使用的特殊格式遵循元数据编码与传输标准(METS),其元数据可以导出到METS中,也可从METS中导入元数据。
用户还可以将个人数字图书馆中的资源发布到网络上。
(5)其他功能。
包括界面个性化设置、支持多种文件格式、随时都有帮助功能、软件更新不会影响数据的使用等。
3.6 Greenstone模块介绍3.6.1 Download模块Download模块的界面见图3-8,可以看出,该模块的主要工作是从互联网上下载相应的资料,可以说,这个模块就是一个通用的爬虫工具,用于抓取馆藏建设将要用到的资料。
图3-8此模块下面,提供了多个下载方式,见图3-8中左上侧所示,它们分别是:Web:通过HTTP和FTP协议下载网页及文件。
MediaWiki:通过HTTP从一个MediaWiki网站上下载网页和文件。
OAI:从OAI-PMH(开放式存档倡导)服务器下载元数据记录(以及文档,可选项)。
Z3950:从Z39.50服务器下载与特定搜索条件匹配的MARC记录。
SRW:从SRW服务器下载与特定搜索条件匹配的MARCXML记录。
在这里,我们只使用过前两者,后面三种下载方式,我们在实验中没有用上,所以不作过多描述。
第一种Web是最常见的,工作原理是输入一个种子网址,然后爬虫工具根据这个种子网站进行网页的下载与保存,在下载种子网址的时候,将会抓取到页面上的链接,进而将该链接也下载与保存下来,这样循环工作,便会把所需的资料省时省力地下载到本地。
MediaWiki方式工作原理与Web类似,只是这种方式是主要针对使用MediaWiki软件作为网站的知识管理和内容管理系统的那些网站。
3.6.2 Gather模块Gather模块的界面见图3-9,我们可以在该模块上选定好所需的馆藏资源,然后将其复制到我们所创建的collection(馆藏集)上。
图3-9从图3-9可以看到,左侧有四个文件夹,每个文件夹的作用如下:Documents in Greenstone Collections:打开该文件夹便可以看到我们在Greenstone上面创建的集合。
Local Filespace: 打开该文件夹便可以看到主机上的各个盘符及里面的文件。
Home Folder: 打开该文件夹便可以看到系统用户的文件夹。
Downloaded Files: 打开该文件夹便可以看到上一个download模块所下载的资料。
图3-9中的右侧所显示的是本实验的馆藏集里的文件,将在下一部分进行描述。
3.6.3 Enrich模块Enrich模块的界面见图3-10。
这个模块是本系统的重点模块,作用在于选择所需的元数据集,对馆藏集里的文件进行元数据描述。
图3-10图3-10中左下角可以看到一个按钮,可以打开元数据集管理的界面,在系统里预定义的元数据元素集合称为"元数据集"。
都柏林核心元数据集就是一例,也是默认给出的一例。
当将一个元数据集添加到的馆藏中后,便可选择其中的元素。
可以添加多个元数据集。
为了防止名称冲突,一个标识该元数据集的简短标识符将被添加到元数据元素名称的前面。
比如都柏林核心元数据元素"创建者"就成为"dc.创建者"。
元数据集都存放在图书馆员界面的metadata文件夹中,并以".mds"为后缀。
Greenstone从文档中自动抽取元数据并存入一个以"ex."为前缀的元数据集。
这些元数据没有树结构且不可编辑。
当然,对于建设小型的馆藏而言,我们一般选择都柏林核心元数据集和Greenstone自动抽取的以"ex."为前缀的元数据集便可,同时也可以自由创建更适合的数据集。
关于编辑文件的元数据这一工作,还有两点需要注意的,一,文件的元数据值继承自其父目录(或上级目录)。
继承的元数据不能被编辑或者删除,只能被扩展。
点击文件夹图标将直接转到该元数据被赋值的文件夹。
二,元数据值可用层级结构组织。
这在元数据值树结构中则体现为用文件夹来显示内部层次。
要输入层级的元数据值可使用"|"符号来分隔层级。
例如,"卡|红色|方块"可以是代表一叠卡片的层级结构。
这使得元数据值可以组织到一起。
多组元数据值也可作为一个元数据赋予文件。
3.6.4 Design模块Design模块的界面见图3-11。
这个模块的作用主要在于建立查询索引和浏览索引,这两个功能也是本系统的重点内容。
图3-11图3-11中左侧的四个功能分别是:Document Plugins: 这部份描述如何配置馆藏中使用的文档插件。
它解释如何指定所要使用的插件,传递给这些插件的参数,以及插件以什么顺序出现。
在导入文件后对文件进行处理时系统会自动使用到这里的很多插件。
Search Indexes:索引指定馆藏中可被搜索的部分。