中文数字化期刊的DC 元数据标准设计实例刘廷元(西南石油学院图书馆,成都610500)摘 要 文章将元数据标准的使用作为各种不同的数字化期刊仓储资源共享的一种可行性方法进行了论述。
研究集中在三个方面:首先,讨论了数字化期刊采用元数据标准的必要性;其次,讨论了数字化期刊的DC 元数据定义与限定;最后,提供了一个用DC 111元数据和H TM L 410语法设计的中文数字化期刊元数据标准实例。
关键词 元数据 标准 数字化期刊 中文期刊 设计中图分类号 G 35311 文献标识码 A 文章编号 100727634(2003)0620609204An Exam ple of the DC M etada ta Standard D esign for Ch i nese D ig ita l Journa lsL iu T ingyuan(L ib rary of Sou thw est Petro leum In stitu te ,Chengdu 610500)Abstract T h is article deseribes the u se of m etadata standards as a viab le m ean s fo r shared resou rcesamong vari ou s differen t digital j ou rnalw arehou ses.O u r study concen trates on th ree con ten ts :F irst ,the article discu ssed under the necessity of u sing the m etadata standard in digital j ou rnals .Second ,the article discu ssed the sem an tic defin iti on and li m itati on of the DC elem en t set fo r digital j ou rnals .F inally ,w e p rovided them etadata standard of the Ch inese digital j ou rnals and an examp le of the design w ith the DC 1.1m etadata andH TM L 4.0syn tax .Keywords M etadata Standard D igital Jou rnal Ch inese Jou rnal D esign收稿日期:2002-09-09 数字化信息的结构化存储、有序化组织和高效、准确的检索,是数字化图书馆与商业数据库共同面临的一个问题。
由于WWW 空间的无限扩大,使得解决全球信息资源的无组织问题更加迫切。
目前,因特网上既有OCL C 、U nCover 那样庞大的数字化期刊服务,也有BaderL ine 、EBSCO ho st 、P roQ uest D irect 、Sp ringer 数字化期刊、CN K I 中国学术期刊网、维普中文科技期刊、万方中国数字化期刊网这样新兴的数字化全文期刊数据库服务,以及不断增加的上千种的网上出版期刊。
然而,这样巨大的期刊信息资源仓储却是以异构方式存在的,它们提供各自不同的信息存储、组织、检索与浏览方法,不能实现跨仓储的统一查找利用,造成了极大的信息资源浪费。
因特网上分布式的异构数字化期刊仓储如同一个没有索引卡片的传统图书馆。
但是,如果我们为这些数字化期刊的信息存储、组织、检索与浏览加上一个无形的统一索引目录——元数据标准,网上数字化期刊就会成为一个单一的、虚拟的、有组织的信息集合体,实现全球期刊信息的资源共享和跨仓储无缝查找,使期刊文献检索的查全率和查准率大大提高,从而极大地方便广大读者和用户。
1 数字化期刊采用DC 元数据标准的必要性 大多数数字化期刊(尤其是全文期刊数据库)都习惯采用自己特有的数字信息储存、检索技术,人为地使自己的产品在使用方式、字段、接口设计等方面造成差异和封闭。
强调产品的差异性而又不遵守统一的制作标准与规范,谋求利润最大化而又自我封闭,这就是数字化期刊制作与出版过程中普遍存在的二律悖反现象。
正是由于这种分布式的异构与封闭,才阻碍了当今信息资源的透明、公开、可扩展、互操作性、组织性和规模化建设,使数字化期刊在当今知识经济时代难以受到人们更多的喜爱。
具体地说,数字化期刊采用元数据标准的必要性主要有以下四个方面。
(1)元数据描述能够为数字化期刊建立一种计算机普遍可以理解的框架体系,使数字化期刊资源得以透明、公开。
因为元数据描述了数字化信息的内容、权利和外部环境这些基本特征,使得计算机系统可以自动辨识、抽取、分析和整合,进而使得数字化期刊信息简单、有效的被其它信息资源仓储利用。
(2)元数据的描述、标识和语法能够融入因特网通用的语言中,被迅速地装载或转换进各种索引数据库,使数字化期刊资源具有可扩展和互操作性。
一方面,建立在通用标记语言(SG M L )和扩展标记语言(X M L )之上的元数据语言,是国际互联网的通用语言,能够非常方便地被相同的元数据语言装载。
另一方面,即使是对于各种不同数字化期刊仓储类型的元数据体系,只要我们以W F 和RD F 为基础,通过语第21卷第6期2003年6月情 报 科 学 V o l 121,N o 16June,2003义影射、翻译等方法又可以迅速地将它们转换后封装在一起,整合成一个统一的资源数据库。
(3)元数据标准能够打破数字化期刊仓储的异构和封闭,建立起因特网信息空间的逻辑层,使数字化期刊资源实现组织性和规模化。
如果把分布在因特网上的每一个数字化期刊异构仓储看成是信息空间的一个物理层(ISO7498的O S I模型有7层),那么元数据标准就是这个信息空间得以连通的一个逻辑层。
也就是本文一开始就提出的,元数据标准能够整合因特网上的每一个数字化期刊资源,使它们成为一个单一的、虚拟的、有组织的信息集合体,实现全球期刊资源的跨仓储无缝查找。
(4)数字化期刊的元数据标准应用,能够结合元数据标准在多媒体信息仓储中的成功应用,实现文字信息资源与图像、声音和视频信息资源之间的连接、交换、共享与共用。
由于数字化期刊资源和多媒体资源都采用统一的元数据标准,它们就能同时打开文字信息资源和非线性、非结构性信息资源的大门,从而为数字图书馆、虚拟图书馆乃至数字化社会的建立奠定坚实的基础。
2 数字化期刊的检索入口和DC 元数据定义与限定 (1)数字化期刊的检索入口比较。
考察国内外元数据标准的应用、研究项目或工程后我们发现,其应用、研究基本上都是以图书、网页、会议论文及多媒体资源为著录对象的。
也许是因为数字化期刊太习惯于自我封闭这个社会原因,使他们不愿意采用元数据标准。
事实上,数字化期刊与图书、网页和其它“类文件对象”并无太大差异,有些方面甚至比图书、网页更单纯。
从理论上讲,这些数字化期刊有许多可以通用的检索入口(字段),它们的信息存储、组织、检索方式是完全可以采用DC元数据标准的。
为了更完整地将数字化期刊的检索入口纳入DC元数据标准,我们必须首先比较一下国内外的几个典型的数字化期刊数据库:①P roQ uest D ircet的检索入口有以下字段:T itle(题名)、ISSN、Sub jects T erm s(主题词)、Personal N am es(作者名)、Sou rce(来源,包括刊名、年卷期)、C lassificati on Codes(分类号)、Geograph ic N am es(地名)、D ata Pub lished (出版日期)、Fu ll T ex t(全文)、Jou rnal Search(期刊检索)、A b stract(文摘)。
②EBSCO ho st的检索入口有以下字段:T itle(题名)、Sub jects T erm s(主题词)、Sou rce(来源,包括刊名、年卷期)、A u tho rs(作者)、A b stract(文摘)、AN(登录号)、ISSN、Fu ll T ex t(全文)、M agazine(期刊)、D ata Pub lished(出版日期)。
③CN K I中国学术期刊网的检索入口有以下字段:篇名、全文、作者、关键词、机构、中文摘要、中文刊名、基金、引文、年代。
(2)DC元数据的语义定义与数字化期刊的DC限定。
为了避免在DC元数据标准应用、研究中的各种失误,我们必须对DC元数据的定义进行深入的了解。
因为DC元数据应用的关键是准确理解每一个元素的语义定义,根据定义进行规范化的具体限定。
通过上述三个数字化期刊数据库的检察入口比较,根据ISO标准、DC-1.1版本及其NM P用户创建指南,同时借鉴国内外元数据应用项目的实施方案,数字化期刊的DC元数据应用应该在以下12个元素的定义与限定上进行。
①题名(T itle)。
定义:由资源创建者或出版者给定的资源名称。
限定:在数字化期刊的著录例子中题名就是期刊论文标题。
②创建者(C reato r)。
定义:对资源内容负主要责任的人或机构。
限定:简单地说创建者就是期刊论文的作者(A u tho r)。
③主题(Sub ject)。
定义:资源的论题,通常是用那些描述资源内容的关键词或短语来表示。
限定:在我们的例子中,主题包括使用规范化词表和分类法的正规标引词和期刊论文的简单主题词、关键词或描述论题的短语词。
④描述(D escri p ti on)。
定义:描述元素是试图提供资源内容的文本描述,包括类文件对象(Docum en t-L ike O b jects)情形下的文摘或视频资源情形下的内容描述。
限定:缺省值是期刊论文的文摘(A b stract),在论文无“文摘”时可用“引言”(In troducti on)或“正文”的其它部分文字代替。
⑤出版者(Pub lisher)。
定义:印刷型数字期刊是出版印刷型文章的机构。
单一网络型数字期刊是使当前形态的资源成为可以利用的实体责任者。
限定:在我们的例子中,数字化期刊的出版者就是期刊本身,诸如出版社、学术机构(团体),商业数据库,或法人团体。
⑥日期(D ate)。
定义:指与创建或使资源成为可利用形态相关的日期。
限定:推荐采用ISO8601的YYYY(年)-MM(月)-DD(日)8位数字形式。
⑦类型(T ype)。
定义:资源的类别。
限定:资源类型可以从下列类型中选择:诸如主页、小说、诗歌、工作文件、技术报告、学位论文、会议论文、学术论文等。
⑧格式(Fo rm at)。