《档案学研究》2010年第6期1《中国档案主题词表》语义网络化的意义国家档案局杨冬权局长于2010年5月12日在继“两个体系”之后又专门提出了在全国建立档案安全保障体系。
“三个体系”的建设是档案领域实现可持续科学发展的重要保证,同时,也使档案领域迎来了前所未有的发展机遇和挑战。
“三个体系”的建设涉及到档案事业的各个方面。
在网络化的信息时代乃至人类正在迈向知识社会之际,一个极其重要的方面就是要求对档案信息、知识资源进行科学整合与开发,从而建立起与当今社会相适应的“三个体系”。
只有这样才能进一步改进服务形式,提高档案信息服务特别是档案部门远程服务等能力。
[1]而简约知识组织系统(Simple Knowledge Or-ganization System,简称SKOS)标准恰恰能够推动主题词表这一类知识组织系统的语义网络化的应用,对于我国档案领域而言,就是可以推动《中国档案主题词表》语义网络化的应用。
《中国档案主题词表》语义网络化的应用可以建立起高效率的档案检索语义网,提升对我国档案资源的知识检索与共享利用服务,因此,对建立“覆盖人民群众的档案资源体系”和“方便人民群众的档案利用体系”,以及对《中国档案主题词表》语义网络化应用研究*段荣婷(南京政治学院上海分院信息管理系上海200433)摘要简约知识组织系统(简称SKOS)标准的应用是实现档案信息、知识资源的科学整合、开发与服务等能力提升目标的重要技术方法之一。
本文以《中国档案主题词表》的语义置标为例,详细阐述了SKOS系统化与规范化控制的具体实现。
关键词中国档案主题词表简约知识组织系统语义网Study on the Application of Chinese Archival Thesaurus in the SemanticWeb Based on SKOSDuan Rongting(Nanjing Politics College Shanghai Branch,Shanghai,200433)Abstract:The Simple Knowledge Organization System(abbr.SKOS)is a W3C standard and its application is one of the important technological methods of realizing the integration of archival information and knowl-edge resources and improving the ability in archival exploitation and services.Taking the Chinese Archival Thesaurus’marking-up for instance,this paper demonstrates the realization of SKOS’s systematic and standardized control.Key words:Chinese archival thesaurus;SKOS;Semantic web66--档案信息化建立“档案安全保障体系”,并最终推进档案信息化与社会化建设,开创档案事业全面、协调和可持续发展新局面都具有重要意义。
2简约知识组织系统(SKOS)概念及其标准化进程所谓的简约知识组织系统(SKOS)就是指:实现知识组织系统(简称KOS)表示的一种简单的资源描述框架(简称RDF)形式化语义置标语言。
其中,知识组织系统在档案领域主要是指档案主题词表、档案分类法;而简约知识组织系统,其“简约”,主要是与语义描述和转换机制更为复杂的诸如网络本体语言(简称OWL)等相比较而言的。
SKOS是RDF专门针对于知识组织系统在语义网上的具体应用,因此其标准化进程自2003年的语义网高级开发欧洲项目(简称SWAD-Europe)开始后,紧接着于2004年开始就得到了国际万维网联盟(简称W3C)语义网最佳实践与部署工作组(简称SWBPD-WG,目前称语义网部署工作组(简称SWDWG))的持续推进。
纵观而言,其标准化进程主要经历了2005年等几个大的发展阶段后,时至2009年8月18日,W3C正式颁布了SKOS的最新标准,该标准主要由SKOS规范正文(SKOS Reference)、SKOS指南(SKOS Primer)和SKOS实例与需求(SKOS Use cases&requirements)等构成。
3简约知识组织系统(SKOS)结构-功能及其理论性与科学性研究如前所述,SKOS的置标机理主要在于其定义了经由网络而共享与链接各种知识组织系统的共同数据模型。
而SKOS数据模型提供了将现有知识组织系统迁移至语义网的标准、低成本的路径。
[2]3.1简约知识组织系统(SKOS)的结构-功能分析如图1所示,由于SKOS基于RDF,因此其包含了一套RDF词汇表,即一系列RDF属性及RDF 模式(RDF Schema,简称RDFS)类,从而才得以实现对知识组织系统内容与结构特征的编码。
由此,SKOS是由资源类型(类)与链接类型(属性)组成的标准集3,即其数据模型的基本组成要素是其类与属性,其中类代表SKOS所置标知识组织系统及其构成要素等的“对象资源”类,及其描述内容的具体“值资源”类;而属性则是描述置标对象特征信息的不同分面。
类规定属性的定义域(Domain)与取值范围(Range)。
SKOS中共有4个内置类,分别为概念体系“skos:ConceptScheme”、概念集合“skos:Collection”与概念有序集合“skos:OrderedCollection”,及概念“skos:Concept”。
类之间又具有如skos:OrderedCol-lection与skos:Collection的类与超类等关系。
同时,SKOS又内置属性多达28种。
综上所述,SKOS数据模型类似于实体(类)-关系(属性)模型,根据SKOS数据模型类及其属性结构特征,SKOS的主要功能可简单归纳如下:①知识组织系统在语义网上的表示与出版。
SKOS的主要特征是提供了表达知识组织系统概念体系结构与内容的统一标准化RDF模型。
②主题标引、规范控制(Authority Control)与查询或浏览检索。
SKOS提供了各种丰富的语义关系属性,因此它可以作为信息系统内的标引资源。
③不同知识组织系统的语义互操作,易于实施不同信息系统的联合检索。
3.2简约知识组织系统(SKOS)的理论性与科学性分析3.2.1简约知识组织系统(SKOS)的理论性分析。
从语义所描述对象角度可以将语义划分为个体语义与关系语义两大类,个体语义主要面向人读,如SKOS的注释属性均具有个体语义描述功能,其可以为专业(标引)人员编制或用户利用知识组织系统提供指导。
而关系语义主要面向计算机处理,具体控制可划分为概念、术语,及词汇等三大层次。
4其中,概念层次的语义控制是整个主题词表描述的核心,它侧重内容,标识概念间(既包括不同概念体系间,亦包括同一概念体系内)的语义关系;术语层次的语义控制侧重手段,标识概念与语词间的语义关系;词汇层次的语义控制侧重形式,标识语词间的语义关系。
通过以上三层次,SKOS得以支持语义三角模式的概念(Concept)、术语语词(Label)描述,实现知识组织体系语义的基本描述功能,如图2所示。
3.2.2简约知识组织系统(SKOS)的优越性与科学性分析。
以叙词表为例,目前知识组织系统的表示还可以通过XML词表(如ZTHES,MESH)、概念图(Conceptual Maps)与主题图(Topic Maps,简称67--《档案学研究》2010年第6期XTM)、其他RDF词表(如LIMBER,CERES,ILRT),及OWL本体等置标语言技术途径来实现,但SKOS 有其综合性优势,即其科学性体现于:①与XML词汇相比较而言,SKOS基于RDF而更规范,能够在著录/描述级别上实现语义网资源集成;②与概念图或主题图相比较而言,由于SKOS具有部分OWL 特性而能够在逻辑级别上实现语义网资源集成;③与其他RDF词表相比较而言,由于SKOS基于概念模型(paradigm)而能够实现灵活、标准化的开发,对概念的描述具有更高的精细度与专指度;④与OWL 本体相比较而言,SKOS更利于词表表示/语义描述与网络化维护需求的简单化实现。
SKOS具有最大的成本效益。
4《中国档案主题词表》应用简约知识组织系统(SKOS)的分析如前所述,SKOS是使传统知识组织系统(KOS)应用于新的语义网络环境的重要手段之一,其中最为典型的便是档案主题词表与SKOS技术的结合。
使用SKOS的数据格式,可以单独表达叙词表词汇概念及词间关系[5],计算机可“理解”其中的知识结构和知识体系,并进而标准化地实现其语义网络化。
在国际档案领域,英国[6][7]、荷兰[8]等国家均已应用SKOS将其档案主题词表发布于语义网上[9],极大地提高了包括档案在内的文化遗产的标引与检索利用效益。
对于我国来讲,与图书领域相比,档案的各种检索工具尚均未实现电子化,更无法谈及其语义网络环境中的高级应用,而SKOS技术的出现无疑将是促进我国档案检索工具电子网络化跨越式发展的一条捷径。
因此本文以《中国档案主题词表》为例,分析其SKOS化的具体方法。
《中国档案主题词表》亦是一种叙词表,因此借鉴国际已有相关研究成果,其SKOS化也可采取步进式方法,步骤包括:①分析主题词表;②将主题词表数据条目向SKOS映射;③创建转换程序。
通过以上步骤形成RDF/XML编码,并进行语法验证,进而在网上发布。
[10]4.1《中国档案主题词表》基本结构分析我国目前所使用的仍是于1995年正式出版的《中国档案主题词表》(第二版),该标准亦与《ISO2788-1986文献单种语种叙词表编辑和修订指南》[11]相兼容。
《中国档案主题词表》的组成部分主要由主表、附表和辅助索引三个部分组成,具体包括主题词字顺表、范畴索引(主题词分类索引)、词族索引(主题词等级索引),及专有主题词索引(包括人名表、机构名表)等。
其中,主题词(叙词)字顺表是主体,即主表,因此其著录内容最详,由多条词款目组成有序集合。
每条词款目大体可分为款目词、标注项和参照项三部分(主题词款目结构概念模型如图3所示)。
主题词表中的词分为“正式主题词”和“非正式主题词”两类。
相应地,词款目也分为两种:著录主题词的词款目称为主题词款目,著录非主题词的词款目称为非正式主题词款目。
主题词款目实例及其与结构概念模型[12]之间的对应关系如图3与图4所示:68--档案信息化中国档案主题词表rdf:type skos:ConceptScheme ;dct:title “中国档案主题词表”;dct:creator中国档案主题词表编委会。