CALIS基本标准与规范CALIS数字对象唯一标识符命名规范CALIS基本标准与规范CALIS数字对象唯一标识符命名规范目录1 CALIS定义的数字对象唯一标识符方案 (14)2 唯一标识符中的元素 (14)2.1 馆数字代码 (15)2.2 集合名称 (15)2.3 ObjID (15)2.4 type (16)2.5 format (18)2.5.1 文本 (18)2.5.2 图像 (18)2.5.3 音频 (18)2.5.4 视频 (18)2.6 示例 (18)3 已有资源标识符的处理办法 (19)参考文献 (20)1 CALIS定义的数字对象唯一标识符方案就目前而言,DOI作为数字对象的唯一标识符方案在管理、注册和解析方面是发展最为完善的。
但CALIS无论是为自己的资源申请DOI,或是申请成为RA,都需要缴纳不菲的会员费或DOI的注册费及维护费。
因此,在CALIS项目建设中数字对象的唯一标识符方案,我们决定采用与国际命名方式结合的做法[6]:命名方式+注册机关代码+注册资源代码●命名方式:如以URN 方式则为urn,DOI 则为doi。
●注册机关代码:如为URN informal 方式,则由申请机关向注册中心(IANA)申请分发为urn-d(d 为数字),或申请URN formal 方式;若为DOI,则向注册中心(IDF 或CrossRef)申请分发一代码。
●注册资源代码则由注册单位内部自编,无一定格式,但要保证内部为唯一代号。
如URN 则需要提出内部编码方式给IANA 协会审查,而DOI 只要资源识别码注册时不与现有重复即可。
●+ 为区分码,如URN 为":",DOI 为"/" 等。
不管加入哪一个网络资源组织,其注册资源代码都是要由注册机关自定,未来只要再加上注册机关代码即可为国际间唯一的识别码。
故在未来不管国际间盛行哪一种网络资源组织,都可以快速简单地转换成该组织命名方式,使其符合系统扩充性及未来性。
2 唯一标识符中的元素综上所述,CALIS制定的唯一标识符(简称CALIS-OID)要符合URN的标准,成为URN的一个子集。
对于复杂数字对象,其语法为:urn:CALIS:馆数字代码-CollectionName[.CollectionName]/ObjID对于简单数字对象,其语法为:urn:CALIS:馆数字代码-CollectionName[.CollectionName]/ObjID.type.format 说明:命名方式“urn”应全部采用小写字母;CALIS-OID的长度最长不应超过255个字符;复杂数字对象与其所含的简单数字对象的CollectionName 、ObjID并无继承关系,请参见示例中的具体例子。
2.1 馆数字代码该项采用由中华人民共和国教育部高等学校图书情报工作指导委员会编写的《高校图书馆数字代码表》,以北京大学为例,其代码为211011,第一位数字“2”代表高等院校;第二位数字“1”代表地区;第三位数字“1”代表省市;第四到六位代表“011”代表学校。
《高校图书馆数字代码表》请查看CALIS主页:/allacademe.asp?fid=6&class=5对于学校分校区的情况,可在6位数字代码后加上一位字母以示区别,如211010A、211010B等。
系统会维护一套馆代码和馆名称的对照表,用于统计、解析等。
2.2 集合名称集合名称(又称仓库名称)CollectionName是必备的,可嵌套。
其中,CollectionName采用《信息资源名称规范列表》中资源的英文简称。
为避免唯一标识符过长,取其最具体的一种分类。
如在《信息资源名称规范列表》中不能找到合适的CollectionName,可自行分配。
下面列出11种元数据对应的CollectionName。
如一个学校承担了CALIS的多个项目的建设,而这些项目的数字资源类型有交叉,在没有一个统一的唯一标识符分配系统时,为避免发生重复分配唯一标识符的情况,可以在CollectionName加以区分,如使用rarebookA、rarebookB等来区分数字资源来源于不同的系统。
2.3 ObjID要求ObjID符合网络资源的命名规则:✓使用ASCII code 命名;✓文件名称大小写不敏感;✓不使用“%”、“/”、“?”、“#”、“*”、“-”、“.”、“:”字符。
如在镜像、备份等情况下,发生数字对象的拷贝情况,原则上使用相同的ObjID。
2.4 type对于简单数字对象,类型type是必备的,表明该对象的用途。
以下具体阐述已定义了一些资源的Type。
2.5 format对于简单数字对象,文件格式(format)也属必备项目,指明该数字对象的文件类型,以下列举了一些format的编码,如不在下列列举中,请向CALIS技术中心报告,获批准后推行。
2.5.1 文本TXT、PDF、HTML、XML、SGML、DJVU、DOC、RTF、CEB、PPT、PDG、KDH、NH、CAJ;2.5.2 图像TIF、GIF、JPG、PNG、PCD、MrSID、EPS、FLA、SWF、SVG、VML、VRML;2.5.3 音频WA V、MID、RMI、MP3、WMA、RA;2.5.4 视频MPG、A VI、MOV、WMV、RM;format项,可由唯一标识符注册系统(根据数字资源的文件扩展名)自动生成。
2.6 示例1.北京大学的某一篇学位论文:✓学位论文这个复杂对象——urn:CALIS:211011-ETD/S02024✓前16页——urn:CALIS: 211011-ETD/S02025.P.PDF✓对应论文全文——urn:CALIS: 211011-ETD/S02025.T.DOC2.北大古文献的古籍资源:✓古籍这个复杂对象——urn:CALIS: 211011-rarebook/R03n67✓古籍图像(存档级)——urn:CALIS: 211011-rarebook/R03n98.A.TIF✓古籍图像(网上浏览、中精度)——urn:CALIS: 211011-rarebook/R03n98.M.JPG✓古籍图像(网上浏览、缩略图)——urn:CALIS: 211011-rarebook/R03n98.S.JPG✓古籍图像全文(电子书)——urn:CALIS: 211011-rarebook/R03n99.REB.CEB 从上面可以看出,该古籍的复杂对象与简单对象的CollectionName、ObjID没有继承关系。
这种情况在下面北大名师的例子中表现尤为突出。
3.北大古文献的舆图资源:✓舆图这个复杂对象——urn:CALIS:211011-atlas/Tnksd0202✓舆图图像(存档级)——urn:CALIS:211011-atlas/Tnksd0203.A.TIFF✓舆图图像(网上浏览、缩略图)——urn:CALIS calis:211011-atlas/Tnksd0203.S.JPG✓舆图图像(网上浏览、大图发布)——urn:CALIS :211011-atlas/Tnksd0203.L.MrSID4.北大名师库中的某位名师:假设北大为了建设名师库,另外建了一些资源库,如书目库、图片库、视频库、音频库等这些数字资源。
✓名师这个复杂对象——urn:CALIS:211011-teacher/Teacher0452✓该名师的照片(网上浏览,中精度)——urn:CALIS:211011-picture/pic219.M.JPG✓该名师的照片(网上浏览,缩略图)——urn:CALIS:211011-picture/pic219.S.JPG✓该名师的著作(电子书)——urn:CALIS:211011-ebook/book156.REB.CEB✓该名师的一段录像(流式播放)——urn:CALIS:211011-video/video67.VM2.RM✓该名师的一段音频(本地播放)——urn:CALIS:211011-audio/audio23.L.MP3 从这个例子可以看出,为了建设名师库,其数字资源可以来自不同的库,为了避免出现一个数字资源有多个CALIS-OID,仍旧采用该数字资源原来的CALIS-OID。
3 已有资源标识符的处理办法对新建资源,要求强制采用CALIS唯一标识符方案;对已数字化并已有ObjID的资源,可按集合、type、format成批注册,形成一个ID对照表。
要求所有系统对新建资源支持CALIS数字对象唯一标识符,对原有资源只要通过ID对照表可解析即可。
对文中未涉及的资源,请提出其type草案,经CALIS技术中心批准后推行。
参考文献[1] 张锦堂XML 的名称领域(Namespaces).tw/~ctchang/mydoc/namespaces.html[2] 毛军数字对象唯一标识符的现状与发展[3] 陈燕电子出版控制的一项工具-DOI系统/book/books/print/netpub/link/doi.htm[4] 毛军、张晓林等数字图书馆数字对象唯一标识符问题[5] OpenURL语法:/OpenURL/OpenURL.html[6] 陈昭珍,陈立原,张文熙.数字化档案命名原则.tw/pub/c_news/89/01.html。